На серче есть:
http://booben.com/?q=%D0%B2%D0%B0%D0%B7%20%D0%BA%D1%80%D0%B5%D0%B4%D0%B8%D1%82&s=searchengines.guru
Используется Trie и NoSql база данных собственной разработки.
Она значительно быстрее работает чем существующие решения.
Например стандартный std::map из С++ построенный на красно черных деревьях превосходит в среднем по скорости в 5 раз. Достаточно легко оперирует таблицами в которых десятки и даже сотни миллионов ключей ( что важно для поисковиков )
Подробней еще здесь: http://blog.pikosec.com/?p=55
Индекс делится на две части. На тот что лежит на диске и тот что в ОЗУ. Новые страницы попадают в ОЗУ. Когда лимит выделенный на ОЗУ превышен, часть индекса из ОЗУ мержится с дисковым индексом и ОЗУ очищается.
Благодаря хорошей степени сжатия, индекс часто удается весь вытянуть в ОЗУ. Например расчет такой. На 56 ГБ проиндексированого контента индекс в районе 500-600 мб. На рабочей машинке сейчас 8 ГБ ОЗУ. Следовательно в ОЗУ можно разместить индекс сразу на несколько крупных ресурсов, вроде серчэнжин. Когда данные в ОЗУ, вопрос с фрагментацией уже не актуален.
ИМХО Соцсети это эволюционный тупик. Вики останется на своем месте.
Поисковые системы идут к агрегаторам.
Тоесть их задача в будуйщем будет не просто отдать топ сайтов,
а проанализировать самому этот топ сайтов, вычитать наиболее важную информацию и отдать пользователю информацию уже в своем формате.
Такая система с легкостью сможет ответить на вопросы:
"Найди мне все гостиницы в пределах 30 км где есть теннисный корт и бассейн"
"Пожалуйста мне список сайтов с фильмами онлайн, которые получили наилучший отзыв пользователей в интернете за последние три месяца"
"Список телефонов с наиболее емкой батареей с вот этим диапазоном цен"
/ru/forum/832998
Чем оно лучше Сфинкс, Люсена, Ксапиан и других подобных опенсорц проектов ?
Ну вот чтото типа такого 😂
Да, тут нужно учитывать, что в отличии от разных гуглов, у которых на "работа дома", "куплю машину" и тд уже захаркоджено 1500 позиций проплаченого топа - у меня это еще чистый незаангажированный поиск. Возвращает результаты без каких либо проплат, как есть, на основе конкурирующей модели ассоциативных связей. ☝
Ну вот взять гипотетический случай. У вас на аватарке ежик ест яблоки. Допустим в мире есть 10 ученных со своими блогами которые изучают процесс поедания ежиками яблок. Но как найти эти 10 сайтов ? Их найти нереально. Потому что про ежики и яблоки есть уже 100500 сайтов которые забили топ до десятой страницы. У вас нет возможности более тонко настроить поиск, чтобы из миллиардов страниц вернуть те что надо.
Проблема в том что 99% сайтов с хорошим контентом никогда не увидят топ.
Потому что как не лопать запрос, на первую страницу уже есть 100500 кое-каких претендентов.
Поиск по параметрам, самая простая и очевидная область.
Тут вопрос больше в другом. Если ли смысл усложнить поисковый фильтр для глобального поиска.
Не будет ли пользователь лениться его устанавливать ?
Ведь он привык к простой поисковой и малофункциональной строке.