А ведь да, ТС подтвердил это. Сейчас смотрю ахрефсом - очень похоже.
Кстати, там в pdf есть инфа о том, что было проставлено 4900 ссылок на sape, теперь можно пойти в ahrefs и посмотреть где закупается Демис.
В линейном массиве блоков данные хранятся в виде B+ дерева или линейного отсортированного массива? :)
У Вас ОЗУ используется как кэш или полностью дублирует индекс с харда?
Я к чему спрашиваю... Чтобы найти ноду с нужным значем на харде и вставить ее в дерево, нужно бежать по линейному массиву на харде искать ноду или обходить дерево и далее найденную ноду вставлять в дерево в ОЗУ.
У Вас диплом, исследовательская работа или диссер?
Я имел ввиду, например, у Вас есть индекс и Вы его храните в базе данных, которую Вы разработали (NoSQL).
Пусть даже уже что-то в ОЗУ подгрузилось или хранится на диске - не важно.
1) Индекс у Вас расположен в отсортированном в линейном массиве или B+ дереве?
Т.е. вот сделали запрос однословник - Вася. Код посчитал хэш и пошел гулять далее по линейному отсортированному массиву искать или обходим B+ деревья. Т.е. Какая реализация ?
***
Например, Вы еще проиндексировали 1 000 000 сайтов и добавили информацию в индекс. Если индекс строили с нуля, то один вопрос, если вставляли в текущий индекс, то вопрос:
2) Как боритесь с фрагментацией?
Потому что при вставке начинается все равно внутренняя фрагментация данных.
Наблюдаю два проекта. Один в гугл вошел в топ по ВЧ,СЧ,НЧ имея сквозняк (картинка) с тематики. Второй в топ яндекс по ВЧ тоже сквозняк (картинка) с тематики с картинки (2 сквозняка). Оба проекта молодых.
Успехов! Не забывайте головой кивать во время важных моментов. На подсознательном уровне это говорит человеку, который слушает, да, да, да....!
Частично просмотрел. Судя по всему проект делаете с нуля.
1) Какую хэш функцию используете: свою, известный алгоритм или дернули из какого-нибудь gnu проекта?
2) Индекс хранится отсортированным в линейном массиве или используете B+ деревья?
3) При обновлении индекса создаете новый и работаете по нему или идет вставка в существующий индекс?
4) Как боритесь с фрагментацией данных в хранилище (там где хранится индекс)?
Вот так глубоко не капал. Поэтому и спрашиваю.
Еще такой вопрос:
Вы архитектуру с нуля разрабатывали и с нуля код писали или форкнули что либо?
Ветку не читал,
Давно уже есть вот такое опенсоурсное решение:
http://www.opensearchserver.com/
Без суппорта можно просто скачать, изучать и использовать.
Можно под себя подделать формулу ранжирования.
Данный проект изучали?
Должны же быть обменники, которые меняют WMZ на WMB.
Т.е. 1) обменять 2) Купить за WMB.