Зачем нужно хранить индексы в нескольких файлах? - Поисковые технологии

17

eshum

14 сентября 2005, 18:22

#21

4LF:
eshum, честно говоря про "локальный инвертированный индекс" не стал читать = но примерно понял на каждом сервере хранится часть индекса одного слова, и тогда при запросе параллельно считываются пост-листы (поэтому получается так быстро?)

а если все организовать на одном сервере (не смейтесь), то как организовать индекс?

Для одной машины тоже лучше хранить индексы в нескольких файлах. Например можно их положить на разные диски, что ускорит чтение. Кроме того, так можно частично решить проблему обновления индекса, когда при доиндексировании нескольких документов прийдется "перелопатить" почти весь индекс. А так, разбив индекс на несколько файлов, уже будет легче, т.к. прийдется обновлять всего лишь его часть. Сооветственно при таком обновлении весь документ должен полностью сохраняться в одном файле индекса.

я просто делаю на BerkeleyDB (b+tree) key это id_слова value пост-лист (пока только массив id_страниц). Например предлог "и" то мой пост-лист будет содержать столько элементов сколько проиндексировано страниц (например 1 000 000).

Можно не учитывать распространенные части речи, т.е. использовать списки стоп-слов. Наверное есть и другие способы.

Этот массив нужно как-то сохранить в value (делаю на perl'e использую функцию pack и unpack; итог pack ~1сек unpack ~1сек + 1сек на считывание value), прокомментируйте/посоветуйте пожалуйста

Насчет способа хранения: пост-лист сохраняют обычно отсортированным, в порядке возрастания id документов. Причин тому несколько:

1) При поиске нескольких слов нужно объединять несколько пост-листов. При отсортированных списках это делается достаточно быстро - бинарным методом или другими более эффективным.

2) Для лучшей компресии, в отсортированных списках принято хранить не абсолютные значения id документов, а относителные (чем меньше значения - тем выше степень сжатия). Например 10, 15, 17, 18, 21 хранится как 10, 5, 2, 1, 3 (т.е. 10, 10+5, 15+2, 17+1, 18+3).

AA

70

AlexA

15 сентября 2005, 11:53

#22

Ну, во-первых, для слов вроде предлога "и" существует стоп-лист, или просто список служебных частей речи, которые сами по себе ценности в запросе не составляют

Например предлог "и" то мой пост-лист будет содержать столько элементов сколько проиндексировано страниц (например 1 000 000).

Не вижу серьезной проблемы в хранении и обработке "и".

Частотность этого предлога ~3%, следовательно хватит 5-6 бит на одно словоупотребление. Кладем с запасом байт, при скорости чтения 60 Мб/сек за 1 сек можно прочитать 60 млн словоупотреблений, этого хватит на базу с общим словоупотреблением примерно 1,8 млрд. Т.е. около 15 Гб текста. Достаточно для одной машины? И это при простейшем решении.

С уважением, Антонов Александр.

30

lagif

15 сентября 2005, 12:31

#23

AlexA,

А зачем? - вот в чем вопрос? Чтоб жизнь себе усложнять и индекс увеличивать?

Нормальный человек не будет "и" вводить как ключевое слово запроса. Или вы собираетесь по нему искать? :)

Кроме того, поверьте - 3% - это ОЧЕНЬ много :)

При всем при том, 60 млн/ сек. - утопия. При остальных дисковых операциях и многопоточности поиска... или у вас получилось ? :)

Это тоже пройдет...

AA

70

AlexA

15 сентября 2005, 14:26

#24

А зачем? - вот в чем вопрос?

То, что это есть в яндексе и гугле, недостаточно?

Хорошо, например, для поиска точных фраз, а также инициалов: Иванов И.И. и Иванов А.А. - есть разница, правда?

... или у вас получилось ?

Вы про 60 Мб/с? Эти цифры давал не я - вопрос к постановщику данной задачи.

Прямые заходы ботов на Как дают сайту "настояться"? Количество ссылок в покупной

30

lagif

15 сентября 2005, 14:30

#25

AlexA,

Конечно, недостаточно!

Яндекс и Гугль себе такое позволить могут. Не сравнивайте кластерную систему с одним-единственным сервером и СУБД - беркли ДБ.

Поверьте, с такой частотой слов, как служебные части речи - ваш локальный поисковик может запросто загнуться...

Кроме того, если такая часть речи встречается в НОРМАЛЬНОМ запросе, не требующем точности, она, скорее всего, учитывается только в окончательном ранжировании.

Google о влиянии «плохого» Google о переносе сайтов Интересные возможности поисковика Exalead

AA

70

AlexA

15 сентября 2005, 16:05

#26

Давайте разделим проблемы "зачем" и "может загнуться".

На второй вопрос я попытался ответить выше, а на первый - в предыдущем посте.

Что до реализации сего в локальном поисковике, то мы это сделали (да и не только мы) достаточно давно. Правда, базы тогда были до гигабайта, машины - первые пентюхи (помните такие?).

352

Artisan

15 сентября 2005, 16:30

#27

Весь этот спор не имеет смысла потому что очень многое зависит от того для чего именно нужна поисковая система.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов

30

lagif

15 сентября 2005, 17:42

#28

AlexA,

Я упоминала о "точном" поиске. В том же яндексе, если в запросе есть слова длиней одной буквы, поиск идет в первую очередь по ним, а ранжирование - с мелкими словами.

И вообще - в данном случае "зачем" и "загнется" - две стороны одной проблемы.

Я сама занимаюсь поисковиком, поэтому представляю многие аспекты проблемы.

Artisan,

Конечно, не имеет :) но давай не тыкать пальцами в первого на деревне спорщика :)

Яндекс кобласит ISPmanager -> FastPanel простой Google о влиянии «плохого»

AA

70

AlexA

15 сентября 2005, 19:49

#29

Если можно, Artisan, чуть конкретнее. Желательно, примеры, когда стоит экономить на стоп-словах, строя индекс, а когда нет.

В то, что Вы, lagif, представляете многие аспекты проблем ПС, у меня сомнений нет. Будет время, с удовольствием могу с Вами обсудить и проблемы ранжирования.

30

lagif

16 сентября 2005, 06:44

#30

AlexA,

Правильное ранжирование - недостижимый идеалЪ :D

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Переиграть и победить: как анализировать конкурентов для продвижения сайта

как у них это все работает???