Используйте ДВА индекса для выдачи результатов по поисковым запросам - Поисковые технологии

как у них это все работает???

4LF · 2005-09-09T19:28:09.0000000Z

грубая схема поискового индекса -куча инвертированных файлов (для каждого слова / предлога = яндекс предлоги тоже ищет) инвертированный файл по предлогу "И" будет весить не мало (если яндекс проиндексил 2 млн страниц = примерно 2 млн страниц содержат этот предлог), тогда получается что в файле содержится 2 млн. индексов (+ еще хранение позиций слова в документе). так вот если я задам запрос "и как" тогда система должна загрузить в память инвертный файл по слову "и" и по слову "как" ну затем слить их по AND так вот как они так быстро читают файлы (в каком формате хранится инфа в инвертном файле) ...

AA

70

AlexA

16 сентября 2005, 12:27

#31

Точное высказывание, встречал в этом треде нечто похожее: "Все сложнее, чем представляется сначала", "Все зависит от цели", "Все должно быть изложено с оптимальной простотой".

С уважением, Антонов Александр.

390

Artisan

16 сентября 2005, 13:14

#32

AlexA:
Точное высказывание,

Сразу ясно что человек понимает задачу, ...

█ www.leak.info / изучайте даром входящие указатели конкурентов и забытых доменов. █ Есть хороший способ подработки для умных людей, обучение даром, вопросы в личку.

[Удален]

18 сентября 2005, 12:58

#33

4LF:

а если все организовать на одном сервере (не смейтесь), то как организовать индекс?
я просто делаю на BerkeleyDB (b+tree) key это id_слова value пост-лист (пока только массив id_страниц). Например предлог "и" то мой пост-лист будет содержать столько элементов сколько проиндексировано страниц (например 1 000 000).
Этот массив нужно как-то сохранить в value (делаю на perl'e использую функцию pack и unpack; итог pack ~1сек unpack ~1сек + 1сек на считывание value), прокомментируйте/посоветуйте пожалуйста

1. Желательно использовать ДВА индекса, как минимум. 1-ый - рабочий, большой. 2-ой - маленький, быстрый, для выдачи результатов по поисковым запросам. Методы построения таблиц 1-го и 2-го индекса оптимизировать под задачи.

2. Ввести рейтинг текстов, с учётом рейтинга делать сортировку списка ID текстов, где встречается каждое слово.

3. В маленький индекс записывать только часть списка ID текстов. Т.к. пользователи не будут смотреть все 1'000'000 текстов. Например, Яндекс не даст посмотреть далее 1000. Разумно ограничить список домустимым размером 65535 байт. На каждый ID - 3 байта(16581375 максимальне число документов), получается 21845 текстов для каждого слова.

4. Операция объёдинения займёт о-очень мало времени, т.к. список по каждому слову в быстром индексе - ограничен.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

4F

20

4LF

23 сентября 2005, 08:24

#34

Maxim Golubev:
В маленький индекс записывать только часть списка ID текстов.

а по каккому критерию / критериям определять вставлять ID или нет в маленький индекс?

[Удален]

23 сентября 2005, 09:55

#35

4LF:
а по каккому критерию / критериям определять вставлять ID или нет в маленький индекс?

Смотрите пункт 2, моего предыдущего сообщения. Наиболее значимые тексты и вставлять в маленький индекс.

4F

20

4LF

24 сентября 2005, 12:20

#36

Maxim Golubev:
2. Ввести рейтинг текстов, с учётом рейтинга делать сортировку списка ID текстов, где встречается каждое слово.

рейтинг текстов = какие именно критерии учитывать при подсчете рейтинга (примеры или том где можно почитать про это)

A

31

alyak

4 октября 2005, 17:19

#37

Главное упущение , а кто сказал что он ищет "И" ? Я заметил что яндекс часто знает сколько раз повторяется слово , но на самом деле не ищет результаты . Т.е. например выдает найдено 5000 сайтов , но после первой сотни говорит - все .

Упал доход Закупаем ссылки уже 3,5 Яндекс кобласит

30

lagif

5 октября 2005, 07:24

#38

alyak,

Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...

Это тоже пройдет...

A

31

alyak

5 октября 2005, 07:27

#39

Я думаю что сосзадется макро-база, которая ужимается ( обрезается) затем до меньших объемов , при этом счетчики сохраняются .

С

10

Странник

20 декабря 2005, 23:30

#40

lagif:
alyak,
Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...

Там есть очень интересный эффект - если получить выдачу (первые 10 результатов) и перелистнуть, то Яндекс покажет реальные цифры количества сайтов по запросу. Подозреваю, что разница связана с тем, что первые 10 результатов хранятся в постоянном кеше и сопутствующие цифры по количеству сайтов - тоже. А вот остальные страницы выдачи считаются реально и цифры показываются текущие, а не кешированные.

Что делать, если ваша email-рассылка попала в спам

Вышел новый Яндекс Браузер с YandexGPT и YandexART

как у них это все работает???