как у них это все работает???

1 234
AA
На сайте с 16.04.2001
Offline
70
#31

Точное высказывание, встречал в этом треде нечто похожее: "Все сложнее, чем представляется сначала", "Все зависит от цели", "Все должно быть изложено с оптимальной простотой".

С уважением, Антонов Александр.
Artisan
На сайте с 04.03.2005
Offline
352
#32
AlexA:
Точное высказывание,

Сразу ясно что человек понимает задачу, ...

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
[Удален]
#33
4LF:

а если все организовать на одном сервере (не смейтесь), то как организовать индекс?
я просто делаю на BerkeleyDB (b+tree) key это id_слова value пост-лист (пока только массив id_страниц). Например предлог "и" то мой пост-лист будет содержать столько элементов сколько проиндексировано страниц (например 1 000 000).
Этот массив нужно как-то сохранить в value (делаю на perl'e использую функцию pack и unpack; итог pack ~1сек unpack ~1сек + 1сек на считывание value), прокомментируйте/посоветуйте пожалуйста

1. Желательно использовать ДВА индекса, как минимум. 1-ый - рабочий, большой. 2-ой - маленький, быстрый, для выдачи результатов по поисковым запросам. Методы построения таблиц 1-го и 2-го индекса оптимизировать под задачи.

2. Ввести рейтинг текстов, с учётом рейтинга делать сортировку списка ID текстов, где встречается каждое слово.

3. В маленький индекс записывать только часть списка ID текстов. Т.к. пользователи не будут смотреть все 1'000'000 текстов. Например, Яндекс не даст посмотреть далее 1000. Разумно ограничить список домустимым размером 65535 байт. На каждый ID - 3 байта(16581375 максимальне число документов), получается 21845 текстов для каждого слова.

4. Операция объёдинения займёт о-очень мало времени, т.к. список по каждому слову в быстром индексе - ограничен.

4F
На сайте с 25.04.2005
Offline
20
4LF
#34
Maxim Golubev:
В маленький индекс записывать только часть списка ID текстов.

а по каккому критерию / критериям определять вставлять ID или нет в маленький индекс?

[Удален]
#35
4LF:
а по каккому критерию / критериям определять вставлять ID или нет в маленький индекс?

Смотрите пункт 2, моего предыдущего сообщения. Наиболее значимые тексты и вставлять в маленький индекс.

4F
На сайте с 25.04.2005
Offline
20
4LF
#36
Maxim Golubev:
2. Ввести рейтинг текстов, с учётом рейтинга делать сортировку списка ID текстов, где встречается каждое слово.

рейтинг текстов = какие именно критерии учитывать при подсчете рейтинга (примеры или том где можно почитать про это)

A
На сайте с 02.10.2004
Offline
31
#37

Главное упущение , а кто сказал что он ищет "И" ? Я заметил что яндекс часто знает сколько раз повторяется слово , но на самом деле не ищет результаты . Т.е. например выдает найдено 5000 сайтов , но после первой сотни говорит - все .

lagif
На сайте с 15.12.2004
Offline
30
#38

alyak,

Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...

Это тоже пройдет...
A
На сайте с 02.10.2004
Offline
31
#39

Я думаю что сосзадется макро-база, которая ужимается ( обрезается) затем до меньших объемов , при этом счетчики сохраняются .

С
На сайте с 31.10.2005
Offline
10
#40
lagif:
alyak,
Возможно, в этом случае все происходит из-за отсеивания повторяющихся доменов... надо проверить...

Там есть очень интересный эффект - если получить выдачу (первые 10 результатов) и перелистнуть, то Яндекс покажет реальные цифры количества сайтов по запросу. Подозреваю, что разница связана с тем, что первые 10 результатов хранятся в постоянном кеше и сопутствующие цифры по количеству сайтов - тоже. А вот остальные страницы выдачи считаются реально и цифры показываются текущие, а не кешированные.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий