Если вы решили строить все на одном сервере, поможет кэширование - Поисковые технологии

как у них это все работает???

4LF · 2005-09-09T19:28:09.0000000Z

грубая схема поискового индекса -куча инвертированных файлов (для каждого слова / предлога = яндекс предлоги тоже ищет) инвертированный файл по предлогу "И" будет весить не мало (если яндекс проиндексил 2 млн страниц = примерно 2 млн страниц содержат этот предлог), тогда получается что в файле содержится 2 млн. индексов (+ еще хранение позиций слова в документе). так вот если я задам запрос "и как" тогда система должна загрузить в память инвертный файл по слову "и" и по слову "как" ну затем слить их по AND так вот как они так быстро читают файлы (в каком формате хранится инфа в инвертном файле) ...

390

Artisan

12 сентября 2005, 07:26

#11

lagif:
Я тоже в свое время сама читала.

Далеко не все можно прочитать, ...

█ www.leak.info / изучайте даром входящие указатели конкурентов и забытых доменов. █ Есть хороший способ подработки для умных людей, обучение даром, вопросы в личку.

30

lagif

12 сентября 2005, 07:36

#12

Artisan:
Далеко не все можно прочитать, ...

А рассказать? Возьми да расскажи :)

Это тоже пройдет...

390

Artisan

12 сентября 2005, 08:06

#13

lagif:
Возьми да расскажи :)

Обмен должен быть полезен всем сторонам, ...

30

lagif

12 сентября 2005, 08:19

#14

Artisan, Ага...

4F

20

4LF

12 сентября 2005, 10:33

#15

lagif:
4LF, Вы не про те кластеры думаете...
Здсь кластер - это несколько объединенных в единую вычислительную систему компьютеров (читай: серверов). Каждый отвечает за отдельную часть индекса, и в определенный момент роутер при обращении пользователя отправляет его на менее загруженный сервер...
Примерно так.

хорошо... допустим у них индекс хранится на разных серверах (то есть часть там там и там) размер считываемых данных сократится = но все равно винт читает 60мб/с (около того)

30

lagif

12 сентября 2005, 11:10

#16

4LF, Ну и что? Все зависит от того, какого размера индексный файл... и вообще с чего вы взяли, что индекс у того же яндекса хранится не в оперативке?

390

Artisan

12 сентября 2005, 12:33

#17

4LF:
но все равно винт читает 60мб/с (около того)

Насколько я знаю у Google индекс полностью хранится в оперативной памяти, ...

E

17

eshum

12 сентября 2005, 13:56

#18

4LF:
хорошо... допустим у них индекс хранится на разных серверах (то есть часть там там и там) размер считываемых данных сократится = но все равно винт читает 60мб/с (около того)

Поиск ведется параллельно по всем (или по части) серверам кластера. Поэтому и скорость винчестера на время "отклика" влияет не значительно. Такая организация индекса иногда называется локальный инвертированный индекс - http://www.google.com/search?q=local+inverted+%28index+%7C+file%29

Кроме того индексы еще можно и компрессировать - http://citeseer.ist.psu.edu/scholer02compression.html

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

4F

20

4LF

14 сентября 2005, 15:48

#19

eshum, честно говоря про "локальный инвертированный индекс" не стал читать = но примерно понял на каждом сервере хранится часть индекса одного слова, и тогда при запросе параллельно считываются пост-листы (поэтому получается так быстро?)

а если все организовать на одном сервере (не смейтесь), то как организовать индекс?

я просто делаю на BerkeleyDB (b+tree) key это id_слова value пост-лист (пока только массив id_страниц). Например предлог "и" то мой пост-лист будет содержать столько элементов сколько проиндексировано страниц (например 1 000 000).

Этот массив нужно как-то сохранить в value (делаю на perl'e использую функцию pack и unpack; итог pack ~1сек unpack ~1сек + 1сек на считывание value), прокомментируйте/посоветуйте пожалуйста

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

14 сентября 2005, 17:49

#20

4LF,

Ну, во-первых, для слов вроде предлога "и" существует стоп-лист, или просто список служебных частей речи, которые сами по себе ценности в запросе не составляют. По таким индексные пост-листы строить не стоит.

Во-вторых, если вы решили строить все на одном сервере, поможет кэширование. Если не полное - ведите умную статистику запросов, которая будет отбирать самые популярные и хранить по ним кэши. Ну, тут уж все решают ваши алгоритмы, за вас их никто не придумает...

И раз мы заговорили о кэшировании, полагаю, что механизмы кэширования легче осуществлять, наверное, на собственной СУБД...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

как у них это все работает???