как у них это все работает???

123 4
4F
На сайте с 25.04.2005
Offline
20
4LF
4382

грубая схема поискового индекса

-куча инвертированных файлов (для каждого слова / предлога = яндекс предлоги тоже ищет)

инвертированный файл по предлогу "И" будет весить не мало (если яндекс проиндексил 2 млн

страниц = примерно 2 млн страниц содержат этот предлог), тогда получается что в файле содержится

2 млн. индексов (+ еще хранение позиций слова в документе).

так вот если я задам запрос "и как"

тогда система должна загрузить в память инвертный файл по слову "и" и по слову "как"

ну затем слить их по AND

так вот как они так быстро читают файлы (в каком формате хранится инфа в инвертном файле) ...

GEREM
На сайте с 29.03.2005
Offline
139
#1

Лучше чем они сами, Вам никто не объяснит - http://company.yandex.ru/articles/romip2004.xml

Думаю, сможете найти в этом тексте ответ на свой вопрос.

С уважением, Минин Михаил. mihailminin.livejournal.com (http://mihailminin.livejournal.com)
lagif
На сайте с 15.12.2004
Offline
30
#2

4LF,

С таким кластером, как у яндекса... немудрено :)

Это тоже пройдет...
4F
На сайте с 25.04.2005
Offline
20
4LF
#3
lagif:
4LF,
С таким кластером, как у яндекса... немудрено :)

можно размерчик этого кластера :))

lagif
На сайте с 15.12.2004
Offline
30
#4

Не думаю, что меньше 20-ти штук... не смотрела, в инфе так глубоко не копалась... у Рамблера, если мне склероз не изменяет, тоже около 20-ти... а про гугль молчу. Наверняка, в разделах этого форума догадки, ссылки и точная информация есть :)

4F
На сайте с 25.04.2005
Offline
20
4LF
#5

ээээ...

я думал про кластеры на винте (типа чем больше кластер тем меньше голока винта юрзает в начало винта/ищет адреса/...), т.о. скорость чтения увеличивается (хотя 60мб/с не думаю что удастся сильно поднять)

lagif
На сайте с 15.12.2004
Offline
30
#6

4LF, Вы не про те кластеры думаете...

Здсь кластер - это несколько объединенных в единую вычислительную систему компьютеров (читай: серверов). Каждый отвечает за отдельную часть индекса, и в определенный момент роутер при обращении пользователя отправляет его на менее загруженный сервер...

Примерно так.

Artisan
На сайте с 04.03.2005
Offline
352
#7
lagif:
Каждый отвечает за отдельную часть индекса, и в определенный момент роутер при обращении пользователя отправляет его на менее загруженный сервер.

Все намного сложнее, ...

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
lagif
На сайте с 15.12.2004
Offline
30
#8

Artisan, Конечно, сложнее, я давала упрощенное объяснение.

Artisan
На сайте с 04.03.2005
Offline
352
#9
lagif:
Artisan, Конечно, сложнее, я давала упрощенное объяснение.

Все полезное и нужное должно быть изложено просто но не проще чем необходимо.

Альберт Эйнштейн.

lagif
На сайте с 15.12.2004
Offline
30
#10

Artisan, Пусть человек сам разбирается :) Я тоже в свое время сама читала.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий