alexf2000

alexf2000
Рейтинг
79
Регистрация
15.10.2004
itman:
Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.

Вовсе нет, я утверждал, что один обычный сервер просто-напросто не может такого количества документов содержать, потому что дискового пространства не хватит. Судя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ. Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)

monstring:
Индекс по определенному параметру, величина ничтожная по сравнению с размером документа.

Мы кажется на другом форуме про это уже спорили. :) Полнотекстовый индекс никак не ничтожная величина, а примерно равен по размеру самому документу.

Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.

А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.

snoopckuu:


Всего проиндексировано 363 844 949 документов объёмом 9 573Гб
...
веб-страниц: 1 099 622 535,
объем проиндексированной информации: 26 960 ГБ.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

Моё отношеник к поисковикам прямо пропорционально количеству получаемого с них трафа. :) С вебальты трафа 0.

А сколько такое стоит?

А в чём вопрос то? :) У меня по 1000000 в день таких записей в логах и что?

dkameleon, Сервер на 4.3 терабайта это конечно круто, но как оно относится к тому что тут обсуждается?

snoopckuu, Какой средний размер документа? Если сервер нормальный, с обычным диском/RAID-ом, то при таком общем количестве документов он не может быть сильно больше 1к. А при таком среднем размере индексироваться могут разве что 404е страницы, либо от страницы отрезается только заголовок. То есть чувствуется какой-то мухлёж. :)

Довольно удивительно, как на 1 сервер можно впихнуть 80 миллионов документов... У него размер диска какой? И какой средний размер документа? Если со всеми архивациями он сильно меньше 10-20к, то это явно какой-то другой интернет индексируется. :)

dkameleon:
При выборке, на сколько я знаю, сначала идёт обращение к индексу, который поменьше самих данных ;)

Или, к примеру можно распределить по первой букве по серверам :)
слова на "А" на одном сервере, на "Б" - на другом... и так далее :)

Не может быть индекс сколько-нибудь существенно меньше данных. Скорее всего в общем случае он будет больше.

При разносе индекса по буквам ты подумал как индексатор работать будет? :) Получится, что чтобы разложить 1 страничку в индексы - надо дёрнуть сотню серверов. Думаю врядли так кто-то делает.

Всего: 346