Вовсе нет, я утверждал, что один обычный сервер просто-напросто не может такого количества документов содержать, потому что дискового пространства не хватит. Судя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.
Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ. Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)
Мы кажется на другом форуме про это уже спорили. :) Полнотекстовый индекс никак не ничтожная величина, а примерно равен по размеру самому документу.
Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.
А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.
Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).
Моё отношеник к поисковикам прямо пропорционально количеству получаемого с них трафа. :) С вебальты трафа 0.
А сколько такое стоит?
А в чём вопрос то? :) У меня по 1000000 в день таких записей в логах и что?
dkameleon, Сервер на 4.3 терабайта это конечно круто, но как оно относится к тому что тут обсуждается?
snoopckuu, Какой средний размер документа? Если сервер нормальный, с обычным диском/RAID-ом, то при таком общем количестве документов он не может быть сильно больше 1к. А при таком среднем размере индексироваться могут разве что 404е страницы, либо от страницы отрезается только заголовок. То есть чувствуется какой-то мухлёж. :)
Довольно удивительно, как на 1 сервер можно впихнуть 80 миллионов документов... У него размер диска какой? И какой средний размер документа? Если со всеми архивациями он сильно меньше 10-20к, то это явно какой-то другой интернет индексируется. :)
Не может быть индекс сколько-нибудь существенно меньше данных. Скорее всего в общем случае он будет больше.
При разносе индекса по буквам ты подумал как индексатор работать будет? :) Получится, что чтобы разложить 1 страничку в индексы - надо дёрнуть сотню серверов. Думаю врядли так кто-то делает.