Для каких целей вам нужна многосерверность? - Поисковые технологии

alexf2000 · 2006-09-01T16:49:38.0000000Z

Расскажите кто знает, как работает поисковая система, которая "сидит" по нескольким (многим) отдельным компьютерам? Допустим средний размер документа на диске - 25к, тогда на 1 нормальный сервер с 200ГБ винтом влезет примерное 4 миллиона документов - 100ГБ под сами копии документов и примерно столько же под индекс. То есть чтобы сделать базу на миллиард документов нужно 250 таких серверов. Но что делать при запросах? Это выходит при каждом запросе весь парк серверов должен опрашиваться? Как оно работает в реальности? :)

79

alexf2000

2 сентября 2006, 19:58

#21

Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.

А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.

Самый интересный SEO-блог (http://alexf.name)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

79

alexf2000

2 сентября 2006, 20:02

#22

monstring:
Индекс по определенному параметру, величина ничтожная по сравнению с размером документа.

Мы кажется на другом форуме про это уже спорили. :) Полнотекстовый индекс никак не ничтожная величина, а примерно равен по размеру самому документу.

I

64

itman

2 сентября 2006, 20:09

#23

Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.

По поводу архитектуры. Тут ИМХО два измерения.

1) Протокол опроса: corba, soap, собственный

2) Топология опроса. Варианты: линейная, когда один фронтенд сервер опраошивает все машины с индексами. Подоходит для средних сетей. Когда линейная не проходит, то нужно вводит машины второго или даже третьего эшелона, которые будут собирать промежуточные результаты. Типа, есть тысяча серверов поиска, 10 фронтенд машин и 100 промежуточных серваков, каждый из которых опрашивает 10 машин. Тогда фронтенд опрашивает десять промежуточных машин. В частности, наверное, логично, чтобы все такие машины были в одной подсети (физически в одном хабе). Тогда и задержки тоже будут минимальные.

alexf2000:
Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.
А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

2 сентября 2006, 20:18

#24

Буду стараться ответить частями, если что то пропущу сразу хочу попросить прощения.

snoopckuu:
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

Просто интересно в чем невыгодность.

В том что Mysql пожирает гораздо больше ресурсов при меньшем кол-ве документов чем своя файловая система, тоесть документов меньше - расход ресурсов больше.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

Во-первых хотелось бы сразу уточнить, кто устанавливал какие то как вы выразились "обычный конфигурации" сервера, стандартов нету хочу 200гб хочу 500, если ставить скази интэрефейс то 1 тб держать можно без всяких потерь, но ваши потсчёты по поводу 2 терабайт не верны, тут абсолютно правильно сказал один из моих самых любимых разработчиков(в хорошем смысле слова, так как он очень открыт для общения) itman

Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.........

В принципе snoopckuu все абсолютно правильно сказал.
Единственное что стоит дополнительно заметить

Спасибо за согласие :), но дополнение тут особо не по сути, но всеравно спасибо.

Я повторюсь, что большая поисковая система которой нужен нормальный кластер как правило пишется своя файловая система, своя архивация данных и свой http сервер.

Задача очень не простая и в целом я считаю что вопрос задан не вполне корректно. Для каких целей вам нужна многосерверность может быть мы их мухи слона делаем а там и вовсе 80 млн которые можно запихнуть на один сервер?

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

79

alexf2000

2 сентября 2006, 20:45

#25

itman:
Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.

Вовсе нет, я утверждал, что один обычный сервер просто-напросто не может такого количества документов содержать, потому что дискового пространства не хватит. Судя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ. Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)

Googlebot начал поддерживать сканирование Как работает поиск Яндекса Яндекс кобласит

34

snoopckuu

2 сентября 2006, 20:48

#26

alexf2000,

удя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Можно ссылку на первоисточник?

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ.

Кто вам такую чушь сказал?

И ещё вопрос вы что нибудь о поиске с прунингом слышали?

I

64

itman

2 сентября 2006, 21:10

#27

Да что же тут невозможного-то???? Даже если это будет HTTP?

Каждый запрос идет с таймаутом. Кто не успел, тот опоздал. В результате, выборка иногда может зависить от того, кк сложились звезды. Так оно, обычно, и бывает.

alexf2000:
Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)

79

alexf2000

2 сентября 2006, 21:16

#28

snoopckuu:
alexf2000,
Можно ссылку на первоисточник?

Конечно можно: http://en.wikipedia.org/wiki/Google

snoopckuu:
Кто вам такую чушь сказал?

Какую именно? :)

Вы кстати так и не привели никаких расчётов в поддержку вашего высказывания (чуши, если угодно) про 80 миллионов документов на 1 обычном сервере.

snoopckuu:
И ещё вопрос вы что нибудь о поиске с прунингом слышали?

Причём тут это? Я и про NegaScout слышал и что? :) Речь шла о полном опросе индекса, без всяких скидок и оптимизаций.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

2 сентября 2006, 21:16

#29

itman, абсолютно с вами согласен.

У меня есть знаокмые для которыз интернет это яндекс.

И если сейчас яндексу рубануть 50% Базы 90% юзеров этого даже не заметят поверьте :)

А по вопросу это конечно не http Запрос а свой порт x на который подоётся запрос и от него ответ, не успел - до свидания.

так же стоит сервер который равномерно распределяет нагрузки между search серверами.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

2 сентября 2006, 21:20

#30

alexf2000, хм, я вас немного не допонял, вы хотите сказать что на одном сервере нельзя разместить 80 млн документов и нормально на нём искать( до 2 сек) ?

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Open AI тестирует память для ChatGPT

Многосерверность