Многосерверность

1 234 5
alexf2000
На сайте с 15.10.2004
Offline
79
#21

Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.

А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.

Самый интересный SEO-блог (http://alexf.name)
alexf2000
На сайте с 15.10.2004
Offline
79
#22
monstring:
Индекс по определенному параметру, величина ничтожная по сравнению с размером документа.

Мы кажется на другом форуме про это уже спорили. :) Полнотекстовый индекс никак не ничтожная величина, а примерно равен по размеру самому документу.

I
На сайте с 26.05.2001
Offline
64
#23

Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.

По поводу архитектуры. Тут ИМХО два измерения.

1) Протокол опроса: corba, soap, собственный

2) Топология опроса. Варианты: линейная, когда один фронтенд сервер опраошивает все машины с индексами. Подоходит для средних сетей. Когда линейная не проходит, то нужно вводит машины второго или даже третьего эшелона, которые будут собирать промежуточные результаты. Типа, есть тысяча серверов поиска, 10 фронтенд машин и 100 промежуточных серваков, каждый из которых опрашивает 10 машин. Тогда фронтенд опрашивает десять промежуточных машин. В частности, наверное, логично, чтобы все такие машины были в одной подсети (физически в одном хабе). Тогда и задержки тоже будут минимальные.

alexf2000:
Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.
А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
snoopckuu
На сайте с 26.02.2006
Offline
34
#24

Буду стараться ответить частями, если что то пропущу сразу хочу попросить прощения.

snoopckuu:
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.


Просто интересно в чем невыгодность.

В том что Mysql пожирает гораздо больше ресурсов при меньшем кол-ве документов чем своя файловая система, тоесть документов меньше - расход ресурсов больше.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

Во-первых хотелось бы сразу уточнить, кто устанавливал какие то как вы выразились "обычный конфигурации" сервера, стандартов нету хочу 200гб хочу 500, если ставить скази интэрефейс то 1 тб держать можно без всяких потерь, но ваши потсчёты по поводу 2 терабайт не верны, тут абсолютно правильно сказал один из моих самых любимых разработчиков(в хорошем смысле слова, так как он очень открыт для общения) itman

Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.........
В принципе snoopckuu все абсолютно правильно сказал.
Единственное что стоит дополнительно заметить

Спасибо за согласие :), но дополнение тут особо не по сути, но всеравно спасибо.

Я повторюсь, что большая поисковая система которой нужен нормальный кластер как правило пишется своя файловая система, своя архивация данных и свой http сервер.

Задача очень не простая и в целом я считаю что вопрос задан не вполне корректно. Для каких целей вам нужна многосерверность может быть мы их мухи слона делаем а там и вовсе 80 млн которые можно запихнуть на один сервер?

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
alexf2000
На сайте с 15.10.2004
Offline
79
#25
itman:
Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.

Вовсе нет, я утверждал, что один обычный сервер просто-напросто не может такого количества документов содержать, потому что дискового пространства не хватит. Судя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ. Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)

snoopckuu
На сайте с 26.02.2006
Offline
34
#26

alexf2000,

удя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Можно ссылку на первоисточник?

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ.

Кто вам такую чушь сказал?

И ещё вопрос вы что нибудь о поиске с прунингом слышали?

I
На сайте с 26.05.2001
Offline
64
#27

Да что же тут невозможного-то???? Даже если это будет HTTP?

Каждый запрос идет с таймаутом. Кто не успел, тот опоздал. В результате, выборка иногда может зависить от того, кк сложились звезды. Так оно, обычно, и бывает.

alexf2000:
Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)
alexf2000
На сайте с 15.10.2004
Offline
79
#28
snoopckuu:
alexf2000,
Можно ссылку на первоисточник?

Конечно можно: http://en.wikipedia.org/wiki/Google

snoopckuu:
Кто вам такую чушь сказал?

Какую именно? :)

Вы кстати так и не привели никаких расчётов в поддержку вашего высказывания (чуши, если угодно) про 80 миллионов документов на 1 обычном сервере.

snoopckuu:
И ещё вопрос вы что нибудь о поиске с прунингом слышали?

Причём тут это? Я и про NegaScout слышал и что? :) Речь шла о полном опросе индекса, без всяких скидок и оптимизаций.

snoopckuu
На сайте с 26.02.2006
Offline
34
#29

itman, абсолютно с вами согласен.

У меня есть знаокмые для которыз интернет это яндекс.

И если сейчас яндексу рубануть 50% Базы 90% юзеров этого даже не заметят поверьте :)

А по вопросу это конечно не http Запрос а свой порт x на который подоётся запрос и от него ответ, не успел - до свидания.

так же стоит сервер который равномерно распределяет нагрузки между search серверами.

snoopckuu
На сайте с 26.02.2006
Offline
34
#30

alexf2000, хм, я вас немного не допонял, вы хотите сказать что на одном сервере нельзя разместить 80 млн документов и нормально на нём искать( до 2 сек) ?

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий