Многосерверность

dkameleon
На сайте с 09.12.2005
Offline
386
#11
alexf2000:
Довольно удивительно, как на 1 сервер можно впихнуть 80 миллионов документов... У него размер диска какой? И какой средний размер документа? Если со всеми архивациями он сильно меньше 10-20к, то это явно какой-то другой интернет индексируется. :)

У нас на работе одно время стоял дата-сервер на 4.3 терабайта 🙄

В тему:

http://www.mysql.com/products/database/cluster/

Дизайн интерьера (http://balabukha.com/)
snoopckuu
На сайте с 26.02.2006
Offline
34
#12

dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

alexf2000, интернет индексируется самый обычный который есть у всех :) индексировался кусками, сейчас проиндексировано 100% байнета и ~35% укр-нэта.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
alexf2000
На сайте с 15.10.2004
Offline
79
#13

dkameleon, Сервер на 4.3 терабайта это конечно круто, но как оно относится к тому что тут обсуждается?

snoopckuu, Какой средний размер документа? Если сервер нормальный, с обычным диском/RAID-ом, то при таком общем количестве документов он не может быть сильно больше 1к. А при таком среднем размере индексироваться могут разве что 404е страницы, либо от страницы отрезается только заголовок. То есть чувствуется какой-то мухлёж. :)

Самый интересный SEO-блог (http://alexf.name)
dkameleon
На сайте с 09.12.2005
Offline
386
#14
alexf2000:
Сервер на 4.3 терабайта это конечно круто, но как оно относится к тому что тут обсуждается?

Отвечает на вопрос про 80 миллионов документов ;)

snoopckuu
На сайте с 26.02.2006
Offline
34
#15

alexf2000, какой мухлёж? Да вы что? :) Я разрабатываю поисковые механизмы уже больше 6 лет, но дело не в этом, обманывать мне не интересно да и не имеет смысла, рассказываю подробно берём информацию из разных источников, берём вэбальту главная страница поисковика и видим

Всего проиндексировано 363 844 949 документов объёмом 9 573Гб

9.5 тб на 363 844 949 документа это чисто сколько весят документы, после индексирования и сжатия в индекс они занимают на 20% меньше.

Берём яндекс

В поиске Яндекса сегодня
сайтов: 2 989 110,
веб-страниц: 1 099 622 535,
объем проиндексированной
информации: 26 960 ГБ.

так что физически хватит ~6 серверов по 4.3тб для того что бы поместить весь рунет проиндексированный яндексом без архивирования, но вам не хватит других мощностей для произведения поиска по этому индексу.

Более менее ясно?

K
На сайте с 14.08.2006
Offline
56
ksm
#16
snoopckuu:
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

Просто интересно в чем невыгодность.
QAвед-sunтехник
alexf2000
На сайте с 15.10.2004
Offline
79
#17
snoopckuu:


Всего проиндексировано 363 844 949 документов объёмом 9 573Гб
...
веб-страниц: 1 099 622 535,
объем проиндексированной информации: 26 960 ГБ.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

M
На сайте с 03.03.2004
Offline
43
#18

В принципе snoopckuu все абсолютно правильно сказал.

Единственное что стоит дополнительно заметить, что работа всегда идет не с оригинальными документами, а с результатами их анализа (индексами) и индексами этих индексов. Индекс по определенному параметру, величина ничтожная по сравнению с размером документа. Оригиналы обычно если и сохраняются, то архивируются достаточно эфективными методами чтоб существенно снизить размер.

Каждый сервер обычно хранит собственные данные (наиболее критичные целиком загоняются в память) и методы работы с этими данными. Т.е. грубо говоря быстродействие заключается в том, что за момент пока один сервер обрабатывает индекс по кейворду, второй обработает индекс по тематике, третий по ссылкам, и т.д.

Дневник БоГа (http://www.seriousrevenue.com/). Лента SEO форумов (http://www.seriousrevenue.com/scripts/rubot/). Статистика денег (http://www.seriousrevenue.com/scripts/rate/).
I
На сайте с 26.05.2001
Offline
64
#19

Средний веб-документ порядка 2-5 к тексту. Полный его размер 10-20к. Если исключить всякие доки с пдф будет еще меньше. Сжатый инвертированный индекс вполне себе влезает в 50% от размера текста. Ну сжатый образА HTML примерно как текст или полтора текста.

100 млн доков x 5 k тексту = 500 гб диска, умножаем на 1.5 получаем 1.5 террабайта. Ну если образы не хранить на том же сервере получаем 250 гб диска, что соответствует обычному серверу. А HTML для отрисовки сниппетов или прямой индекс можно хранить на одной машинке ну с очень большим и быстрым диском.

alexf2000:
Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
I
На сайте с 26.05.2001
Offline
64
#20

Кстати, насчет эффективных методов. Это зависит от архитектуры. Если есть прямой индекс, по которому отрисовываются сниппеты, тогда да: можно жать по полной, потому что разархивировать нужно только по нажатию на ссылку: сохраненная копия.

А если прямой индекс не хранить, а сниппеты делать минимум по HTML тексту, то тут уже очень эффективные методы использовать нельзя, потому что они реально долго распаковывают. Причем до десяти раз медленее какого-нибудь LZ.

monstring:
В принципе snoopckuu все абсолютно правильно сказал.
Единственное что стоит дополнительно заметить, что работа всегда идет не с оригинальными документами, а с результатами их анализа (индексами) и индексами этих индексов. Индекс по определенному параметру, величина ничтожная по сравнению с размером документа. Оригиналы обычно если и сохраняются, то архивируются достаточно эфективными методами чтоб существенно снизить размер.
Каждый сервер обычно хранит собственные данные (наиболее критичные целиком загоняются в память) и методы работы с этими данными. Т.е. грубо говоря быстродействие заключается в том, что за момент пока один сервер обрабатывает индекс по кейворду, второй обработает индекс по тематике, третий по ссылкам, и т.д.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий