Для хранения 80 миллионов документов нужно 2 тебарайта, чтобы поместить весь рунет проиндексированный яндексом без архивирования - Поисковые технологии

386

dkameleon

2 сентября 2006, 09:52

#11

alexf2000:
Довольно удивительно, как на 1 сервер можно впихнуть 80 миллионов документов... У него размер диска какой? И какой средний размер документа? Если со всеми архивациями он сильно меньше 10-20к, то это явно какой-то другой интернет индексируется. :)

У нас на работе одно время стоял дата-сервер на 4.3 терабайта 🙄

В тему:

http://www.mysql.com/products/database/cluster/

Дизайн интерьера (http://balabukha.com/)

34

snoopckuu

2 сентября 2006, 11:22

#12

dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

alexf2000, интернет индексируется самый обычный который есть у всех :) индексировался кусками, сейчас проиндексировано 100% байнета и ~35% укр-нэта.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)

79

alexf2000

2 сентября 2006, 12:50

#13

dkameleon, Сервер на 4.3 терабайта это конечно круто, но как оно относится к тому что тут обсуждается?

snoopckuu, Какой средний размер документа? Если сервер нормальный, с обычным диском/RAID-ом, то при таком общем количестве документов он не может быть сильно больше 1к. А при таком среднем размере индексироваться могут разве что 404е страницы, либо от страницы отрезается только заголовок. То есть чувствуется какой-то мухлёж. :)

Самый интересный SEO-блог (http://alexf.name)

386

dkameleon

2 сентября 2006, 14:09

#14

alexf2000:
Сервер на 4.3 терабайта это конечно круто, но как оно относится к тому что тут обсуждается?

Отвечает на вопрос про 80 миллионов документов ;)

34

snoopckuu

2 сентября 2006, 17:15

#15

alexf2000, какой мухлёж? Да вы что? :) Я разрабатываю поисковые механизмы уже больше 6 лет, но дело не в этом, обманывать мне не интересно да и не имеет смысла, рассказываю подробно берём информацию из разных источников, берём вэбальту главная страница поисковика и видим

Всего проиндексировано 363 844 949 документов объёмом 9 573Гб

9.5 тб на 363 844 949 документа это чисто сколько весят документы, после индексирования и сжатия в индекс они занимают на 20% меньше.

Берём яндекс

В поиске Яндекса сегодня
сайтов: 2 989 110,
веб-страниц: 1 099 622 535,
объем проиндексированной
информации: 26 960 ГБ.

так что физически хватит ~6 серверов по 4.3тб для того что бы поместить весь рунет проиндексированный яндексом без архивирования, но вам не хватит других мощностей для произведения поиска по этому индексу.

Более менее ясно?

K

56

ksm

2 сентября 2006, 17:26

#16

snoopckuu:
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

Просто интересно в чем невыгодность.

QAвед-sunтехник

79

alexf2000

2 сентября 2006, 18:07

#17

snoopckuu:

Всего проиндексировано 363 844 949 документов объёмом 9 573Гб
...
веб-страниц: 1 099 622 535,
объем проиндексированной информации: 26 960 ГБ.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

M

43

monstring

2 сентября 2006, 19:36

#18

В принципе snoopckuu все абсолютно правильно сказал.

Единственное что стоит дополнительно заметить, что работа всегда идет не с оригинальными документами, а с результатами их анализа (индексами) и индексами этих индексов. Индекс по определенному параметру, величина ничтожная по сравнению с размером документа. Оригиналы обычно если и сохраняются, то архивируются достаточно эфективными методами чтоб существенно снизить размер.

Каждый сервер обычно хранит собственные данные (наиболее критичные целиком загоняются в память) и методы работы с этими данными. Т.е. грубо говоря быстродействие заключается в том, что за момент пока один сервер обрабатывает индекс по кейворду, второй обработает индекс по тематике, третий по ссылкам, и т.д.

Дневник БоГа (http://www.seriousrevenue.com/). Лента SEO форумов (http://www.seriousrevenue.com/scripts/rubot/). Статистика денег (http://www.seriousrevenue.com/scripts/rate/).

I

64

itman

2 сентября 2006, 19:49

#19

Средний веб-документ порядка 2-5 к тексту. Полный его размер 10-20к. Если исключить всякие доки с пдф будет еще меньше. Сжатый инвертированный индекс вполне себе влезает в 50% от размера текста. Ну сжатый образА HTML примерно как текст или полтора текста.

100 млн доков x 5 k тексту = 500 гб диска, умножаем на 1.5 получаем 1.5 террабайта. Ну если образы не хранить на том же сервере получаем 250 гб диска, что соответствует обычному серверу. А HTML для отрисовки сниппетов или прямой индекс можно хранить на одной машинке ну с очень большим и быстрым диском.

alexf2000:
Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

I

64

itman

2 сентября 2006, 19:53

#20

Кстати, насчет эффективных методов. Это зависит от архитектуры. Если есть прямой индекс, по которому отрисовываются сниппеты, тогда да: можно жать по полной, потому что разархивировать нужно только по нажатию на ссылку: сохраненная копия.

А если прямой индекс не хранить, а сниппеты делать минимум по HTML тексту, то тут уже очень эффективные методы использовать нельзя, потому что они реально долго распаковывают. Причем до десяти раз медленее какого-нибудь LZ.

monstring:
В принципе snoopckuu все абсолютно правильно сказал.
Единственное что стоит дополнительно заметить, что работа всегда идет не с оригинальными документами, а с результатами их анализа (индексами) и индексами этих индексов. Индекс по определенному параметру, величина ничтожная по сравнению с размером документа. Оригиналы обычно если и сохраняются, то архивируются достаточно эфективными методами чтоб существенно снизить размер.
Каждый сервер обычно хранит собственные данные (наиболее критичные целиком загоняются в память) и методы работы с этими данными. Т.е. грубо говоря быстродействие заключается в том, что за момент пока один сервер обрабатывает индекс по кейворду, второй обработает индекс по тематике, третий по ссылкам, и т.д.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard

Многосерверность