Посчитаем на русских доументах и реальных цифрах - Bing, Rambler, Baidu, Yahoo

130

Vyacheslav Tikhonov

25 октября 2005, 09:34

#11

Всё это может потянуть одна машина, вопрос только в том, что это будет за машина Кто хочет прикинуть конфигурацию ?

Потянуть-то вполне потянет, и поиск работать будет, но обновлять такой индекс из-за большого размера будет непросто. И долго.

С

10

Странник

20 декабря 2005, 10:30

#12

Alex Tanchik:
от куда взялась цифра 100 kb?
если делать базу как все сейчас делают, т.е. хранить не слово, а ID слова и координаты, то база будет занимать намного меньше вами предполагаемого места
http://index.bigmir.net/ - смотрим статистику поиска
грубо говоря, на 1 млн страниц нужно 6 гиг, в итоге, на 1000 млн нужно всего 6 тер, а не 100
для распределенной системы это не проблема, а она по любому будет распределенной, для такого объема

А давайте посчитаем на русских доументах и реальных цифрах ;) Возьмём официальные данные Яндекса. Размер индекса Яндекс.Сервера составляет 30-50% от размера документов ( http://company.yandex.ru/technology/products/Yandex-Server/intro.xml#requirement ). Будем считать по нижней грани: 30% от 30 кб (средний размер документа в Яндексе) = 10 кб/документ. Итого 10 Тб. 100 серверов только на хранение одной копии индекса.

Теперь добавим копии всех документов. Получим ещё 30 Тб. Можем ли мы их зазиповать и уменьшить объём базы на треть - не уверен - нужно смотреть нагрузку на раззиповку и на количество пользователей, которые лезут на один сервер одновременно: может оказаться дешевле хранить несколько оригинальных копий, а не одну зипованную. Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных. Без учёта запаса прочности на возможную поломку компов.

При этом мы забыли о пользователях. Нам же нужно ещё и для них обрабатывать данные в реальном времени. Примерно для четверти всех запросов можно сделать преиндексацию (исследование Андреем Ивановым статистики Рамблера). Этот постоянно хранящийся индекс для Яндекса, например, займёт ~20 Гб (UTF-8, первые 20 записей на запрос). Остаётся 3/4 запросов, которые уникальны по своей природе и для которых индекс нужно отстраивать в реальном времени и при весьма большой нагрузке на сервер. Здесь уже, в завасимости от нагрузки, можно понять сколько нам нужно копий индексной базы (той самой, размером в 10 Тб на копию).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

345

pelvis

20 декабря 2005, 11:01

#13

Andreyka:
Индексацию миллиарда страниц в принципе потянет любой приличный сервер, вопрос во времени.

разве что заголовки собрать.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

С

10

Странник

20 декабря 2005, 12:18

#14

pelvis:
разве что заголовки собрать.

Боюсь, даже с этим будут проблемы. 40 терабайт выкачать и обработать это сама по себе интересная многосерверная задача. А выкачать надо, иначе откуда мы ссылки-то возьмём на другие страницы ;)

Кроме того, нам же не нужны доры и спам в индексе. Значит нужна какая-то ссылочная релевантность. Хотя бы простой анализ числом и тяжестью входящих ссылок. Для этого нужны значительные вычислительные мощности.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

MT

108

M.TULULU

20 декабря 2005, 17:36

#15

Space:
Вопрос сумбурный, сам еще до конца не понял, что хочу.
Мысль такая: есть ли где в мире фирмы, которые располагают своими индексирующимим пауками, но продают доступ к собранной ими информации.

Вот, пожалуйста: Public Access to the Alexa Web Crawl - объём предоставляемых данных 200-300 терабайт, обновляется раз в 2 месяца. Ну и естественно на этой основе вы можете строить свой поисковик как хотите.

345

pelvis

20 декабря 2005, 20:24

#16

Странник:
То есть ~400 серверов только для хранения одной копии данных.

если есть необходимость обрабатывать такой объем, плюс деньги на 400 серваков, поищите тех, кто напишет Вам бота за пять - 6 тысяч.

то есть, чтобы индексировать такой объем все равно придется делать свой поиск. иксэмэль не помощник

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

67

Мэкс

20 декабря 2005, 22:14

#17

Странник:
Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных.

Откуда взялась цифра 400 серверов? т.е. 1 сервер может хранить только 100Gb ? А такая простая весчь как RAID не обсуждалась?

К примеру, берем 1U сервер, какой нравиться но с двухканальной сказей на борту и к ней добираем вот такое шасси. В результате имеем 14 HDD SCSI т.е. 14х300Gb ( 300Gb SEAGATE ST3300007LC Cheetah ) = 4,2 Tb на машинку. Итого, отдав 200G на служебные нужды ( ОС, ПО, и.т.д. ) получим только 10 таких машинок т.е. чуть больше одной стойки.

Существенная экономия.

pelvis:
поищите тех, кто напишет Вам бота за пять - 6 тысяч.

Для такой системы бот с системой хранения обойдется существенно дороже. Думаю, что только грамотная настройка такой распределенной системы потянет дороже.

Знание некоторых принципов легко возмещает незнание некоторых фактов. К. Гельвеций

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

345

pelvis

21 декабря 2005, 07:17

#18

Мэкс:
Для такой системы бот с системой хранения обойдется существенно дороже. Думаю, что только грамотная настройка такой распределенной системы потянет дороже

настройка , но не бот.

Конечно, если писать бота коллективом из 25 человек за пару лет, то больше ( ламмеры рулят).

Самое дорогое всегда - обслуживание. Об этом я и написал, что написание бота несоизмеримо дешевле обслуживания кластера в 400 аппликейшенов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

67

Мэкс

21 декабря 2005, 11:34

#19

pelvis:
Конечно, если писать бота коллективом из 25 человек

Но уж точно не один программер за неделю.

И потом 5 лет будет ошибки и недоработки выявлять и исправлять :)

119

!Иван FXS

22 декабря 2005, 19:01

#20

M.TULULU:
Вот, пожалуйста: Public Access to the Alexa Web Crawl - объём предоставляемых данных 200-300 терабайт, обновляется раз в 2 месяца. Ну и естественно на этой основе вы можете строить свой поисковик как хотите.

- удавалось ли получить там ... аккредитацию?

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Паук в аренду :)