Паук в аренду :)

123
VT
На сайте с 27.01.2001
Offline
130
#11
Всё это может потянуть одна машина, вопрос только в том, что это будет за машина Кто хочет прикинуть конфигурацию ?

Потянуть-то вполне потянет, и поиск работать будет, но обновлять такой индекс из-за большого размера будет непросто. И долго.

С
На сайте с 31.10.2005
Offline
10
#12
Alex Tanchik:
от куда взялась цифра 100 kb?
если делать базу как все сейчас делают, т.е. хранить не слово, а ID слова и координаты, то база будет занимать намного меньше вами предполагаемого места
http://index.bigmir.net/ - смотрим статистику поиска
грубо говоря, на 1 млн страниц нужно 6 гиг, в итоге, на 1000 млн нужно всего 6 тер, а не 100
для распределенной системы это не проблема, а она по любому будет распределенной, для такого объема

А давайте посчитаем на русских доументах и реальных цифрах ;) Возьмём официальные данные Яндекса. Размер индекса Яндекс.Сервера составляет 30-50% от размера документов ( http://company.yandex.ru/technology/products/Yandex-Server/intro.xml#requirement ). Будем считать по нижней грани: 30% от 30 кб (средний размер документа в Яндексе) = 10 кб/документ. Итого 10 Тб. 100 серверов только на хранение одной копии индекса.

Теперь добавим копии всех документов. Получим ещё 30 Тб. Можем ли мы их зазиповать и уменьшить объём базы на треть - не уверен - нужно смотреть нагрузку на раззиповку и на количество пользователей, которые лезут на один сервер одновременно: может оказаться дешевле хранить несколько оригинальных копий, а не одну зипованную. Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных. Без учёта запаса прочности на возможную поломку компов.

При этом мы забыли о пользователях. Нам же нужно ещё и для них обрабатывать данные в реальном времени. Примерно для четверти всех запросов можно сделать преиндексацию (исследование Андреем Ивановым статистики Рамблера). Этот постоянно хранящийся индекс для Яндекса, например, займёт ~20 Гб (UTF-8, первые 20 записей на запрос). Остаётся 3/4 запросов, которые уникальны по своей природе и для которых индекс нужно отстраивать в реальном времени и при весьма большой нагрузке на сервер. Здесь уже, в завасимости от нагрузки, можно понять сколько нам нужно копий индексной базы (той самой, размером в 10 Тб на копию).

pelvis
На сайте с 01.09.2005
Offline
345
#13
Andreyka:
Индексацию миллиарда страниц в принципе потянет любой приличный сервер, вопрос во времени.

разве что заголовки собрать.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
С
На сайте с 31.10.2005
Offline
10
#14
pelvis:
разве что заголовки собрать.

Боюсь, даже с этим будут проблемы. 40 терабайт выкачать и обработать это сама по себе интересная многосерверная задача. А выкачать надо, иначе откуда мы ссылки-то возьмём на другие страницы ;)

Кроме того, нам же не нужны доры и спам в индексе. Значит нужна какая-то ссылочная релевантность. Хотя бы простой анализ числом и тяжестью входящих ссылок. Для этого нужны значительные вычислительные мощности.

MT
На сайте с 01.09.2002
Offline
108
#15
Space:
Вопрос сумбурный, сам еще до конца не понял, что хочу.
Мысль такая: есть ли где в мире фирмы, которые располагают своими индексирующимим пауками, но продают доступ к собранной ими информации.

Вот, пожалуйста: Public Access to the Alexa Web Crawl - объём предоставляемых данных 200-300 терабайт, обновляется раз в 2 месяца. Ну и естественно на этой основе вы можете строить свой поисковик как хотите.

pelvis
На сайте с 01.09.2005
Offline
345
#16
Странник:
То есть ~400 серверов только для хранения одной копии данных.

если есть необходимость обрабатывать такой объем, плюс деньги на 400 серваков, поищите тех, кто напишет Вам бота за пять - 6 тысяч.

то есть, чтобы индексировать такой объем все равно придется делать свой поиск. иксэмэль не помощник

Мэкс
На сайте с 03.07.2005
Offline
67
#17
Странник:
Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных.

Откуда взялась цифра 400 серверов? т.е. 1 сервер может хранить только 100Gb ? А такая простая весчь как RAID не обсуждалась?

К примеру, берем 1U сервер, какой нравиться но с двухканальной сказей на борту и к ней добираем вот такое шасси. В результате имеем 14 HDD SCSI т.е. 14х300Gb ( 300Gb SEAGATE ST3300007LC Cheetah ) = 4,2 Tb на машинку. Итого, отдав 200G на служебные нужды ( ОС, ПО, и.т.д. ) получим только 10 таких машинок т.е. чуть больше одной стойки.

Существенная экономия.

pelvis:
поищите тех, кто напишет Вам бота за пять - 6 тысяч.

Для такой системы бот с системой хранения обойдется существенно дороже. Думаю, что только грамотная настройка такой распределенной системы потянет дороже.

Знание некоторых принципов легко возмещает незнание некоторых фактов. К. Гельвеций
pelvis
На сайте с 01.09.2005
Offline
345
#18
Мэкс:
Для такой системы бот с системой хранения обойдется существенно дороже. Думаю, что только грамотная настройка такой распределенной системы потянет дороже

настройка , но не бот.

Конечно, если писать бота коллективом из 25 человек за пару лет, то больше ( ламмеры рулят).

Самое дорогое всегда - обслуживание. Об этом я и написал, что написание бота несоизмеримо дешевле обслуживания кластера в 400 аппликейшенов.

Мэкс
На сайте с 03.07.2005
Offline
67
#19
pelvis:
Конечно, если писать бота коллективом из 25 человек

Но уж точно не один программер за неделю.

И потом 5 лет будет ошибки и недоработки выявлять и исправлять :)

!Иван FXS
На сайте с 16.11.2001
Offline
119
#20
M.TULULU:
Вот, пожалуйста: Public Access to the Alexa Web Crawl - объём предоставляемых данных 200-300 терабайт, обновляется раз в 2 месяца. Ну и естественно на этой основе вы можете строить свой поисковик как хотите.

- удавалось ли получить там ... аккредитацию?

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий