Паук в аренду :)

12 3
Space
На сайте с 29.04.2002
Offline
90
2462

Вопрос сумбурный, сам еще до конца не понял, что хочу.

Мысль такая: есть ли где в мире фирмы, которые располагают своими индексирующимим пауками, но продают доступ к собранной ими информации.

Типа ходит какие-то подобие гугл-бота, собирает какую-то базу. Потом прихожу я, весь в белом, и на этой базе решаю какие-то свои утилитарные задачи (если база позволяет).

Google/Yahoo API не предлагать :)

Буду премного благодарственен.

[Удален]
#1

Ну вообще наверно есть такие фирмы, но вряд с ними получится сделать что-то большее, чем свой полнотекстовый поисковик.

Artisan
На сайте с 04.03.2005
Offline
377
#2

Что надо собирать и сколько планируется платить?

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
Andreyka
На сайте с 19.02.2005
Offline
822
#3

Арендовать сервер + поставить паука = юзать базу для своих целей.

Не стоит плодить сущности без необходимости
Space
На сайте с 29.04.2002
Offline
90
#4
Andreyka:
Арендовать сервер + поставить паука = юзать базу для своих целей.

И какого паука? И какой сервер. Речь об индексации миллиарда страниц, к примеру.

Artisan
На сайте с 04.03.2005
Offline
377
#5
Space:
Речь об индексации миллиарда страниц, к примеру.

Повторяю вопрос, ответ можно в приват,

какие данные нужны и сколько готовы платить?

Andreyka
На сайте с 19.02.2005
Offline
822
#6

Паука и сервер выбрать по условиям задачи. Индексацию миллиарда страниц в принципе потянет любой приличный сервер, вопрос во времени.

Artisan
На сайте с 04.03.2005
Offline
377
#7
Andreyka:
Индексацию миллиарда страниц в принципе потянет любой приличный сервер,

Вы путаете миллиард и миллион,

1,000,000,000 * 100 kb = 100 Tb = 100,000 Gb,

то есть порядка тысячи серверов, ...

Можно RAID использовать,

все зависит от нагрузки, ...

AT
На сайте с 23.01.2004
Offline
46
#8
Artisan:
Вы путаете миллиард и миллион,
1,000,000,000 * 100 kb = 100 Tb = 100,000 Gb,

от куда взялась цифра 100 kb?

если делать базу как все сейчас делают, т.е. хранить не слово, а ID слова и координаты, то база будет занимать намного меньше вами предполагаемого места

http://index.bigmir.net/ - смотрим статистику поиска

грубо говоря, на 1 млн страниц нужно 6 гиг, в итоге, на 1000 млн нужно всего 6 тер, а не 100

для распределенной системы это не проблема, а она по любому будет распределенной, для такого объема

Artisan
На сайте с 04.03.2005
Offline
377
#9
Alex Tanchik:
от куда взялась цифра 100 kb?

Грубая оценка места для одного документа.

[Удален]
#10

Если считать по Яндексу http://company.yandex.ru/, средний размер страницы на текущий момент = (23 415 ГБ * 1024 * 1024) / 793 617 816 = 30,937 килобайта.

Под термином "Объем информации 90 Гб", на сайте http://index.bigmir.net/, понимается объём "чистых" текстов, т.е. без HTML форматирования и пр.

Как правило, пауки хранят у себя копии сайтов. В этом случае, для 1'000'000'000 документов потребуется как минимум 30'937'000'000 килобайт = 29'503,822 Гигабайт. Сюда надо добавить место для индекса. Что иногда бывает тоже не мало.

Всё это может потянуть одна машина, вопрос только в том, что это будет за машина :) Кто хочет прикинуть конфигурацию ?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий