Общедоступный индекс веба (5 миллиардов веб-страниц)(c)

32

anemak

9 ноября 2011, 10:03

874

Предлагаю обсудить тему...

Статья не моя, от некоего alizar, за что ему спасибо. (p.s. Пинать меня не надо, статью получил по аське, честно лень искать первоисточник ...)

Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100МБ (общий объём базы 40-50ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.

Что это? Сотни миллионов новых ГС или ...?

лобстеры, Дон Периньон, белуга, Хеннеси ...

150

Godrasta

9 ноября 2011, 19:44

#1

ну если база будет часто обновляться, то тема хорошая :-)

32

anemak

10 ноября 2011, 02:20

#2

Не думаю что ктото и эти данные полностью использует... Помимо гс здесь можно замутить белый проект-сервис, правда придется попотеть чтоб рассортировать все

76

PyMbIH

10 ноября 2011, 08:22

#3

Первоисточник здесь и комментарии соответственно тоже.

Курс биткоина превысил $50 тысяч

Зачем быть уникальным в мире, где все можно скопировать