Общедоступный индекс веба (5 миллиардов веб-страниц)(c)

anemak
На сайте с 30.07.2010
Offline
32
874

Предлагаю обсудить тему...

Статья не моя, от некоего alizar, за что ему спасибо. (p.s. Пинать меня не надо, статью получил по аське, честно лень искать первоисточник ...)


Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100МБ (общий объём базы 40-50ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.

Что это? Сотни миллионов новых ГС или ...?

лобстеры, Дон Периньон, белуга, Хеннеси ...
Godrasta
На сайте с 03.09.2007
Offline
150
#1

ну если база будет часто обновляться, то тема хорошая :-)

anemak
На сайте с 30.07.2010
Offline
32
#2

Не думаю что ктото и эти данные полностью использует... Помимо гс здесь можно замутить белый проект-сервис, правда придется попотеть чтоб рассортировать все

PyMbIH
На сайте с 22.11.2009
Offline
76
#3

Первоисточник здесь и комментарии соответственно тоже.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий