Быстрый парсинг сервис: насколько востребовано здесь?

Y
На сайте с 13.04.2011
Offline
0
591

Я пишу распределенный веб парсер (или web crawler) который может парсить данные с разных страниц с достаточно большой скоростью. Его можно практически неограниченно расширять, добавляя новые сервера в кластер и добиваться нужных скоростей. Сейчас в стадии тестирования, есть некоторые мелочи которые нужно доправить, но в целом уже все работает.

Мне эта область очень интересна, хотелось бы заниматься ею full-time, поэтому интересно ваше мнение насколько был бы подобный сервис востребован и как формировать цены.

На данный момент можно решать индвидуальные парсинговые задачи: клиент объясняет что, в каких объемах ему надо парсить, откуда и я это делаю.

Примеры задач которые можно было бы решать:

  • Сбор информации о сайтах и доменах: владельцы, CMS, alexa rank, PR, ad-sense id, баннерные ID, etc
  • Сбор баз о продуктах с различных сайтов
  • Сбор баз об отзывах
  • Сбор баз о вакансиях с джоб сайтов
  • Сбор баз о недвижимости и аренде
  • Сбор данных о профилях в социальных сетях и сайтах знакомств
  • Парсинг больших списков доменов на поиск определенной информации по паттернам
  • Решение других дата майнинговых задач

Обычно сейчас чтобы решать такие задачи, люди заказывают фрилансерам простые скрипты на PHP которые парсят долго и плохо работают с большими объемами данных. Моя скорость пока это около 15 миллионов страниц с одного сервера, но это число легко рашсиряется добавлением нового железа.

Открыт так же для разных идей и предложений связанных со сферой веб-кравлинга и работы с большими объемами данных.

aka_Puhh
На сайте с 22.09.2010
Offline
17
#1

Ну что сказать... я сейчас время от времени работаю над чем то подобным, но в другом контексте. Мысль, считаю, у вас работает в правильном направлении. Если хотите определить востребованность подобного набора сервисов, как мне кажется(крестится не буду-я атеист), следует выводить в свет поочередно готовые решения, а не спрашивать об них!

Удачи в начинаниях...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий