Извлечение информации из динамических сайтов - коммерческая разработка

12 3
X
На сайте с 15.05.2004
Offline
16
2989

Как-то достаточно давно наткнулся на тему в этом форуме: "Система сбора инфы в инете" (/ru/forum/4292) - участники треда интересовались возможностью извлечения информации из сайтов генерирующих информацию динамически (например, новостные сайты).

Поняв, что это нужно не мне одному и достойных вариантов нет, решил заняться этой темой более плотно и, после двух не очень удачных прототипов, получил третий вполне работоспособный, а с ним и полную и четкую идею о том, как должен выглядеть такой продукт для обработки большого количества сайтов с минимальным вкладом труда для пользователя.

Теперь интересует такой вопрос: заинтересован-ли кто-либо в коммерческой разработке такого продукта, при наличии полной спецификации, объяснении и другой необходимой информации?

Не берусь за выполнение сам, так как требуется полное рабочее время программиста хорошей квалификации, умеющего разрабатывать десктопное и серверное ПО; по большей части не хватает времени.

СКОРПИОН
На сайте с 05.01.2006
Offline
120
#1

У меня есть такая собственная разработка.

Основная идея заключается в наборах регулярных выражений, которым соответсвуют xml-шаблоны. Xml-шаблонам соответствуют таблицы и поля базы данных.

Работает на лету. Реализовано на PHP. Около сотни строк кода.

• Контекстные ссылки с внутренних страниц навсегда (/ru/forum/370882) • Качественные сайты для заработка на контекстной рекламе и ссылках
X
На сайте с 15.05.2004
Offline
16
#2
СКОРПИОН:
У меня есть такая собственная разработка.
Основная идея заключается в наборах регулярных выражений, которым соответсвуют xml-шаблоны. Xml-шаблонам соответствуют таблицы и поля базы данных.
Работает на лету. Реализовано на PHP. Около сотни строк кода.

Если идея - в том, чтобы вытаскивать содержимое (заголовок, саму новость, картинки и другие приложения связанные с ней) посредством регулярных выражений, то, как мне кажется, это тяжело поддерживать, особенно для количества сайтов >100 (раз) и тяжело писать (два).

Кроме того, в сотне строк кода вряд ли можно уложить регулряности встречающиеся на сайтах и вряд ли это будет "user friendly", хотя, конечно, не могу судить не видя продукта.

Насчёт языка программирования - я сначала тоже делал на PHP (на чем умел), но сейчас учу C#@.Net/Mono - так как с моей точки зрения это более подходящий выбор (при том же автоматическом управлении памятью).

!Иван FXS
На сайте с 16.11.2001
Offline
119
#3
xlex:
Теперь интересует такой вопрос: заинтересован-ли кто-либо в коммерческой разработке такого продукта, при наличии полной спецификации, объяснении и другой необходимой информации?

- совершенно непонятно, о чем Вы спрашиваете, что ищите:

а. работу

б. работников

в. партнеров

г. заказчика

д. венчурное финансирование

???

X
На сайте с 15.05.2004
Offline
16
#4
!Иван FXS:
- совершенно непонятно, о чем Вы спрашиваете

Пардон, поясняю: ищу работу с работниками - потому что один это реализовать сейчас не смогу.

Для реализации нужно финансирование, работники и время (стандартный комплект).

!Иван FXS
На сайте с 16.11.2001
Offline
119
#5

А будет ли то, что Вы хотите сделать, лучше, чем, например, www.awasu.com ?

Artisan
На сайте с 04.03.2005
Offline
352
#6
xlex:
Для реализации нужно финансирование, работники и время (стандартный комплект).

Те кто все это может предоставить тоже захотят стандартный комплект из бизнес плана и технического задания.

xlex:
требуется полное рабочее время программиста хорошей квалификации, умеющего разрабатывать десктопное и серверное ПО.

Обычно это разные программисты то есть их надо два как минимум.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
X
На сайте с 15.05.2004
Offline
16
#7
!Иван FXS:
А будет ли то, что Вы хотите сделать, лучше, чем, например, www.awasu.com ?

Будет, потому что Awasu и ему подобные, работают только с RSS информацией и, точнее, только с теми данными, которые владелец сайта туда захочет поставить.

Чаще всего, для того, чтобы посмотреть самое нужное и интересное нужно заходить на сам сайт. Именно для того, чтобы с сайта забирать всё, что нужно, а не только то, что даёт сам сайт и нужна эта программа.

Artisan:
Те кто все это может предоставить тоже захотят стандартный комплект из бизнес плана и технического задания.

Понимаю, не проблема.

Artisan:
Обычно это разные программисты то есть их надо два как минимум.

Возможно в начале обойтись и одним - десктопным.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#8
xlex:
Чаще всего, для того, чтобы посмотреть самое нужное и интересное нужно заходить на сам сайт. Именно для того, чтобы с сайта забирать всё, что нужно, а не только то, что даёт сам сайт и нужна эта программа.

- да, я понимаю то, что Вы пишете. Меня самого энтересует эта тематика, и у меня есть некоторые достачно эффективные наработки - в качестве индивидуального инструмента. Технологическая основа: работа IE под управлением MS Access.

Тоже иногда размышляю о том, каким мог бы быть проект по созданию некоего подобного инструмента - в качестве РАСПРОСТРАНЯЕМОГО.

И, также как и Вы, не имею собственных ресурсов для осуществления подобного проекта ... Однако это меня не останавливает, поскольку у меня есть задачи, в которых подобный инструмент нужен - индивидуально - мне самому.

Что касается Ваших постов, - я по-прежнему не понимаю: та "изюминка" которую Вы имеете, она в чем состоит? В том, как сделать такой инструмент очень УДОБНЫМ, или в том, как сделать его очень МОЩНЫМ?

И еще: можете ли Вы привести пример какого-то имеющегося (общедоступного) инструмента, который Вы могли бы назвать ПРОТОТИПОМ Вашей разработки.То есть:Вы хотите сделать нечто подобное, но - существенно лучше в таких-то и таких-то аспектах ...

X
На сайте с 15.05.2004
Offline
16
#9

Иван, нечто подобное есть - называется RoboSuite.

Большой и очень дорогой инструмент, но, например, новости им извлекать неудобно.

Я хочу сделать tool, который будет позволять извлекать информацию из неограниченного количества источников, который при этом было бы удобно использовать человеку, с технической базой (без оной, к сожалению, решения не вижу). Кроме того, есть желание сделать её максимально с использованием имеющихся наработок.

A
На сайте с 28.11.2005
Offline
9
#10

Делал подобную вещь для собственных корыстных целей - не осилил.

Анализировал текст на странице, пытаясь выделить основные блоки с текстом, заголовок, картинки, используя шаблоны. Вроде работало, но крайне не эффективно.

Остался при мнении, что сделать реально, но явно не в 100 строк кода.

новости беру здесь (http://news2.ru/)
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий