Наводку - увы помню, что были готовые шаблоны ко многим сайтам - Поисковые технологии

Извлечение информации из динамических сайтов - коммерческая разработка

xlex · 2020-07-28T15:09:56.0000000Z

Как-то достаточно давно наткнулся на тему в этом форуме: "Система сбора инфы в инете" ( /ru/forum/4292 ) - участники треда интересовались возможностью извлечения информации из сайтов генерирующих информацию динамически (например, новостные сайты). Поняв, что это нужно не мне одному и достойных вариантов нет, решил заняться этой темой более плотно и, после двух не очень удачных прототипов, получил третий вполне работоспособный, а с ним и полную и четкую идею о том, как должен выглядеть такой продукт для обработки большого количества сайтов с минимальным вкладом труда для пользователя. Теперь интересует такой вопрос: заинтересован-ли кто-либо в коммерческой разработке такого продукта, при наличии полной спецификации, объяснении и другой необходимой информации? Не берусь за выполнение сам, так как требуется полное рабочее время программиста хорошей квалификации, умеющего разрабатывать десктопное и серверное ПО; по большей части не хватает времени.

X

16

xlex

1 февраля 2006, 11:13

#11

aleseme:
Остался при мнении, что сделать реально, но явно не в 100 строк кода.

У меня тоже начиналось как для своих корыстынх целей.

Сделать - реально, но, к сожалению:

- не автоматически (машина на это, на должном уровне, пока не способна);

- не легко (от человека потребуется определённые знания, которые, впрочем вполне могут быть заложены в течении, максимум, недели).

Объём кода - на самом деле, чем больше, тем лучше - проще в использовании, потому что большинство вещей завязаны на обработку ошибок и нестандартных ситуаций. Кроме того, чем больше заложить в программу "страндартностей" сайтов - тем легче с этим работать (а, стало быть, быстрее создавать инструкции для извлечения информации).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

1 февраля 2006, 11:29

#12

Нет АБСТРАКТНОЙ задачи "забрать контент со страницы". Такие задачи - всегда КОНКРЕТНЫ.

Именно конкретикой задачи определяется: что брать, откуда брать, как обрабатывать, куда класть ...

X

16

xlex

1 февраля 2006, 12:16

#13

!Иван FXS:
Нет АБСТРАКТНОЙ задачи "забрать контент со страницы". Такие задачи - всегда КОНКРЕТНЫ.

Именно конкретикой задачи определяется: что брать, откуда брать, как обрабатывать, куда класть ...

Я и не говорил, что есть "абстрактная задача". Есть чёткая задача - забрать новости с сайта и положить их, например, в базу данных. Новость - это тема, тело сообщения и приложения к ней (картинки).

119

!Иван FXS

1 февраля 2006, 12:52

#14

Если известен конкретный сайт (с его конкретной структурой), тогда это - вроде бы - простая задача ...

Помнится, пару лет назад мелькал сервис (российский) на котором вводилось понятие "шаблона". У них там были готовые шаблоны ко многим сайтам, и "через" эти шаблоны можно было заказывать (у них, совсем за дешево) получение "новостей" с этих сайтов.

Можно было также - за более существенные деньги - заказать изготовление "шаблона" к любому сайту - с последующим использованием его ни их же сервисе ...

Как это все у них там согласовывалось с авторскими правами - не помню, да и не разбирался ...

Кстати, если взять идею "алерта" и довести ее - в части привязки к конкретному (чужому!) сайту - до логического конца, то получится нечто весьма аналогичное упомянутой службе.

X

16

xlex

1 февраля 2006, 13:00

#15

Только одна проблема: уникального шаблона нет и не будет (при существующем раскладе дел) - шаблон должен быть разным для каждого сайта (к сожалению).

С авторскими правами это тоже улаживается.

119

!Иван FXS

1 февраля 2006, 13:04

#16

Да, конечно. Я же так и написал: готовые шаблоны ко многим сайтам.

Кроме того, эти шаблоны нужно еще и отслеживать (поддерживать в адекватном состоянии), поскольку структура сайтов время от времени меняется ...

А как - Вы предполагаете - это "улаживается с авторскими правами"?

Google Updates - апдейты Помощь в фильтрации ботов Наполнить сайт статьями от

X

16

xlex

1 февраля 2006, 13:08

#17

!Иван FXS:
Кроме того, эти шаблоны нужно еще и отслеживать (поддерживать в адекватном состоянии), поскольку структура сайтов время от времени меняется ...

И чтобы это было удобно и вообще возможно было сделать для значительного количества сайтов - нужен "правильный" софт - это и является задачей.

Подобный Российский сервис я не находил, буду благодарен за наводку.

119

!Иван FXS

1 февраля 2006, 13:28

#18

Шаблоны исправлять должен все-таки наверное персонал сервиса ... вряд ли софт.

Наводку - увы: помню только, что было .. а где?

X

16

xlex

1 февраля 2006, 13:51

#19

!Иван FXS:
Шаблоны исправлять должен все-таки наверное персонал сервиса ... вряд ли софт.

Наводку - увы: помню только, что было .. а где?

Софт - это инструмент, а не то, что принимает решения, так что я про это ничего и не говорил...

72

maximkuk

1 февраля 2006, 14:55

#20

Если я правильно помню, то задачи такого рода называются data mining ("извлечение информации" или "добыча данных")

Задача не такая уж и сложная, если только не учитывать поддержку актуальных шаблонов.

Вроде http://www.novoteka.ru/ является примером такого проекта.

Just another WordPress weblog (http://maxkuk.ru)

Дзен реализовал для авторов возможность вывода денег через СПБ

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Извлечение информации из динамических сайтов - коммерческая разработка