Извлечение информации из динамических сайтов - коммерческая разработка

123
X
На сайте с 15.05.2004
Offline
16
#11
aleseme:
Остался при мнении, что сделать реально, но явно не в 100 строк кода.

У меня тоже начиналось как для своих корыстынх целей.

Сделать - реально, но, к сожалению:

- не автоматически (машина на это, на должном уровне, пока не способна);

- не легко (от человека потребуется определённые знания, которые, впрочем вполне могут быть заложены в течении, максимум, недели).

Объём кода - на самом деле, чем больше, тем лучше - проще в использовании, потому что большинство вещей завязаны на обработку ошибок и нестандартных ситуаций. Кроме того, чем больше заложить в программу "страндартностей" сайтов - тем легче с этим работать (а, стало быть, быстрее создавать инструкции для извлечения информации).

!Иван FXS
На сайте с 16.11.2001
Offline
119
#12

Нет АБСТРАКТНОЙ задачи "забрать контент со страницы". Такие задачи - всегда КОНКРЕТНЫ.

Именно конкретикой задачи определяется: что брать, откуда брать, как обрабатывать, куда класть ...

X
На сайте с 15.05.2004
Offline
16
#13
!Иван FXS:
Нет АБСТРАКТНОЙ задачи "забрать контент со страницы". Такие задачи - всегда КОНКРЕТНЫ.

Именно конкретикой задачи определяется: что брать, откуда брать, как обрабатывать, куда класть ...

Я и не говорил, что есть "абстрактная задача". Есть чёткая задача - забрать новости с сайта и положить их, например, в базу данных. Новость - это тема, тело сообщения и приложения к ней (картинки).

!Иван FXS
На сайте с 16.11.2001
Offline
119
#14

Если известен конкретный сайт (с его конкретной структурой), тогда это - вроде бы - простая задача ...

Помнится, пару лет назад мелькал сервис (российский) на котором вводилось понятие "шаблона". У них там были готовые шаблоны ко многим сайтам, и "через" эти шаблоны можно было заказывать (у них, совсем за дешево) получение "новостей" с этих сайтов.

Можно было также - за более существенные деньги - заказать изготовление "шаблона" к любому сайту - с последующим использованием его ни их же сервисе ...

Как это все у них там согласовывалось с авторскими правами - не помню, да и не разбирался ...

Кстати, если взять идею "алерта" и довести ее - в части привязки к конкретному (чужому!) сайту - до логического конца, то получится нечто весьма аналогичное упомянутой службе.

X
На сайте с 15.05.2004
Offline
16
#15

Только одна проблема: уникального шаблона нет и не будет (при существующем раскладе дел) - шаблон должен быть разным для каждого сайта (к сожалению).

С авторскими правами это тоже улаживается.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#16

Да, конечно. Я же так и написал: готовые шаблоны ко многим сайтам.

Кроме того, эти шаблоны нужно еще и отслеживать (поддерживать в адекватном состоянии), поскольку структура сайтов время от времени меняется ...

А как - Вы предполагаете - это "улаживается с авторскими правами"?

X
На сайте с 15.05.2004
Offline
16
#17
!Иван FXS:
Кроме того, эти шаблоны нужно еще и отслеживать (поддерживать в адекватном состоянии), поскольку структура сайтов время от времени меняется ...

И чтобы это было удобно и вообще возможно было сделать для значительного количества сайтов - нужен "правильный" софт - это и является задачей.

Подобный Российский сервис я не находил, буду благодарен за наводку.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#18

Шаблоны исправлять должен все-таки наверное персонал сервиса ... вряд ли софт.

Наводку - увы: помню только, что было .. а где?

X
На сайте с 15.05.2004
Offline
16
#19
!Иван FXS:
Шаблоны исправлять должен все-таки наверное персонал сервиса ... вряд ли софт.

Наводку - увы: помню только, что было .. а где?

Софт - это инструмент, а не то, что принимает решения, так что я про это ничего и не говорил...

maximkuk
На сайте с 14.09.2005
Offline
72
#20

Если я правильно помню, то задачи такого рода называются data mining ("извлечение информации" или "добыча данных")

Задача не такая уж и сложная, если только не учитывать поддержку актуальных шаблонов.

Вроде http://www.novoteka.ru/ является примером такого проекта.

Just another WordPress weblog (http://maxkuk.ru)
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий