Извлечение информации из динамических сайтов - коммерческая разработка

1 23
X
На сайте с 15.05.2004
Offline
16
#21

Насколько я понимаю, правильнее это называется information retrieval, по двум причинам:

- data mining - это работа с базами данных;

- сама новость - это информация, все остальное - шум, так что это более retrieval, нежели чем mining (одно из основных значений которого, кстати, является "разработка месторождения").

Насчёт Новотеки - насколько я помню (у меня был вариант предоставления им информации, если ничего не путаю) и понимаю (смотря на сайт сейчас), Игорь (Ашманов) решил сделать что-то лучше или что-то отличное от Яндекс.News, в основе которого лежит экспорт данных партнером в формате RSS.

Что меня утверждает в этой мысли - это направленность и подкованность Игоря в обработке уже имеющейся информации (как раз таки data mining) - а это отдельная большая задача, для которой ещё и извлечение информации из интернетовского мусора - просто лишняя большая обуза.

VT
На сайте с 27.01.2001
Offline
130
#22
Насчёт Новотеки - насколько я помню (у меня был вариант предоставления им информации, если ничего не путаю) и понимаю (смотря на сайт сейчас), Игорь (Ашманов) решил сделать что-то лучше или что-то отличное от Яндекс.News, в основе которого лежит экспорт данных партнером в формате RSS.

Подавляющую часть новостей Новотека действительно берет прямо с веб-страниц, препарируя контент новостных ресурсов. Алгоритм достаточно старый - я разработал его года 4 назад, однако работает безотказно.

Слухи о сложности поддержки актуальности шаблонов несколько преувеличены.

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий