Форум Практика оптимизации Поисковые технологии

Извлечение информации из динамических сайтов - коммерческая разработка

xlex · 2020-07-28T15:09:56.0000000Z

Как-то достаточно давно наткнулся на тему в этом форуме: "Система сбора инфы в инете" ( /ru/forum/4292 ) - участники треда интересовались возможностью извлечения информации из сайтов генерирующих информацию динамически (например, новостные сайты). Поняв, что это нужно не мне одному и достойных вариантов нет, решил заняться этой темой более плотно и, после двух не очень удачных прототипов, получил третий вполне работоспособный, а с ним и полную и четкую идею о том, как должен выглядеть такой продукт для обработки большого количества сайтов с минимальным вкладом труда для пользователя. Теперь интересует такой вопрос: заинтересован-ли кто-либо в коммерческой разработке такого продукта, при наличии полной спецификации, объяснении и другой необходимой информации? Не берусь за выполнение сам, так как требуется полное рабочее время программиста хорошей квалификации, умеющего разрабатывать десктопное и серверное ПО; по большей части не хватает времени.

xlex

1 февраля 2006, 15:49

#21

Насколько я понимаю, правильнее это называется information retrieval, по двум причинам:

- data mining - это работа с базами данных;

- сама новость - это информация, все остальное - шум, так что это более retrieval, нежели чем mining (одно из основных значений которого, кстати, является "разработка месторождения").

Насчёт Новотеки - насколько я помню (у меня был вариант предоставления им информации, если ничего не путаю) и понимаю (смотря на сайт сейчас), Игорь (Ашманов) решил сделать что-то лучше или что-то отличное от Яндекс.News, в основе которого лежит экспорт данных партнером в формате RSS.

Что меня утверждает в этой мысли - это направленность и подкованность Игоря в обработке уже имеющейся информации (как раз таки data mining) - а это отдельная большая задача, для которой ещё и извлечение информации из интернетовского мусора - просто лишняя большая обуза.

Добавьте налоговую информацию Аргументы почему не нужно Подскажите пожалуйста про анкорные

130

Vyacheslav Tikhonov

2 февраля 2006, 10:19

#22

Подавляющую часть новостей Новотека действительно берет прямо с веб-страниц, препарируя контент новостных ресурсов. Алгоритм достаточно старый - я разработал его года 4 назад, однако работает безотказно.

Слухи о сложности поддержки актуальности шаблонов несколько преувеличены.

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Извлечение информации из динамических сайтов - коммерческая разработка