Автоматизированный сбор новостей

12 3
юни
На сайте с 01.11.2005
Offline
902
2702

В своё время на форуме были популярны темы об агрегаторах контента, на основе Яндекс/Гугл ньюс, Yahoo Pipes, различных сборщиков rss и пр.

Сейчас как раз понадобился человек, который может поставить на поток поставку такого рода информации. Будут даны 10-30 ключевиков, по которым нужно будет предоставлять список новостей, на регулярной основе ("по крону") и в текстовом формате - именно текст, список новостей, а не ссылки на источники, краткие анонсы, неочищенную мешанину из тегов и букв и прочую непотребщину.

Кто не растерял навык - пишите в тему, об особенностях реализации и про желаемое вознаграждение.

P.S. Существует и правильный подход к контенту.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
юни
На сайте с 01.11.2005
Offline
902
#1

И тишина... где спецы-то? Перевелись?

Или деньги не нужны?

SK
На сайте с 13.06.2005
Offline
111
#2

Можно настроить полный парсинг определенных ресурсов, но парсинг случайного ресурса (а вылезти в новостях может вообще любой сайт) на полном автомате (т.е. без каких-либо предварительных подстроек под него) это уже из области искусственного интеллекта.

Буду очень рад если кто аргументированно возразит - если есть алгоритм обработки случайного ресурса, с удовольствием его реализую.

BulkAddurl.com - добавляйте страницы в гугль на автомате (http://bulkaddurl.com) + 10% партнерка
HraKK
На сайте с 02.03.2009
Offline
128
#3
SergijKo:
Буду очень рад если кто аргументированно возразит - если есть алгоритм обработки случайного ресурса, с удовольствием его реализую.

95% есть. но в случае подробной новости

я гарант (/ru/forum/493343) уже не оказываю данные услуги, извините.
юни
На сайте с 01.11.2005
Offline
902
#4

SergijKo, например, Брокен ещё два года назад решал массу задач через Pipes.

Там в рубрике ещё много всяких примеров

SK
На сайте с 13.06.2005
Offline
111
#5
юни:
SergijKo, например, Брокен ещё два года назад решал массу задач через Pipes.

Там в рубрике ещё много всяких примеров

Pipes не волшебная палочка. Если грубо, это просто штука которая позволяет непрограммистам автоматизировать свои действия (причем предоставляет намного меньше средств, чем может использовать программист). Поэтому если даже программист не видит алгоритм, то с ней и подавно не решить такие задачи.

SergijKo добавил 25.11.2010 в 15:03

HraKK:
95% есть. но в случае подробной новости

Поиск наибольшего блока текста (одна достаточно известная реализация "парсинга" любой неизвестной страницы) не особо рабочее решение. Или вы не про то?

SergijKo добавил 25.11.2010 в 15:05

И кстати, о реализации.

Вспомнил - тут кто-то пару лет продвигал достаточно серьзный сервис как раз для того, чтобы мониторить все новые материалы по нужному запросу.

Идея была точно такая как вам надо - сервис все полные тексты как-то предоставлял.

Название сервиса пока не вспомнил...

Fat Bear
На сайте с 01.12.2006
Offline
264
#6
SergijKo:
мониторить все новые материалы по нужному запросу.

Актуально кстате, нужна такая штукенция в пользование.

Открыть счёт в Capitalist ( https://capitalist.net/reg?from=e5707ff0c3 ). Виртуальные карты, USDT, банковские переводы, выплаты партнёрских программ.
юни
На сайте с 01.11.2005
Offline
902
#7
Масол:
нужна такая штукенция в пользование

+1. Нет, +100.

Дам денег реализовавшему.

SK
На сайте с 13.06.2005
Offline
111
#8

http://webground.su/services.php?param=sendmail - это можете попробовать. По описанию что-то похожее на нужное.

юни
На сайте с 01.11.2005
Offline
902
#9

SergijKo, хм... вроде бы ничего, но список источников:

Общественно-политическая 572
Необновляемые источники (архив) 712
Неотрубрицированные источники 1006

Как-то не очень вдохновляет. Остальные, которые нужны, измеряются всего-то двузначными цифрами - с учётом того, что первоисточников по нормальным темам (производство/бизнес/наука, вместо всякой развлекухи) считанные единицы, получается, что работать придётся с дубликатами.

SK
На сайте с 13.06.2005
Offline
111
#10

* Всего источников: 4009

Думаю, если им напишете они без проблем добавят пару десятков новых источников.

SergijKo добавил 25.11.2010 в 16:12

Пришла идея.

Как вариант можно использовать кастомный поисковик гугля (и в яндекса вроде тоже аналогичная штука есть).

Выбираете поиск по каким площадкам вам нужен (если их действительно пару десятков нужных), и получите поиск только по ним.

Так проверяя этот свой поисковик точно получите информацию о новых статьях в тему запроса.

Ну а потом уж ручками все-таки доставать (или же можете заказать автоматическую доставалку инфы из самых обновляемых ресурсов).

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий