Автоматизированный сбор новостей

123
юни
На сайте с 01.11.2005
Offline
924
#11
SergijKo:
Всего источников: 4009

Из них больше половины - не пойми что. Впрочем, лучше, чем ничего, разумеется.

Посмотрим, что ответят. Жаль только, что телефонов нет на сайте.

Кстати, по поводу идеи... лучше в аську напишу. :)

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Fat Bear
На сайте с 01.12.2006
Offline
264
#12
юни:
Дам денег реализовавшему.

Присоединюсь. :)

Открыть счёт в Capitalist ( https://capitalist.net/reg?from=e5707ff0c3 ). Виртуальные карты, USDT, банковские переводы, выплаты партнёрских программ. Push-партнёрка с высоким рейтом hClicks(https://hclicks.com/?ref=61dc0714).
SK
На сайте с 13.06.2005
Offline
111
#13

Насчет сервиса.

Если бы можно было настроить доставание с нужных вам ресурсов новой информации по нужным запросам. Скажем, все новые статьи по нужным вам запросам в полном виде будут приходить вам на почту.

Сколько бы вы были готовы платить за такой мониторинг одного конкретного ресурса в месяц?

BulkAddurl.com - добавляйте страницы в гугль на автомате (http://bulkaddurl.com) + 10% партнерка
[Удален]
#14

а нафига вообще источники копить, если гугл ньюс можно мониторить?

тут основная задача выдрать статью прально.

кстати а сколько платят? я пропустил? :)

K
На сайте с 11.10.2008
Offline
102
kep
#15
kapow_expert:
а нафига вообще источники копить, если гугл ньюс можно мониторить?

Не все сайты есть в гуг ньюс.

novoteka.ru можно попробывать

юни
На сайте с 01.11.2005
Offline
924
#16

SergijKo, заказчику проще ориентироваться на сумму, которую ему нужно будет отдавать, без вникания в технические нюансы. Так что, без конкретики (о такой-то тематикике, таких-то донорах в таком-то числе, и таком-то количестве обращений к ним в сутки) разговаривать предметно достаточно трудно.

kapow_expert:
тут основная задача выдрать статью прально.

Не основная - единственная.

Если бы она была решаема, то не было бы и этой темы.

SK
На сайте с 13.06.2005
Offline
111
#17
юни:
SergijKo, заказчику проще ориентироваться на сумму, которую ему нужно будет отдавать, без вникания в технические нюансы. Так что, без конкретики (о такой-то тематикике, таких-то донорах в таком-то числе, и таком-то количестве обращений к ним в сутки) разговаривать предметно достаточно трудно.

Ну вот моя конкретика.

Тематика тут ни при чем. Неважно что мониторить и парсить.

Заказать (у меня) такое регулярное обновление стоило бы не меньше 5 уе в месяц за один источник (точнее даже не источник, а один тип материалов. Т.е. если на сайте есть новости, статьи, прес-релизы и что-то еще в разных шаблонах, то настраивать==оплачивать надо каждый разный шаблон).

При этом раз в 2 часа проверял бы информацию (или наверное даже можно сделать программу, чтобы заказчик смогу ее запускать когда ему надо).

Алгоритм программы был бы следующим: программа будет дергать гугль по всем нужным запросам + site:нужныСайт, результат отсортированный по времени. Так получим все самые свежие статьи.

Ну и программа будет их парсить, и например на почту отправлять. Или же просто в файлик сохранять.

Или можете свой вариант предложить.

Вообще эта штука достаточно замороченная получается. Поэтому меня интересовала бы обработка не меньше 20 ресурсов.

Получается, мониторинг и парсинг 20 сайтов стоил бы около 100 уе в месяц. Такая вот конкретика.

AK
На сайте с 27.05.2009
Offline
34
#18

Может кому-то может эта инфа


Как известно, в выпущенном сегодня Safari 5 появилась очень удобная функция — Safari Reader.

Эта функция предназначена для более удобного чтения новостных статей и записей в блогах. Она убирает всякий визуальный мусор, мещающий чтению, так что перед вами остаётся просто голый текст и ничего больше.

К счастью, этой замечательной функцией можно пользоваться не только в новой версии Safari. Пользователи Google Chrome могут установить расширение «Readability Redux», а пользователи Firefox — аналогичное расширение «Readability». Также можно просто добавить на панель инструментов любого браузера букмарклет, код которого можно получить на странице lab.arc90.com/experiments/readability/.

Те это решение дающее хоть какую-ту автоматизацию по выдергиванию текста.

А о каких объемах и бюджетах идет речь? может проще в гугл алертс (это сервис который сообщает по rss, что по ключевику появилась новая инфа) вбить ваши ключевики и посадить девушку из глубинки, чтобы она ручками это делала?

_vb_
На сайте с 25.07.2009
Offline
104
#19
alex.kwan:
проще в гугл алертс (это сервис который сообщает по rss, что по ключевику появилась новая инфа) вбить ваши ключевики и посадить девушку из глубинки, чтобы она ручками это делала

Имхо, самое здравое решение :)

Ну а если хочется нанотех.., тьфу, т.е. полной автоматизации, то ИИ с первого раза вряд ли получится, даже в такой достаточно узкой нише. Берите на постоянку хорошего программера, и за какой-то период, итерация за итерацией можно будет приблизится к устраивающему результату.

Саратовская фракция серча (). Давайте посчитаемся.
business-net
На сайте с 02.08.2007
Offline
64
#20

10 баксов за сайт (разово) (за 1н источник)

На руки получаете тулзу которая парсит источники обрабатывает контент там чистка и т.д. переформатирует контент, фотки тоже парсит, ведет базу статей , новостей , чистка на дубликаты по тайтлу (возможно подключить чистку по неточным дубликатам, самих статей) ну и формат выдачи статей тоже можно сделать какой нужно (если вам для своего софта). Софт запускаете сами когда нужно , будет парсится только свежая информация у меня такие тулзы наполняют сайты от сбора новостей с источников до импорта на сайт , вообщем кого заинтересовало только в личку там обсудим

Генератор проектов (http://gallsub.com). Мои скрипты (http://business-net.ru/script.html). Мой блог (http://business-net.ru). Мои услуги (http://business-net.ru/service.html)
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий