Парсер контента

D
На сайте с 16.02.2008
Offline
18
16610

Доброго времени суток.

Есть простой сомописный парсер русскоязычного контента из google news по указанному кею.

Что он делает:

- собирает текст с сайтов из выдачи гугл news (параметры задаются через GET переменные прямо в строке браузера)

- чистит полученный текст от посторонних тэгов

- аккуратно складывает напарсеный текст в файл

Что он не умеет делать:

- готовить кофе

- зарабатывать за вас деньги

Скрипт серверный. Парсер реализован при помощи CURL. Уверен, многие из Вас могут написать нечто подобное самостоятельно, но если вам некогда или лень, предлагаю купить готовый скрипт.

Цена: 2 wmz;

Рассмотрю варианты доработки\модификации скрипта за отдельную плату.

Покупателей прошу отписываться в личку.

[Удален]
#1
Что он не умеет делать:

- готовить кофе
- зарабатывать за вас деньги

Знакомая фраза - в разработке кисточки не участвовали :)

- аккуратно складывает напарсеный текст в файл.

Поддерживает шаблоны как надо складывать?

S
На сайте с 13.06.2008
Offline
20
#2

"собирает текст с сайтов" - собирает только со страницы, что была в google news или еще по сайту ходит?

А почему именно google news?

D
На сайте с 16.02.2008
Offline
18
#3

2 falkhan,

Знакомая фраза - в разработке кисточки не участвовали

Нет, не участвовал :)

Поддерживает шаблоны как надо складывать?

Нет. Из напарсенного контента составляется один блок текста без лишних тегов и прочей мешуры.

2 Sherh,

"собирает текст с сайтов" - собирает только со страницы, что была в google news или еще по сайту ходит?

Конечно же ходит по сайтам. Google news лишь предоставляет ссылки на ресурсы с контентом.

А почему именно google news?

Через Google news можно собирать русскоязычный и англоязычный контент.

elvenman
На сайте с 25.02.2009
Offline
93
#4

проще у меня сделать заказ

Видеокурс (/ru/forum/695785) по созданию дорвеев и сателлитов, пока не продаю, ибо нефиг. Лучший (/ru/forum/703596) художник.
planetapokera
На сайте с 08.02.2009
Offline
169
#5

На тест скрипт можно? Напишу конструктивный отзыв.

BE
На сайте с 09.07.2008
Offline
28
#6
elvenman:
проще у меня сделать заказ

ТС предлагает инструмент для парсинга! По конкретному кею, из конкретного источника. И при чём за более выгодную цену, чем ваш парсинг.

Нах.я устраивать себе рекламу?

BlackEvil, Rest In Peace...
response
На сайте с 01.12.2004
Offline
324
#7
elvenman:
проще у меня сделать заказ

фу как некрасиво. тем более когда по твоим ценам база маркета будет стоить минимум штуку баксов за сохраненку в текстовиках (а там далеко за пять гигов на самом деле).

зы

базу маркета я приплел, конечно, сбоку припекой, но чисто чтобы порядок цен проиллюстрировать.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
Madness_Lvov
На сайте с 22.05.2008
Offline
54
#8

ТС, Скрипт кодированный?

Предлагаю в него добавить блеклист доменов куда НЕ ХОДИТЬ за новостями

Также можно из него сделать плагин для Wordpress 😂

Оплата по факту работы скрипта устроит?

D
На сайте с 16.02.2008
Offline
18
#9

2 Madness_Lvov

ТС, Скрипт кодированный?

Да.

Предлагаю в него добавить блеклист доменов куда НЕ ХОДИТЬ за новостями
Также можно из него сделать плагин для Wordpress

У данного скрипта сугубо утилитарное предназначение - собирать контент для генерации доров.

Алгоритм сбора контента можно доработать с целью сохранения новости целиком, вернее её большей части, т.к. структура каждого сайта уникальна и на каждый сайт задать свое правило сбора контента не представляется возможным.

После этого можно говорить о плагине для Wordpress.

2 All

Будет ли кому-нибудь интересен скрипт собирающий новости по заданному кею?

spambot
На сайте с 12.12.2008
Offline
55
#10

интересует цельные статьи с новостных сайтов только вот у каждого своя разметка не знаю реально ли такое...

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий