Парсер контента Google News

Grimich
На сайте с 08.04.2009
Offline
43
672

Доброго времени суток!

Есть простой самописный парсер контента из google news по указанному кею.

Что он делает:

  • собирает текст с сайтов из выдачи гугл news
  • чистит полученный текст от посторонних тэгов
  • аккуратно складывает напарсеный текст в файл

В силу уникальности разметки каждого новостного сайта, скрипт правильно определяет текст новости лишь в большинстве случаев. Конечно, хотелось бы довести этот показатель до 100%, но увы, пока это не представляется возможным.

Пример текста тут:

http://keichecker.isgreat.org/cars.txt

(Собран с первой страницы выдачи, по ключевику "cars")

Цена: 10 wmz;

http://www.oplata.info/asp/pay_wm.asp?id_d=938045

Купить!

Рассмотрю варианты доработки/модификации скрипта.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий