Комментарии - xmass1 - Профиль вебмастера - Форум об интернет-маркетинге

Как парсить с разных сайтов чистый текст?

27 октября 2012, 18:07

Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

ТС не ловайте голову вот вам парсер http://seoson.ru/20-zparserultra.html который полностью подойдет под ваши нужды, использую его уже не первый год.

Умеет парсить текст как по поисковым запросам из поисковика так и сканировать и парсить отдельный сайт, или парсить по заданному списку страниц все сохраняет по файлам.

Отличная авторегистрация в 5 000+ каталогах за 2$

6 июля 2009, 18:21

Заказал регистрацию 46 сайтов 3 июля на 100WMZ Обещал начать с 4 июля, но прошло 4 и 5 июля - ни слуху ни духу ... и 6 июля уже прошло. Если до конца недели не объявится - буду разбираться через арбитраж. Всем предлагаю временно ОТКАЗАТЬСЯ ОТ УСЛУГ ДАННОГО РЕГИСТРАТОРА пока он не выполнит текущие заказы!

Скорость индексирования сайта, как быстро попадает сайт в индекс

3 февраля 2007, 18:04

Ну а у кого какая скорость индексирования (страниц в неделю) ?

И от чего это зависит ?

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

xmass1