xmass1

Рейтинг
51
Регистрация
25.01.2006
Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

ТС не ловайте голову вот вам парсер http://seoson.ru/20-zparserultra.html который полностью подойдет под ваши нужды, использую его уже не первый год.

Умеет парсить текст как по поисковым запросам из поисковика так и сканировать и парсить отдельный сайт, или парсить по заданному списку страниц все сохраняет по файлам.

Заказал регистрацию 46 сайтов 3 июля на 100WMZ Обещал начать с 4 июля, но прошло 4 и 5 июля - ни слуху ни духу ... и 6 июля уже прошло. Если до конца недели не объявится - буду разбираться через арбитраж. Всем предлагаю временно ОТКАЗАТЬСЯ ОТ УСЛУГ ДАННОГО РЕГИСТРАТОРА пока он не выполнит текущие заказы!

Ну а у кого какая скорость индексирования (страниц в неделю) ?

И от чего это зависит ?