Как парсить с разных сайтов чистый текст?

[Удален]
#41

Никанет Обратитесь к автору zparser у него есть много модификаций программы которых нет на его оф сайте, в том числе и которые парсят по списку кеев.

X1
На сайте с 25.01.2006
Offline
51
#42
Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

ТС не ловайте голову вот вам парсер http://seoson.ru/20-zparserultra.html который полностью подойдет под ваши нужды, использую его уже не первый год.

Умеет парсить текст как по поисковым запросам из поисковика так и сканировать и парсить отдельный сайт, или парсить по заданному списку страниц все сохраняет по файлам.

[Удален]
#43
Никанет:
sasha_123, распространяете его?

Нет :)

Могу прогнать через него ваши урлы (бесплатно), если есть желание.

K
На сайте с 05.09.2007
Offline
55
#44
Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

а Вы сами посудите возможно ли это чисто автоматическим способом? Как программа может знать где главная статья а где просто вспомогательный текст который никак не отличается от главной? Человек возможно поймет где что но программу нужно обучить предварительно. Простые парсеры могут собрать текст со страниц удалить теги и например согласно некоторым правилам другую служебную информацию но программа не различит какой именно текст коим является. Если список из сайтов постоянно один и тот же можно согласно каждого отдельного сайта парсить текст согласно его структуре. Вообщем если интересно могу подсказать удобную php библиотеку которая хорошенько упрощает жизнь.

Никанет
На сайте с 26.07.2010
Offline
131
#45
sasha_123:

Могу прогнать через него ваши урлы (бесплатно), если есть желание.

Спасибо, не стоит :)

---------- Добавлено 28.10.2012 в 02:38 ----------

kurazh:
а Вы сами посудите возможно ли это чисто автоматическим способом? Как программа может знать где главная статья а где просто вспомогательный текст который никак не отличается от главной? Человек возможно поймет где что но программу нужно обучить предварительно. ... но программа не различит какой именно текст коим является.

Тут некоторые утверждают обратное. На многих страницах обычно один текст.

kurazh:
Если список из сайтов постоянно один и тот же можно согласно каждого отдельного сайта парсить текст согласно его структуре.

Будь оно так, я бы так и сделал.

---------- Добавлено 28.10.2012 в 02:39 ----------

xmass1:
ТС не ловайте голову вот вам парсер http://seoson.ru/20-zparserultra.html который полностью подойдет под ваши нужды, использую его уже не первый год.
Умеет парсить текст как по поисковым запросам из поисковика так и сканировать и парсить отдельный сайт, или парсить по заданному списку страниц все сохраняет по файлам.

Такое ощущение, что Вы полностью скопировали одно сообщение выше.

rewiaca
На сайте с 15.07.2009
Offline
93
#46

ТС, тебе нужен бесшаблонный парсер, гугл выдает много инфы по этому запросу

Проблема лишь в том, что нужно готовое решение, а так написать алгоритм нахождения статьи на странице, который даст КПД ~90% - не сложно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий