Как парсить с разных сайтов чистый текст?

[Удален]

27 октября 2012, 10:08

#41

Никанет Обратитесь к автору zparser у него есть много модификаций программы которых нет на его оф сайте, в том числе и которые парсят по списку кеев.

1

X1

51

xmass1

27 октября 2012, 18:07

#42

Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

ТС не ловайте голову вот вам парсер http://seoson.ru/20-zparserultra.html который полностью подойдет под ваши нужды, использую его уже не первый год.

Умеет парсить текст как по поисковым запросам из поисковика так и сканировать и парсить отдельный сайт, или парсить по заданному списку страниц все сохраняет по файлам.

Пишу скрипты для xedant Несколько вопросов от новичка Парсер Яндекс.Весна

[Удален]

27 октября 2012, 18:29

#43

Никанет:
sasha_123, распространяете его?

Нет :)

Могу прогнать через него ваши урлы (бесплатно), если есть желание.

K

55

kurazh

27 октября 2012, 22:01

#44

Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

а Вы сами посудите возможно ли это чисто автоматическим способом? Как программа может знать где главная статья а где просто вспомогательный текст который никак не отличается от главной? Человек возможно поймет где что но программу нужно обучить предварительно. Простые парсеры могут собрать текст со страниц удалить теги и например согласно некоторым правилам другую служебную информацию но программа не различит какой именно текст коим является. Если список из сайтов постоянно один и тот же можно согласно каждого отдельного сайта парсить текст согласно его структуре. Вообщем если интересно могу подсказать удобную php библиотеку которая хорошенько упрощает жизнь.

Рекомендации для корректного представления Миф о гейтвеях Платон Щукин: «Ссылки покупать

131

Никанет

27 октября 2012, 22:35

#45

sasha_123:

Могу прогнать через него ваши урлы (бесплатно), если есть желание.

Спасибо, не стоит :)

---------- Добавлено 28.10.2012 в 02:38 ----------

kurazh:
а Вы сами посудите возможно ли это чисто автоматическим способом? Как программа может знать где главная статья а где просто вспомогательный текст который никак не отличается от главной? Человек возможно поймет где что но программу нужно обучить предварительно. ... но программа не различит какой именно текст коим является.

Тут некоторые утверждают обратное. На многих страницах обычно один текст.

kurazh:
Если список из сайтов постоянно один и тот же можно согласно каждого отдельного сайта парсить текст согласно его структуре.

Будь оно так, я бы так и сделал.

---------- Добавлено 28.10.2012 в 02:39 ----------

xmass1:
ТС не ловайте голову вот вам парсер http://seoson.ru/20-zparserultra.html который полностью подойдет под ваши нужды, использую его уже не первый год.
Умеет парсить текст как по поисковым запросам из поисковика так и сканировать и парсить отдельный сайт, или парсить по заданному списку страниц все сохраняет по файлам.

Такое ощущение, что Вы полностью скопировали одно сообщение выше.

Google: если сайт ранжируется R-брокер: Исследование по изменениям 45% россиян используют социальные

93

rewiaca

16 ноября 2012, 21:57

#46

ТС, тебе нужен бесшаблонный парсер, гугл выдает много инфы по этому запросу

Проблема лишь в том, что нужно готовое решение, а так написать алгоритм нахождения статьи на странице, который даст КПД ~90% - не сложно.

Яндекс не перестает удивлять. Небольшой опрос. Идеальный дорген/генератор Разная позиция сайта при

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах