Как парсить с разных сайтов чистый текст?

Никанет
На сайте с 26.07.2010
Offline
131
27671

Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

N2
На сайте с 28.09.2011
Offline
19
#1
Никанет:
Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь.
.

скинь адрес одного ресурса в ЛС - редко CD не берет, попробую проект составить - разве что разная верстка на всех страницах но такого не бывает

K
На сайте с 09.06.2006
Offline
113
#2

попробуй через демку в подписи.

Сео-автопилот (http://tbp3.ru/) Элитный вордпресс плагин (http://trafficboosterprov3.ru/)
sema_87
На сайте с 28.08.2009
Offline
249
#3

Никанет, если надо в 1 файл то можно в кд потом просто открыть в браузере и скопировать текст

Uh-Oh We're In Trouble, Something's Come Along And It's Burst Our Bubble!
Никанет
На сайте с 26.07.2010
Offline
131
#4
namoot27:
разве что разная верстка на всех страницах но такого не бывает

Блин, так и есть. Вы как читаете?

Никанет:
Есть список адресов страниц разных сайтов.
sema_87:
Никанет, если надо в 1 файл то можно в кд потом просто открыть в браузере и скопировать текст

Это значения не имеет, в один или в несколько. Мне нужно парсить чистый текст с разных сайтов.

Ну сохранение тегов еще можно отключить. Допустим я спарсил 1000 текстов. И сколько лет мне это полотно чистить от "на главную", "карта сайта", "друзья сайта" и т.п. ? А если буду прямо с мусором тексты заливать, юзеру будет неприятно читать и будут частые отказы. Это конено доры, но все же.

Вот я интересуюсь, какие есть инструменты, позволяющие распознавать чистый контент независимо от верстки?

Collapse
На сайте с 30.08.2009
Offline
68
#5
Никанет:
Блин, так и есть. Вы как читаете?



Это значения не имеет, в один или в несколько. Мне нужно парсить чистый текст с разных сайтов.

Ну сохранение тегов еще можно отключить. Допустим я спарсил 1000 текстов. И сколько лет мне это полотно чистить от "на главную", "карта сайта", "друзья сайта" и т.п. ? А если буду прямо с мусором тексты заливать, юзеру будет неприятно читать и будут частые отказы. Это конено доры, но все же.

Вот я интересуюсь, какие есть инструменты, позволяющие распознавать чистый контент независимо от верстки?

Универсального 100% правильно работающего метода точно нет.

Я когда-то писал такое под себя, продумать алгоритм, который бы более менее стабильно выдавал чистый нужный контент так и не удалось.

N
На сайте с 04.10.2012
Offline
8
#6
Collapse:
Универсального 100% правильно работающего метода точно нет.

Но getpocket.com ведь как то это делает!?

Не люблю форумы
Collapse
На сайте с 30.08.2009
Offline
68
#7
Nevkusny:
Но getpocket.com ведь как то это делает!?

Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.

maxwell
На сайте с 29.04.2009
Offline
149
#8

Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.

У меня эта штука трудится день и ночь, собирая нужный мне контент.

Никанет
На сайте с 26.07.2010
Offline
131
#9
Collapse:
Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.

У меня есть мысль. Надо не только фильтровать по тегам, типа <p>, но и задавать минимальное количество знаков между тегами. Чтобы анкоры и всякий мусор не парсился, а текст парсился. 100% работать не будет, но качество повысится. В CD этой возможности нет.

---------- Добавлено 24.10.2012 в 15:07 ----------

maxwell:
Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.

У меня эта штука трудится день и ночь, собирая нужный мне контент.

Руки растут криво, гуглить лень 🤪 Возможно как-то по-другому решить этот вопрос?

anemak
На сайте с 30.07.2010
Offline
32
#10

Я оставлю здесь только это: DOM-дерево.

лобстеры, Дон Периньон, белуга, Хеннеси ...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий