Как парсить с разных сайтов чистый текст?

131

Никанет

23 октября 2012, 21:53

27681

Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

N2

19

namoot27

23 октября 2012, 23:00

#1

Никанет:
Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь.
.

скинь адрес одного ресурса в ЛС - редко CD не берет, попробую проект составить - разве что разная верстка на всех страницах но такого не бывает

1

K

113

kaizer

24 октября 2012, 04:00

#2

попробуй через демку в подписи.

Сео-автопилот (http://tbp3.ru/) Элитный вордпресс плагин (http://trafficboosterprov3.ru/)

249

sema_87

24 октября 2012, 04:11

#3

Никанет, если надо в 1 файл то можно в кд потом просто открыть в браузере и скопировать текст

Uh-Oh We're In Trouble, Something's Come Along And It's Burst Our Bubble!

131

Никанет

24 октября 2012, 08:47

#4

namoot27:
разве что разная верстка на всех страницах но такого не бывает

Блин, так и есть. Вы как читаете?

Никанет:
Есть список адресов страниц разных сайтов.

sema_87:
Никанет, если надо в 1 файл то можно в кд потом просто открыть в браузере и скопировать текст

Это значения не имеет, в один или в несколько. Мне нужно парсить чистый текст с разных сайтов.

Ну сохранение тегов еще можно отключить. Допустим я спарсил 1000 текстов. И сколько лет мне это полотно чистить от "на главную", "карта сайта", "друзья сайта" и т.п. ? А если буду прямо с мусором тексты заливать, юзеру будет неприятно читать и будут частые отказы. Это конено доры, но все же.

Вот я интересуюсь, какие есть инструменты, позволяющие распознавать чистый контент независимо от верстки?

ИЦ в Апорте Какой title лучше для уникальный контент

68

Collapse

24 октября 2012, 09:09

#5

Никанет:
Блин, так и есть. Вы как читаете?

Это значения не имеет, в один или в несколько. Мне нужно парсить чистый текст с разных сайтов.

Ну сохранение тегов еще можно отключить. Допустим я спарсил 1000 текстов. И сколько лет мне это полотно чистить от "на главную", "карта сайта", "друзья сайта" и т.п. ? А если буду прямо с мусором тексты заливать, юзеру будет неприятно читать и будут частые отказы. Это конено доры, но все же.

Вот я интересуюсь, какие есть инструменты, позволяющие распознавать чистый контент независимо от верстки?

Универсального 100% правильно работающего метода точно нет.

Я когда-то писал такое под себя, продумать алгоритм, который бы более менее стабильно выдавал чистый нужный контент так и не удалось.

N

8

Nevkusny

24 октября 2012, 09:23

#6

Collapse:
Универсального 100% правильно работающего метода точно нет.

Но getpocket.com ведь как то это делает!?

Не люблю форумы

68

Collapse

24 октября 2012, 09:24

#7

Nevkusny:
Но getpocket.com ведь как то это делает!?

Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.

149

maxwell

24 октября 2012, 10:00

#8

Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.

У меня эта штука трудится день и ночь, собирая нужный мне контент.

Keywords Пушыстый выпал из индекса Пропала постраничная навигация в

131

Никанет

24 октября 2012, 10:05

#9

Collapse:
Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.

У меня есть мысль. Надо не только фильтровать по тегам, типа <p>, но и задавать минимальное количество знаков между тегами. Чтобы анкоры и всякий мусор не парсился, а текст парсился. 100% работать не будет, но качество повысится. В CD этой возможности нет.

---------- Добавлено 24.10.2012 в 15:07 ----------

maxwell:
Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.

У меня эта штука трудится день и ночь, собирая нужный мне контент.

Руки растут криво, гуглить лень 🤪 Возможно как-то по-другому решить этот вопрос?

Дорген PandoraBox - вопросы noindex Хороший ли видеокурс?

32

anemak

24 октября 2012, 10:08

#10

Я оставлю здесь только это: DOM-дерево.

лобстеры, Дон Периньон, белуга, Хеннеси ...

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Все что нужно знать о DDоS-атаках грамотному менеджеру