Парсер HTML библиотека

[Удален]

13 марта 2024, 08:36

301

Приветствую!

1) Есть для пыха либа парсинга HTML? Меня конкретно интересует получить все узлы, а точнее содержащийся в них текст, модифицировать и собрать страницу обратно. Можно модифицировать выбирая последовательно каждый текстовый "кусок".

phpQuery вроде что надо, но она не устарела?

2) Существуют ли для пыха либа-валидатор HTML?

P.S.: В пыхе есть встроенные классы для DOM, но они какие-то мутные. И разбираться нет сейчас времени (оно того стоит?)

120

XruMan

13 марта 2024, 09:04

#1

Ещё есть Nokogiri - https://github.com/olamedia/nokogiri/

1

GitHub - olamedia/nokogiri: HTML parser for PHP - Парсер HTML

olamedia
github.com

Attention: New version can break compatibility, in that case use previous version under the v1.0 branch or tag which supports even php 5.4+ This library is a fast HTML parser, which can work with invalid code (errors are ignored). Under the hood is used LibXML. As the input you can use HTML string in UTF-8 encoding or DOMDocument. For the...

196

lutskboy

13 марта 2024, 10:48

#2

я сколько делал парсеров решал все на DOM xpath

[Удален]

13 марта 2024, 10:57

#3

lutskboy #:
я сколько делал парсеров решал все на DOM xpath

Это же для XML, там проблемки как я понял будут с невалидным кодом.

XruMan #:
Ещё есть Nokogiri

А как у неё с документацией? Я имею ввиду качество.

[Удален]

13 марта 2024, 11:28

#4

Еще нагуглил PHP Simple HTML DOM Parser - у них как я вижу отличная (и по отзывам) документация.

Не знаю, решит ли мою проблему это - извлечь все узлы, обойти и что-то модифицировать и сохранить обратно в HTML... 🤸

1

Парсинг всех ссылок с Проблемка с PHP Simple Ищу Скрипт (есть пример)

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Яндекс Вебмастер вынес товарные фиды в отдельный раздел