Tagstractor - простой regexp-подобный язык "выдирания" данных из HTML.

M
На сайте с 03.08.2010
Offline
0
666

http://dramele.livejournal.com/122607.html

Кратко: простой язык запросов данных из HTML-страниц. Позволяет за минуту решать вопрос выдирания топиков из форумов, новостей и ещё чего-нибудь с сайтов.

На стадии активного добавления фич. Сделан на С++. Позже возможно появление в виде библиотек.

Является бояном и велосипедом в плане своих возможностей, но имеет простые отличия от аналогов. Например, не строит дерево DOM в памяти, не осуществляет "навигацию" по иерархии документа, т.к. в реальном мире иногда это дерево содержит ошибки, которые нужно как-то исправлять, что не всегда понятно как, а браузер хорошо всё рендерит и ошибки живут. Документ рассматривается просто как поток тегов и кусков текста между ними, а пользователю даётся regexp-подобный язык, который оперирует именами тегов и их параметрами, позволя по ходу разбора генерировать пользовательские переменные, запихивая в них содержимое какого-нибудь параметра тега или текстового блока.

На велосипедарности и боянистости можно не критиковать ) Про XPath, Web::Scarper автору известно хорошо.

D
На сайте с 09.07.2009
Offline
79
#1

И что же он улучшает/упрощает по сравнению с обычным использованием регекспов?

spambot
На сайте с 12.12.2008
Offline
55
#2
Tagstractor - простой regexp-подобный язык "выдирания" данных из HTML.

см. подпись. ☝

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)
M
На сайте с 03.08.2010
Offline
0
#3
spambot:
см. подпись. ☝

+1

По сути, tagstractor - упрощённый, HTML-заточенный regexp. Для блондинов.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий