Tagstractor - простой regexp-подобный язык "выдирания" данных из HTML. - Сервисы и программы для работы с SE - Практические вопросы оптимизации

0

mriadus

3 августа 2010, 07:39

679

http://dramele.livejournal.com/122607.html

Кратко: простой язык запросов данных из HTML-страниц. Позволяет за минуту решать вопрос выдирания топиков из форумов, новостей и ещё чего-нибудь с сайтов.

На стадии активного добавления фич. Сделан на С++. Позже возможно появление в виде библиотек.

Является бояном и велосипедом в плане своих возможностей, но имеет простые отличия от аналогов. Например, не строит дерево DOM в памяти, не осуществляет "навигацию" по иерархии документа, т.к. в реальном мире иногда это дерево содержит ошибки, которые нужно как-то исправлять, что не всегда понятно как, а браузер хорошо всё рендерит и ошибки живут. Документ рассматривается просто как поток тегов и кусков текста между ними, а пользователю даётся regexp-подобный язык, который оперирует именами тегов и их параметрами, позволя по ходу разбора генерировать пользовательские переменные, запихивая в них содержимое какого-нибудь параметра тега или текстового блока.

На велосипедарности и боянистости можно не критиковать ) Про XPath, Web::Scarper автору известно хорошо.

D

79

digwnews

3 августа 2010, 12:15

#1

И что же он улучшает/упрощает по сравнению с обычным использованием регекспов?

55

spambot

3 августа 2010, 12:32

#2

Tagstractor - простой regexp-подобный язык "выдирания" данных из HTML.

см. подпись. ☝

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)

M

0

mriadus

3 августа 2010, 22:52

#3

spambot:
см. подпись. ☝

+1

По сути, tagstractor - упрощённый, HTML-заточенный regexp. Для блондинов.

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что делать, если ваша email-рассылка попала в спам

Tagstractor - простой regexp-подобный язык "выдирания" данных из HTML.