Чем спарсить структуру сайта?

majordon
На сайте с 05.12.2008
Offline
119
2024

Приветствую!

На входе имеем сайт, на выходе нужно получить его структуру (категории, статьи и т.д.) в наглядном виде. Чем проще это сделать? Пробовал парсить Screaming Frog'ом, получать sitemap и конвертировать карту в текст или штмл, но отображения структуры так и не добился.

samimages
На сайте с 31.05.2009
Offline
391
#1

xenu

+символы

Опыт как иммунитет — приобретается в муках! Хостинг: 5Гб SSD [Россия] - 118 руб/мес + домен и SSL в подарок (http://www.hostland.ru/order/hosting/?r=fe5d289a) Аудит семантики от 15К [долго] - ЛС
majordon
На сайте с 05.12.2008
Offline
119
#2

У xenu есть отчет Site Map of valid HTML, но строит он его настолько криво, что отчет становится бесполезным

samimages
На сайте с 31.05.2009
Offline
391
#3

ComparseR.

majordon
На сайте с 05.12.2008
Offline
119
#4

А где ComparseR строит структуру? Я пробовал демо версию, в правом сайдбаре есть "построить дерево", но к структуре сайта отношение это не имеет. Может в полной версии по другому?

samimages
На сайте с 31.05.2009
Offline
391
#5

там... что вы имеете ввиду под структурой сайта?

majordon:
нужно получить его структуру (категории, статьи и т.д.) в наглядном виде

Что не так с компарсером в этой логике?.. Ну за исключением сайтов без структуры)))

A5
На сайте с 02.06.2009
Offline
151
#6
majordon:
Приветствую!

На входе имеем сайт, на выходе нужно получить его структуру (категории, статьи и т.д.) в наглядном виде. Чем проще это сделать? Пробовал парсить Screaming Frog'ом, получать sitemap и конвертировать карту в текст или штмл, но отображения структуры так и не добился.

А на основании чего парсер должен определить структуру?

Напрашиваются два варианта - либо по структуре вложений в чпу, либо по связям в навигации (уровне вложенности от главной).

Ни тот ни другой способ не универсален, т.к. чпу у донора может отсутствовать, а навигация быть сделана как сделана.

majordon
На сайте с 05.12.2008
Offline
119
#7

Да, действительно все испытанные парсеры выстраивают структуру на основе элементарной логики. Если статья есть в категории и на неё ссылаются с другой статьи, скрипт может подхватить как первый, так и второй вариант. Сильно перелинкованные сайты показывает неправильно

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий