Распарсить сайт. Убрать повторения в виде меню, футера, хедера.

DeveloperRu
На сайте с 27.02.2009
Offline
72
995

Друзья, есть мысли о том, как правильно распарсить сайт и убрать повторения в виде меню, футера, хедера, являющиеся общими для всех страниц ?

Ответы на вопросы (http://telenok.com)
wdsg
На сайте с 09.02.2009
Offline
31
#1

Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.

Проектирование и разработка сложных IT-систем. Вожусь с проблемными задачами.
DeveloperRu
На сайте с 27.02.2009
Offline
72
#2
wdsg:
Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.

хтмл нерегулярный - он убирается напрочь, остаются название менюшек и прочий мусор, примешанный к тексту

выход пока нашел один - использование шинглов и стоп-слов при сравнении 2х страниц одного и того же сайта

wdsg
На сайте с 09.02.2009
Offline
31
#3

Т.е. перед парсингом "глазами" HTML никто не смотрит, и необходимо на машинном уровне отделить полезный контент от остального? В таком случае, это тема для отдельного раздела форума, или даже для отдельного форума :) Кстати, каковы Ваши результаты использования шиглов, если не секрет? На сколько глубоко канонизируете (приводите к именительному падежу и единственному числу или просто режете стоп-конструкции)? Сравнение страниц сайта для выделения постоянных фрагментов, лично мне, кажется наиболее эффективным. Вот только выпиливать HTML не стоит. Тэги могут служить отличными маркерами. Можно даже зайти под тупым углом и поиграть similar_text(), предварительно разбив срез страниц на строки... Так или иначе, поиск неточных совпадений просто бездонный предмет для экспериментов и обсуждения.

xzorro
На сайте с 20.04.2009
Offline
7
#4

ТС, имеет ввиду автоматом выдрать основной контент страницы, несущий слысловую нагрузку?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий