Распарсить сайт. Убрать повторения в виде меню, футера, хедера.

72

DeveloperRu

7 мая 2009, 22:47

995

Друзья, есть мысли о том, как правильно распарсить сайт и убрать повторения в виде меню, футера, хедера, являющиеся общими для всех страниц ?

Ответы на вопросы (http://telenok.com)

31

wdsg

7 мая 2009, 23:19

#1

Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.

Проектирование и разработка сложных IT-систем. Вожусь с проблемными задачами.

72

DeveloperRu

7 мая 2009, 23:53

#2

wdsg:
Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.

хтмл нерегулярный - он убирается напрочь, остаются название менюшек и прочий мусор, примешанный к тексту

выход пока нашел один - использование шинглов и стоп-слов при сравнении 2х страниц одного и того же сайта

31

wdsg

8 мая 2009, 08:28

#3

Т.е. перед парсингом "глазами" HTML никто не смотрит, и необходимо на машинном уровне отделить полезный контент от остального? В таком случае, это тема для отдельного раздела форума, или даже для отдельного форума :) Кстати, каковы Ваши результаты использования шиглов, если не секрет? На сколько глубоко канонизируете (приводите к именительному падежу и единственному числу или просто режете стоп-конструкции)? Сравнение страниц сайта для выделения постоянных фрагментов, лично мне, кажется наиболее эффективным. Вот только выпиливать HTML не стоит. Тэги могут служить отличными маркерами. Можно даже зайти под тупым углом и поиграть similar_text(), предварительно разбив срез страниц на строки... Так или иначе, поиск неточных совпадений просто бездонный предмет для экспериментов и обсуждения.

7

xzorro

8 мая 2009, 09:10

#4

ТС, имеет ввиду автоматом выдрать основной контент страницы, несущий слысловую нагрузку?

DG Art (http://www.dg.by)

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Google: E-E-A-T не является фактором ранжирования