- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Друзья, есть мысли о том, как правильно распарсить сайт и убрать повторения в виде меню, футера, хедера, являющиеся общими для всех страниц ?
Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.
Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.
хтмл нерегулярный - он убирается напрочь, остаются название менюшек и прочий мусор, примешанный к тексту
выход пока нашел один - использование шинглов и стоп-слов при сравнении 2х страниц одного и того же сайта
Т.е. перед парсингом "глазами" HTML никто не смотрит, и необходимо на машинном уровне отделить полезный контент от остального? В таком случае, это тема для отдельного раздела форума, или даже для отдельного форума :) Кстати, каковы Ваши результаты использования шиглов, если не секрет? На сколько глубоко канонизируете (приводите к именительному падежу и единственному числу или просто режете стоп-конструкции)? Сравнение страниц сайта для выделения постоянных фрагментов, лично мне, кажется наиболее эффективным. Вот только выпиливать HTML не стоит. Тэги могут служить отличными маркерами. Можно даже зайти под тупым углом и поиграть similar_text(), предварительно разбив срез страниц на строки... Так или иначе, поиск неточных совпадений просто бездонный предмет для экспериментов и обсуждения.
ТС, имеет ввиду автоматом выдрать основной контент страницы, несущий слысловую нагрузку?