- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
А если нет H1?
Могу ошибаться, но сомневаюсь, что в топ 10 попадут статьи без h1
Могу ошибаться, но сомневаюсь, что в топ 10 попадут статьи без h1
Бывает
https://news.sportbox.ru/Vidy_sporta/Hokkej/NHL/stats
http://nhl.ru/?action=shedul&op=standings_conf
Бывает
Да, но не так часто, чтобы сбрасывать со счетов этот способ. Я думаю, что это будет зависеть от частотности запроса. К тому же, методы можно миксовать. Самый простой способ определить контент - по микроразметке, если ее нет, то по h1, если нет h1, то по тем же абзацам, как вы выше описали, и т.д. Критерии проверки можно добавлять и уточнять. Никто не говорит, что это стопроцентный способ и он будет работать во всех случаях.
Возможно это подойдет под вашу задачу
Я пишу на Delphi. Поэтому и ищу алгоритм.
Вы можете найти родителя h1. Значит все, что выше этого родительского контейнера, уже можно отбросить
Об этом я писал в старпосте. Но проблема определить конец статьи.
Вы заинтересовали меня этой задачей. Давайте спишемся в личке и проведем эксперимент. Вы мне дадите для теста несколько сайтов, а я попробую реализовать этот алгоритм на php и вычленить контент. Я не возьму за это ни копейки, просто задача реально очень интересная.
Сегодня точно нет, я слишком пьян чтобы осилить код. В теории мы сканим любой топ 10 по информационным запросам.
Я вот это нагуглил и приуныл. Проблема не так проста как кажется
https://toster.ru/q/308852
https://toster.ru/q/23997
удалить все до <H1>
удалить содержимое <aside>
удалить содержимое <footer>
удалить html код
Получится статья + Коментарии (что тоже контент).
Если есть тэг <article> можно оставить только его, остальное удалить.
AlexStep, если бы сайты были на html5 - все логично. Но сайты все разные. Обычно больше 50% - это WP.
Для понимания - вбейте информационный запрос любой - к примеру "храмы Паттайи" в Яндексе
Опять актуально.
Может кто подскажет какие то наработки или свой опыт?
Представим что это все делать на php. Куда копать, какие библиотеки помогут?
Сколько может стоить решение этой задачи ? Или сколько времени уйдет у программиста на реализацию?
В топе в 60% сайты на WP
Я бы еще посмотрел как работают скрипты типа Readability - которые делают "версии для чтения" - они же по сути только контент статьи оставляют
Может кто подскажет какие то наработки или свой опыт?
вот наработки, там в тем есть ссылки... от автора жду скидки))
скрипты типа Readability
Вы об этой библиотеке? https://github.com/mozilla/readability
вот наработки
где?