Если в топе 10 попадут статьи без h1, то удалите содержимое - Веб-строительство

39

webiumpro

12 декабря 2018, 15:58

#11

timo-71:
А если нет H1?

Могу ошибаться, но сомневаюсь, что в топ 10 попадут статьи без h1

Копирование лендингов. Разработка на фреймворке сервисов. Создание сайтов (/ru/forum/994418)

T7

63

timo-71

12 декабря 2018, 16:14

#12

webiumpro:
Могу ошибаться, но сомневаюсь, что в топ 10 попадут статьи без h1

Бывает

https://news.sportbox.ru/Vidy_sporta/Hokkej/NHL/stats

http://nhl.ru/?action=shedul&op=standings_conf

39

webiumpro

12 декабря 2018, 16:24

#13

timo-71:
Бывает

Да, но не так часто, чтобы сбрасывать со счетов этот способ. Я думаю, что это будет зависеть от частотности запроса. К тому же, методы можно миксовать. Самый простой способ определить контент - по микроразметке, если ее нет, то по h1, если нет h1, то по тем же абзацам, как вы выше описали, и т.д. Критерии проверки можно добавлять и уточнять. Никто не говорит, что это стопроцентный способ и он будет работать во всех случаях.

662

Devvver

12 декабря 2018, 16:25

#14

moalexey:
Возможно это подойдет под вашу задачу

Я пишу на Delphi. Поэтому и ищу алгоритм.

webiumpro:
Вы можете найти родителя h1. Значит все, что выше этого родительского контейнера, уже можно отбросить

Об этом я писал в старпосте. Но проблема определить конец статьи.

webiumpro:
Вы заинтересовали меня этой задачей. Давайте спишемся в личке и проведем эксперимент. Вы мне дадите для теста несколько сайтов, а я попробую реализовать этот алгоритм на php и вычленить контент. Я не возьму за это ни копейки, просто задача реально очень интересная.

Сегодня точно нет, я слишком пьян чтобы осилить код. В теории мы сканим любой топ 10 по информационным запросам.

Я вот это нагуглил и приуныл. Проблема не так проста как кажется

https://toster.ru/q/308852

https://toster.ru/q/23997

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой SEO телеграм канал https://t.me/seobloggers

354

AlexStep

12 декабря 2018, 16:55

#15

удалить все до <H1>

удалить содержимое <aside>

удалить содержимое <footer>

удалить html код

Получится статья + Коментарии (что тоже контент).

Если есть тэг <article> можно оставить только его, остальное удалить.

662

Devvver

12 декабря 2018, 17:06

#16

AlexStep, если бы сайты были на html5 - все логично. Но сайты все разные. Обычно больше 50% - это WP.

Для понимания - вбейте информационный запрос любой - к примеру "храмы Паттайи" в Яндексе

662

Devvver

7 января 2019, 12:44

#17

Опять актуально.

Может кто подскажет какие то наработки или свой опыт?

Представим что это все делать на php. Куда копать, какие библиотеки помогут?

Сколько может стоить решение этой задачи ? Или сколько времени уйдет у программиста на реализацию?

В топе в 60% сайты на WP

ДП

203

Дикий пионер

7 января 2019, 18:35

#18

Я бы еще посмотрел как работают скрипты типа Readability - которые делают "версии для чтения" - они же по сути только контент статьи оставляют

437

totamon

7 января 2019, 20:46

#19

Devvver:
Может кто подскажет какие то наработки или свой опыт?

вот наработки, там в тем есть ссылки... от автора жду скидки))

Домены и хостинг https://8fn.ru/regru | Дедик от 3000р https://8fn.ru/73 | VPS в Москве https://8fn.ru/72 | Лучшие ВПС, ТП огонь, все страны! https://8fn.ru/inferno | ХОСТИНГ №1 РОССИИ https://8fn.ru/beget

662

Devvver

8 января 2019, 10:58

#20

Дикий пионер:
скрипты типа Readability

Вы об этой библиотеке? https://github.com/mozilla/readability

totamon:
вот наработки

где?

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Open AI тестирует память для ChatGPT

Как определить размер статьи на неизвестном сайте?