Как определить размер статьи на неизвестном сайте?

123
webiumpro
На сайте с 20.03.2017
Offline
39
#11
timo-71:
А если нет H1?

Могу ошибаться, но сомневаюсь, что в топ 10 попадут статьи без h1

Копирование лендингов. Разработка на фреймворке сервисов. Создание сайтов (/ru/forum/994418)
T7
На сайте с 19.09.2018
Offline
63
#12
webiumpro:
Могу ошибаться, но сомневаюсь, что в топ 10 попадут статьи без h1

Бывает

https://news.sportbox.ru/Vidy_sporta/Hokkej/NHL/stats

http://nhl.ru/?action=shedul&op=standings_conf

webiumpro
На сайте с 20.03.2017
Offline
39
#13
timo-71:
Бывает

Да, но не так часто, чтобы сбрасывать со счетов этот способ. Я думаю, что это будет зависеть от частотности запроса. К тому же, методы можно миксовать. Самый простой способ определить контент - по микроразметке, если ее нет, то по h1, если нет h1, то по тем же абзацам, как вы выше описали, и т.д. Критерии проверки можно добавлять и уточнять. Никто не говорит, что это стопроцентный способ и он будет работать во всех случаях.

Devvver
На сайте с 02.07.2008
Offline
662
#14
moalexey:
Возможно это подойдет под вашу задачу

Я пишу на Delphi. Поэтому и ищу алгоритм.

webiumpro:
Вы можете найти родителя h1. Значит все, что выше этого родительского контейнера, уже можно отбросить

Об этом я писал в старпосте. Но проблема определить конец статьи.

webiumpro:
Вы заинтересовали меня этой задачей. Давайте спишемся в личке и проведем эксперимент. Вы мне дадите для теста несколько сайтов, а я попробую реализовать этот алгоритм на php и вычленить контент. Я не возьму за это ни копейки, просто задача реально очень интересная.

Сегодня точно нет, я слишком пьян чтобы осилить код. В теории мы сканим любой топ 10 по информационным запросам.

Я вот это нагуглил и приуныл. Проблема не так проста как кажется

https://toster.ru/q/308852

https://toster.ru/q/23997

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой SEO телеграм канал https://t.me/seobloggers
AlexStep
На сайте с 23.03.2009
Offline
354
#15

удалить все до <H1>

удалить содержимое <aside>

удалить содержимое <footer>

удалить html код

Получится статья + Коментарии (что тоже контент).

Если есть тэг <article> можно оставить только его, остальное удалить.

Devvver
На сайте с 02.07.2008
Offline
662
#16

AlexStep, если бы сайты были на html5 - все логично. Но сайты все разные. Обычно больше 50% - это WP.

Для понимания - вбейте информационный запрос любой - к примеру "храмы Паттайи" в Яндексе

Devvver
На сайте с 02.07.2008
Offline
662
#17

Опять актуально.

Может кто подскажет какие то наработки или свой опыт?

Представим что это все делать на php. Куда копать, какие библиотеки помогут?

Сколько может стоить решение этой задачи ? Или сколько времени уйдет у программиста на реализацию?

В топе в 60% сайты на WP

ДП
На сайте с 23.11.2009
Offline
203
#18

Я бы еще посмотрел как работают скрипты типа Readability - которые делают "версии для чтения" - они же по сути только контент статьи оставляют

totamon
На сайте с 12.05.2007
Offline
437
#19
Devvver:
Может кто подскажет какие то наработки или свой опыт?

вот наработки, там в тем есть ссылки... от автора жду скидки))

Домены и хостинг https://8fn.ru/regru | Дедик от 3000р https://8fn.ru/73 | VPS в Москве https://8fn.ru/72 | Лучшие ВПС, ТП огонь, все страны! https://8fn.ru/inferno | ХОСТИНГ №1 РОССИИ https://8fn.ru/beget
Devvver
На сайте с 02.07.2008
Offline
662
#20
Дикий пионер:
скрипты типа Readability

Вы об этой библиотеке? https://github.com/mozilla/readability

totamon:
вот наработки

где?

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий