Как определить размер статьи на неизвестном сайте?

662

Devvver

12 декабря 2018, 12:25

2350

Есть софт который получает топ 10 выдачи поисковой системы. Имеем 10 юрлов - статей.

Как определить размер статьи автоматически?

Теоретически:

1) Спарсить статью через RSS (если есть)

2) Поискать микроразметку (blogposting или Article)

3) Считать что h1 - это начало, но как определить конец? Искать надпись типа "добавить комментарий или комментарии"

Ситуация осложняется разными cms и непониманием определить основной контент.

Может кто реализовывал подобное на любом языке программирования - куда хоть копать?

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой SEO телеграм канал https://t.me/seobloggers

84

BLIKSSS

12 декабря 2018, 13:09

#1

Devvver:
Есть софт который получает топ 10 выдачи поисковой системы. Имеем 10 юрлов - статей.
Как определить размер статьи автоматически?

Софт X-Parser-Light?

В нем есть настройка минимальный и максимальный размер.

Может он подойдет.

15

WP_Expert

12 декабря 2018, 13:17

#2

Devvver, по числу абзацев можно ☝

⭐ Создание лендингов и многостраничных сайтов на WordPress ⭐ Любые работы по Wordpress - написать (https://t.me/wpexpert) ⭐ Сайты под Adsense на заказ

39

webiumpro

12 декабря 2018, 13:44

#3

Можно попробовать реализовать анализатор, который будет определять контентную часть. Алгоритм примерно такой:

1. Спарсить вместе с целевой статьей еще несколько других

2. Сравнить html (с помощью h1) и оставить только уникальный контент. Все, что ниже контента статьи, как правило, будет повторяться

3. Определить прямого родителя (контейнер содержимого статьи), чтобы вытащить контент.

Этот подход довольно сложный и ресурсоемкий, но я думаю, погрешность будет ниже, чем у других способов.

Копирование лендингов. Разработка на фреймворке сервисов. Создание сайтов (/ru/forum/994418)

662

Devvver

12 декабря 2018, 14:46

#4

WP_Expert:
по числу абзацев можно

конкретнее?

BLIKSSS:
Софт X-Parser-Light?

Я ж написал что свой софт пишу. Мне бы понять алгоритм.

webiumpro:
Все, что ниже контента статьи, как правило, будет повторяться

Так теги вообще повторяющиеся будут. Вашу мысль я понял, искать какие то повторяющиеся элементы - типа автора или кнопок поделиться или звездочек. Но такое начать определять - тут нейросеть надо писать и обучать на выборке. Сложновато.

Логи посещений сайтов Видео находится за пределами Наполнить сайт статьями от

39

webiumpro

12 декабря 2018, 14:56

#5

Devvver:
Так теги вообще повторяющиеся будут.

Не просто теги, а их содержимое и атрибуты

Devvver:
Но такое начать определять - тут нейросеть надо писать и обучать на выборке

Вполне будет достаточно html-crawler'a и регулярок. Не так много критериев и их комбинаций нужно проверить, чтобы понять, что какая-то часть кода есть и на других страницах, а какая-то - уникальна. Погрешность безусловно будет, но со временем ее можно минимизировать, добавляя новые критерии проверки

662

Devvver

12 декабря 2018, 15:02

#6

webiumpro:
Вполне будет достаточно html-crawler'a и регулярок.

Понятно. Почитал ответы программистов на Тостере и понял что задача нереализуемая, только гадания. Эта проблема уровня поисковиков.

39

webiumpro

12 декабря 2018, 15:10

#7

Вы можете найти родителя h1. Значит все, что выше этого родительского контейнера, уже можно отбросить, останется только тело статьи со всякими служебными элементами, которые, в принципе, тоже реально вычислить.

Вы заинтересовали меня этой задачей. Давайте спишемся в личке и проведем эксперимент. Вы мне дадите для теста несколько сайтов, а я попробую реализовать этот алгоритм на php и вычленить контент. Я не возьму за это ни копейки, просто задача реально очень интересная.

Максимальный доход или ограничение Яндекс кобласит Paytrix.ru - вывод Adsense

_

381

_SP_

12 декабря 2018, 15:17

#8

Выкидываете все тэги... всё остальное текст

1

M

86

moalexey

12 декабря 2018, 15:17

#9

Devvver:
Есть софт который получает топ 10 выдачи поисковой системы. Имеем 10 юрлов - статей.
Как определить размер статьи автоматически?

Не совсем понятно, что означает термин "размер статьи". Возможно это подойдет под вашу задачу https://github.com/grangier/python-goose

T7

63

timo-71

12 декабря 2018, 15:48

#10

webiumpro:
Вы можете найти родителя h1.

А если нет H1?

У меня, что то более менее приемлемое получалось при комбинации 2-х идей.

1. Абзац, это как минимум 2 пассажа, в каждом из которых (мин 2(3?)) слова или один как минимум из 2-3-х. Варианты:)

2. Ищем блочный элемент (р/див и т.д.), где других блочных элементов нет и это пассаж по п1.

Парент элемент в котором больше всего п.2 - статья.

Но часто попадают анонсы других статей ( "вам может понравиться"), комментарии и т.п. шлак

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи