Как определить размер статьи на неизвестном сайте?

ДП

203

Дикий пионер

8 января 2019, 17:28

#21

Devvver:
Вы об этой библиотеке? https://github.com/mozilla/readability

И эта и раньше еще видел от какого-то азиатского разработчика, судя по иероглифам в комментах.

663

donc

8 января 2019, 17:55

#22

Devvver:
Понятно. Почитал ответы программистов на Тостере и понял что задача нереализуемая, только гадания. Э

В Content Downloader X1 есть авто режим. Где он определяет тело статьи. Навскидку 80% верно. 20% не очень. Я считаю, это неплохой результат. 100% никогда не будет, ввиду множества причин.

PS https://content-watch.ru/ - тоже это делает, и даже получше. Но и то, не всегда

Осуждаем применение нейросетей в SEO и не только ( https://webimho.ru/forum/148/ ) :) Продвижение сайтов от 25 000 в мес, прозрачно, надежно ( /ru/forum/818412 ), но не быстро, отзывы ( http://webimho.ru/topic/3225/ )

662

Devvver

8 января 2019, 18:58

#23

donc:
В Content Downloader X1 есть авто режим.

Вы видно тему не читали. Мне решение самостоятельное решение нужно для включения в свою программу.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой SEO телеграм канал https://t.me/seobloggers

672

vandamme

8 января 2019, 20:18

#24

из самого реалистичного - ручное обучение

посмотрел выдачу, там многие сайты имеют либо то, либо то:

div class|id = post***

div class|id = article***

div id = node

ну и как сказали выше - получить родителя h1, сравнить с неким минимальным размером статьи, если не подходит, взять следующего родителя, опять сравнить..

1

437

totamon

9 января 2019, 16:04

#25

у автора парсера получилось, очень большой пробив)

/ru/forum/982834

в топике еще упоминается

http://boilerpipe-web.appspot.com/

тоже нормально парсит заголовок и тело статьи.

1

Домены и хостинг https://8fn.ru/regru | Дедик от 3000р https://8fn.ru/73 | VPS в Москве https://8fn.ru/72 | Лучшие ВПС, ТП огонь, все страны! https://8fn.ru/inferno | ХОСТИНГ №1 РОССИИ https://8fn.ru/beget

662

Devvver

15 января 2019, 00:53

#26

totamon:
в топике еще упоминается
http://boilerpipe-web.appspot.com/
тоже нормально парсит заголовок и тело статьи.

Написал парсер на нем, все очень нестабильно, то 400 то 402 ошибка при том что парсю с задержкой до 5 секунд.

Похоже автор хочет бабос.

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Google: E-E-A-T не является фактором ранжирования