Как определить размер статьи на неизвестном сайте?

1 23
ДП
На сайте с 23.11.2009
Offline
203
#21
Devvver:
Вы об этой библиотеке? https://github.com/mozilla/readability

И эта и раньше еще видел от какого-то азиатского разработчика, судя по иероглифам в комментах.

donc
На сайте с 16.01.2007
Offline
663
#22
Devvver:
Понятно. Почитал ответы программистов на Тостере и понял что задача нереализуемая, только гадания. Э

В Content Downloader X1 есть авто режим. Где он определяет тело статьи. Навскидку 80% верно. 20% не очень. Я считаю, это неплохой результат. 100% никогда не будет, ввиду множества причин.

PS https://content-watch.ru/ - тоже это делает, и даже получше. Но и то, не всегда

Осуждаем применение нейросетей в SEO и не только ( https://webimho.ru/forum/148/ ) :) Продвижение сайтов от 25 000 в мес, прозрачно, надежно ( /ru/forum/818412 ), но не быстро, отзывы ( http://webimho.ru/topic/3225/ )
Devvver
На сайте с 02.07.2008
Offline
662
#23
donc:
В Content Downloader X1 есть авто режим.

Вы видно тему не читали. Мне решение самостоятельное решение нужно для включения в свою программу.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой SEO телеграм канал https://t.me/seobloggers
vandamme
На сайте с 30.11.2008
Offline
672
#24

из самого реалистичного - ручное обучение

посмотрел выдачу, там многие сайты имеют либо то, либо то:

<article>

div class|id = post***

div class|id = article***

div id = node

ну и как сказали выше - получить родителя h1, сравнить с неким минимальным размером статьи, если не подходит, взять следующего родителя, опять сравнить..

totamon
На сайте с 12.05.2007
Offline
437
#25

у автора парсера получилось, очень большой пробив)

/ru/forum/982834

в топике еще упоминается

http://boilerpipe-web.appspot.com/

тоже нормально парсит заголовок и тело статьи.

Домены и хостинг https://8fn.ru/regru | Дедик от 3000р https://8fn.ru/73 | VPS в Москве https://8fn.ru/72 | Лучшие ВПС, ТП огонь, все страны! https://8fn.ru/inferno | ХОСТИНГ №1 РОССИИ https://8fn.ru/beget
Devvver
На сайте с 02.07.2008
Offline
662
#26
totamon:
в топике еще упоминается
http://boilerpipe-web.appspot.com/
тоже нормально парсит заголовок и тело статьи.

Написал парсер на нем, все очень нестабильно, то 400 то 402 ошибка при том что парсю с задержкой до 5 секунд.

Похоже автор хочет бабос.

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий