- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вы об этой библиотеке? https://github.com/mozilla/readability
И эта и раньше еще видел от какого-то азиатского разработчика, судя по иероглифам в комментах.
Понятно. Почитал ответы программистов на Тостере и понял что задача нереализуемая, только гадания. Э
В Content Downloader X1 есть авто режим. Где он определяет тело статьи. Навскидку 80% верно. 20% не очень. Я считаю, это неплохой результат. 100% никогда не будет, ввиду множества причин.
PS https://content-watch.ru/ - тоже это делает, и даже получше. Но и то, не всегда
В Content Downloader X1 есть авто режим.
Вы видно тему не читали. Мне решение самостоятельное решение нужно для включения в свою программу.
из самого реалистичного - ручное обучение
посмотрел выдачу, там многие сайты имеют либо то, либо то:
<article>
div class|id = post***
div class|id = article***
div id = node
ну и как сказали выше - получить родителя h1, сравнить с неким минимальным размером статьи, если не подходит, взять следующего родителя, опять сравнить..
у автора парсера получилось, очень большой пробив)
/ru/forum/982834
в топике еще упоминается
http://boilerpipe-web.appspot.com/
тоже нормально парсит заголовок и тело статьи.
в топике еще упоминается
http://boilerpipe-web.appspot.com/
тоже нормально парсит заголовок и тело статьи.
Написал парсер на нем, все очень нестабильно, то 400 то 402 ошибка при том что парсю с задержкой до 5 секунд.
Похоже автор хочет бабос.