- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть софт который получает топ 10 выдачи поисковой системы. Имеем 10 юрлов - статей.
Как определить размер статьи автоматически?
Теоретически:
1) Спарсить статью через RSS (если есть)
2) Поискать микроразметку (blogposting или Article)
3) Считать что h1 - это начало, но как определить конец? Искать надпись типа "добавить комментарий или комментарии"
Ситуация осложняется разными cms и непониманием определить основной контент.
Может кто реализовывал подобное на любом языке программирования - куда хоть копать?
Есть софт который получает топ 10 выдачи поисковой системы. Имеем 10 юрлов - статей.
Как определить размер статьи автоматически?
Софт X-Parser-Light?
В нем есть настройка минимальный и максимальный размер.
Может он подойдет.
Devvver, по числу абзацев можно ☝
Можно попробовать реализовать анализатор, который будет определять контентную часть. Алгоритм примерно такой:
1. Спарсить вместе с целевой статьей еще несколько других
2. Сравнить html (с помощью h1) и оставить только уникальный контент. Все, что ниже контента статьи, как правило, будет повторяться
3. Определить прямого родителя (контейнер содержимого статьи), чтобы вытащить контент.
Этот подход довольно сложный и ресурсоемкий, но я думаю, погрешность будет ниже, чем у других способов.
по числу абзацев можно
конкретнее?
Софт X-Parser-Light?
Я ж написал что свой софт пишу. Мне бы понять алгоритм.
Все, что ниже контента статьи, как правило, будет повторяться
Так теги вообще повторяющиеся будут. Вашу мысль я понял, искать какие то повторяющиеся элементы - типа автора или кнопок поделиться или звездочек. Но такое начать определять - тут нейросеть надо писать и обучать на выборке. Сложновато.
Так теги вообще повторяющиеся будут.
Не просто теги, а их содержимое и атрибуты
Но такое начать определять - тут нейросеть надо писать и обучать на выборке
Вполне будет достаточно html-crawler'a и регулярок. Не так много критериев и их комбинаций нужно проверить, чтобы понять, что какая-то часть кода есть и на других страницах, а какая-то - уникальна. Погрешность безусловно будет, но со временем ее можно минимизировать, добавляя новые критерии проверки
Вполне будет достаточно html-crawler'a и регулярок.
Понятно. Почитал ответы программистов на Тостере и понял что задача нереализуемая, только гадания. Эта проблема уровня поисковиков.
Вы можете найти родителя h1. Значит все, что выше этого родительского контейнера, уже можно отбросить, останется только тело статьи со всякими служебными элементами, которые, в принципе, тоже реально вычислить.
Вы заинтересовали меня этой задачей. Давайте спишемся в личке и проведем эксперимент. Вы мне дадите для теста несколько сайтов, а я попробую реализовать этот алгоритм на php и вычленить контент. Я не возьму за это ни копейки, просто задача реально очень интересная.
Выкидываете все тэги... всё остальное текст
Есть софт который получает топ 10 выдачи поисковой системы. Имеем 10 юрлов - статей.
Как определить размер статьи автоматически?
Не совсем понятно, что означает термин "размер статьи". Возможно это подойдет под вашу задачу https://github.com/grangier/python-goose
Вы можете найти родителя h1.
А если нет H1?
У меня, что то более менее приемлемое получалось при комбинации 2-х идей.
1. Абзац, это как минимум 2 пассажа, в каждом из которых (мин 2(3?)) слова или один как минимум из 2-3-х. Варианты:)
2. Ищем блочный элемент (р/див и т.д.), где других блочных элементов нет и это пассаж по п1.
Парент элемент в котором больше всего п.2 - статья.
Но часто попадают анонсы других статей ( "вам может понравиться"), комментарии и т.п. шлак