- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Например комментарии к Ютуб видео.
чтобы посмотреть( подгрузить ) остальные комментарии, надо прокручивать страницу.
Как парсить такую страницу?
Leonid H, Эмулировать прокрутку. Смотрите ajax запросы к серверу.
Например комментарии к Ютуб видео.
чтобы посмотреть( подгрузить ) остальные комментарии, надо прокручивать страницу.
Как парсить такую страницу?
Походить посмотреть чего там по расписанию.
там апи есть
Смотрите ajax запросы к серверу.
И если повезёт (могут быть и всякие защиты) - имитировать их и получать инфу. Мне один раз повезло с китайским магазином. Они не проверяли на реальный ajax тупо отвечали на обычный post ))
Можно использовать Selenium для парсинга этой инфы.
чтобы посмотреть( подгрузить ) остальные комментарии, надо прокручивать страницу.
Прежде всего попробуйте отключить в браузере javascript посмотреть работу сайта. Если сайт будет работать без него, то вероятно там всё проще будет - обычные пагинированные страницы например.
Во-во, серьезные сайты так и устроены. Публичный контент можно получать без всяких аяксов, эмуляций и т.п. Максимум нужно обойти простую защиту от левых роботов, суть которой часто задокументирована. Ну это практически уже АПИ.
Например комментарии к Ютуб видео.
чтобы посмотреть( подгрузить ) остальные комментарии, надо прокручивать страницу.
Как парсить такую страницу?
Вариант 1:
Если есть документированное API - это лучший вариант.
Вариант 2: реверс-инжиниринг API.
Минусы: куча усилий. Которые еще и повторить придется при изменениях на сайте. Можно столкнуться с мерами противодействия сайта реверс-инжинирингу.
Плюсы: в конечном итоге будет работать быстрее пункта 3 и потреблять меньше ресурсов, чем в пункте 3. Сопоставимо с пунктом 1.
Вариант 3:
Нужен специализированный браузер, управляемый снаружи:
PhantomJS - удобнее для отладки.
SlimerJS - жрет меньше ресурсов.
Selenium - более известен, но жрет дофига ресурсов, так как это полноценный, но управляемый снаружи, браузер.
С точки зрения сайта - эти браузеры имитируют поведение пользователя.
Прокручиваем куда надо и парзим DOM.
---------- Добавлено 12.10.2018 в 15:59 ----------
Во-во, серьезные сайты так и устроены. Публичный контент можно получать без всяких аяксов, эмуляций и т.п.
Фейсбук, один из крупнейших сайтов в мире - не серьезный?
---------- Добавлено 12.10.2018 в 16:02 ----------
Можно использовать Selenium для парсинга этой инфы.
Избыточно.
Нужен SlimerJS или PhantomJS.
Если же на сайте есть какая-то умная защита и нужна будет 100% эмуляция браузера, а той частичной эмуляции, что делает SlimerJS будет недостаточно - то только тогда и имеет смысл смотреть на Selenium.
Ибо Selenium слишком уж много ресурсов жрет.
Слушаете трафик через инструменты от лисы. При скролле, смотрите куда отправляется запрос и с какими заголовками/параметрами. Шарите страницу, определяете откуда берутся параметры для запроса и в бой.
Пишите свой генератор запросов и обрабатываете ответы.