Парсер Авито - вопрос по обходу блокировки

12
sarkis28
На сайте с 18.12.2018
Offline
99
2153

Имеется парсер авито на php+curl.

Работает на мобильных прокси. Ранее , проблем не возникало в работе несколько лет. 

Последнюю неделю стал замечать, что прокси отдают 403 ошибку (бан), что странно, учитывая , что это мобильные прокси.  Резидентные прокси - тоже самое.

Попробовал прокси через браузер вставить - авито не ругается и без проблем работает.  Значит, что-то в коде не так.

Отсюда вылезает вопрос, где искать причину ? - Возможно какие-то особенные заголовки надо отправлять или еще что-то .

У кого есть какие-то соображения или есть опыт успешного использования - прошу подсказать  . 

Agnes
На сайте с 04.01.2008
Offline
109
#1
Скорее всего поставили защиту антибота или другую похожую, если вы парсите через скрипт. Нужна максимальная эмуляция браузера и системы, например через зеннопостер.
sarkis28
На сайте с 18.12.2018
Offline
99
#2
Agnes #:
Скорее всего поставили защиту антибота или другую похожую, если вы парсите через скрипт. Нужна максимальная эмуляция браузера и системы, например через зеннопостер.

можете  вложить в ваше сообщение больше конкретики?

Наличие защиты у авито - это и так очевидно. Интересует совет обхода, учитывая что все делается на php

S1
На сайте с 22.09.2011
Offline
279
#3
Спросить у тех кто эти парсеры продает разные и работают ли у них они.
-S
На сайте с 10.12.2006
Offline
Модератор1355
#4
Agnes #:
Скорее всего поставили защиту антибота

Авито поставили антибота - это успех!

sarkis28 :
У кого есть какие-то соображения или есть опыт успешного использования - прошу подсказать  .

Они сделали проверку на выполнение js - без эмуляции браузера вы не проходите челенджи и попадаете в блок.

https://github.com/chrome-php/chrome

GitHub - chrome-php/chrome: Instrument headless chrome/chromium instances from PHP
GitHub - chrome-php/chrome: Instrument headless chrome/chromium instances from PHP
  • chrome-php
  • github.com
This library lets you start playing with chrome/chromium in headless mode from PHP. Can be used synchronously and asynchronously! Features Open chrome or chromium browser from php Create pages and navigate to pages Take screenshots Evaluate javascript in the page Make PDF Emulate mouse Emulate keyboard Always IDE friendly Happy browsing...
mssqwesto
На сайте с 24.03.2011
Offline
125
#5
Они тестируют оплату за показы объявлений, потому с парсерами и будут стараться бороться, что бы не плакали что склик идет. 
sarkis28
На сайте с 18.12.2018
Offline
99
#6
-= Serafim =- #:

Они сделали проверку на выполнение js - без эмуляции браузера вы не проходите челенджи и попадаете в блок.

https://github.com/chrome-php/chrome

подскажите, данный пак работает ли с приватными прокси (написано  authorisation with credentials does not work ) и получится ли его запускать через CRON ?

sarkis28
На сайте с 18.12.2018
Offline
99
#7
также добавляю, что если , к примеру, сделать  запрос через  https://webmaster.yandex.ru/tools/server-response/, то тут бана нет. Значит можно без эмуляции как-то обойтись  
-S
На сайте с 10.12.2006
Offline
Модератор1355
#8
sarkis28 #:
также добавляю, что если , к примеру, сделать  запрос через  https://webmaster.yandex.ru/tools/server-response/, то тут бана нет. Значит можно без эмуляции как-то обойтись  

Ну так у них бот яндекса и гугла в вайтлисте) Я так же делаю для сайтов - поисковикам вайтлист а остальных на js проверку.

sarkis28 #:
подскажите, данный пак работает ли с приватными прокси (написано   authorisation with credentials does not work ) и получится ли его запускать через CRON ?

Я не смогу вам подсказать.

DD
На сайте с 16.05.2012
Offline
82
#9

-= Serafim =- #:
Они сделали проверку на выполнение js - без эмуляции браузера вы не проходите челенджи и попадаете в блок.

Иногда этого не достаточно потому что и Selenium и Chrome (headless) детектируются и при обнаружении отклонений могут блокировать.

sarkis28 #:
подскажите, данный пак работает ли с приватными прокси (написано   authorisation with credentials does not work ) и получится ли его запускать через CRON ?

именно насчет этого пака (я с GO работаю, и на нем строил большие системы для сбора данных + Chrome)  не скажу, а вообще можно использовать любые прокси которые поддерживает хром.  Для этого используются опции при запуске. Или есть другие способы.
Запускать можно по разному. 

Разработка систем сбора данных на Python/Golang/NodeJs
sarkis28
На сайте с 18.12.2018
Offline
99
#10

я вот временно перешел scrapingbee, пока ищу правильное решение, и ради интереса решил в сервисе отключить эмуляцию JS, но ставлю опцию Премиум-прокси. В итоге: идет обычная загрузка авито без всяких блокировок.  Вот теперь озадачился, дело в прокси все-таки, или сервис как-то по-особенному обращается к авито.

Можете сами проверить, там есть демо

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий