Вновь капчта + curl + Яндекс.Маркет

LEOnidUKG
На сайте с 25.11.2006
Offline
1774
4541

Последние две недели, это просто жесть.

Яндекс выдаёт каптчу, через каждые 4-5 запросов. В браузере я не могу добиться такого эффекта, хотя клацаю быстро и в много потоков куда угодно.

Проворачиваю все через такие настройки:

$headers = array

(

'Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1',

'Accept-Language: ru-RU,ru;q=0.9,en;q=0.8',

'Accept-Encoding: gzip, deflate',

'Cache-Control: no-cache',

'Connection: keep-alive'

);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_USERAGENT, 'Opera/9.80 (Windows NT 6.2) Presto/2.12.388 Version/12.17');

curl_setopt($ch, CURLOPT_TIMEOUT ,60);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);

curl_setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt");

curl_setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt");

curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

curl_setopt($ch, CURLOPT_AUTOREFERER , 1);

curl_setopt($ch, CURLOPT_ENCODING, 1);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);

curl_setopt($ch, CURLOPT_HEADER, 1);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

Таймат между запросами вообще ни на, что не влияет, хоть 0 хоть 15

Залогенный юзер ни на, что не влияет

Есть у кого какие идейки по этому поводу?

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
yanus
На сайте с 21.01.2009
Offline
348
#1
LEOnidUKG:
Последние две недели, это просто жесть.

Яндекс выдаёт каптчу, через каждые 4-5 запросов. В браузере я не могу добиться такого эффекта, хотя клацаю быстро и в много потоков куда угодно.

Ну, браузер-то еще и java с flash исполняет.

LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#2
yanus:
Ну, браузер-то еще и java с flash исполняет.

Такая помощь, такая подсказка. В КЭП-а решили поиграть? 🍿

Я не жду решения обхода, я жду решения уменьшения. Возможно проблема в мелочи, возможно кто-то уже нащупал.

[umka]
На сайте с 25.05.2008
Offline
456
#3

Попробуйте в браузере отключить подгрузку изображений, стилей, скриптов и пр.

Чтобы браузер забирал только html-код.

И снова интенсивно "поклацайте" :)

Нужно нащупать, с помощью какого подгружаемого файла яндекс отделяет мух от котлет.

Хотя, может, там ява-скриптом какие-то проверочные действия совершаются.

Лог в помощь!
LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#4
'[umka:
;13041448']Попробуйте в браузере отключить подгрузку изображений, стилей, скриптов и пр.
Чтобы браузер забирал только html-код.
И снова интенсивно "поклацайте" :)

Нужно нащупать, с помощью какого подгружаемого файла яндекс отделяет мух от котлет.

Попробовал сейчас. Благо опера старая это позволяет в два клика.

Выключил все плагины

Выключил JS

Очистил куки. Яндекса 1 раз запросил каптчу. Ввёл.

Всё, тыкал открыл 50 страниц товаров. Никаких проблем.

anser06
На сайте с 11.03.2006
Offline
292
#5

По ночам при парсинге яндекс капчу реже показывает, яндексоиды сами говорили. Вроде как с полуночи до 4-5 утра.

Kide
На сайте с 29.03.2007
Offline
69
#6

LEOnidUKG, Маркет не парсил, но тоже интересно и может натолкну на мысли... есть пара вопросов:

- покажите файл куков. есть что-то интересное? есть отличия от браузерных?

- пробовали менять юзер-агент?

- я правильно понял, что используете один набор ip-useragent? пробовали давать ip "отдохнуть" пару дней или заходить в выдачу с таким же юзер агент?

И добавлю... Использовали анти-капчу? что просиходит при верном вводе?

Hasta La Victoria Siempre!
LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#7
Kide:
LEOnidUKG, Маркет не парсил, но тоже интересно и может натолкну на мысли... есть пара вопросов:
- покажите файл куков. есть что-то интересное? есть отличия от браузерных?
- пробовали менять юзер-агент?
- я правильно понял, что используете один набор ip-useragent? пробовали давать ip "отдохнуть" пару дней или заходить в выдачу с таким же юзер агент?

И добавлю... Использовали анти-капчу? что просиходит при верном вводе?

1. Куки не сильно отличаются от браузерного. Я пробовал из браузера все вставить, без изменений

2. Пробовал разные юзер агенты даже как у меня у текущего браузера

3. да ёмаё, брауезры и так все одинаковы. Беру с этим юзерагентом в браузере реальном, тыкаю, потом его переношу в скрипт. Не влияет это.

Эм, ну что происходит после удачного ввода, всё ок. 3-5 запросов и опять каптча.

---------- Добавлено 09.08.2014 в 10:54 ----------

anser06:
По ночам при парсинге яндекс капчу реже показывает, яндексоиды сами говорили. Вроде как с полуночи до 4-5 утра.

Я так и буду клиентам говорить, мол ребяки не спите по ночам, а парсите 🤪

Mik Foxi
На сайте с 02.03.2011
Offline
1218
#8

В браузере проверяйте js файлы на предмет простановки ими куков. Или даже картинки.

Антибот, антиспам, веб фаервол, защита от накрутки поведенческих: https://antibot.cloud/ (8 лет на защите сайтов). Форум на замену серчу: https://foxi.biz/
LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#9
foxi:
В браузере проверяйте js файлы на предмет простановки ими куков. Или даже картинки.

А можно узнать, как это сделать? Загружать руками каждую картику и JS?

Я попробовал сделать так.

1. Прошёл по многим сервисам яндекса в браузере, и сам поиск и маркет.

2. Экспортировал все куки собранные в файл

3. Отдал их скрипту

т.е. если даже у него запросят каптчу, то остальные куки останутся на долго ли, не знаю.

Но пока сработало.

SD
На сайте с 20.07.2014
Offline
4
#10

Попробуйте поменять юзер-агент на более актуальный + вообще менять по-переменно.

Ну и еще, помимо кук - яндекс.маркет ставит метки в localStorage, как это эмулировать - я пока не в курсе.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий