Яндекс разоблачил мой скрипт

12
Ink-developer
На сайте с 31.01.2009
Offline
138
1160

Вчера Яндекс научился вычислять скрипт парсинга количества страниц в индексе.

Скриптом пользовался 6 месяцев и ни разу не вылетела Captcha

Запросы отправляю с 10 IP адресов. Сейчас со второго запроса Яндекс выкидавает Captcha

даже если отправляю с левого IP, по какому признаку он вычисляет?

Вот скрипт:


<?
$agent[0]="Opera/9.01 (Windows NT 5.1; U; ru)";
$agent[1]="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
$agent[2]="Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.5) Gecko/2008120122 Firefox/3.0.5";
$agent[3]="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/1.0.154.42 Safari/525.19";
$agent[4]="Opera/9.63 (Windows NT 5.1; U; ru) Presto/2.1.1";
$agent[5]="Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1";
$agent[6]="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)";
$agent=$agent[rand(0,6)];
$curl=curl_init("http://yandex.ru/yandsearch?surl=site.ru&lr=2");
curl_setopt($curl,CURLOPT_SSL_VERIFYPEER,FALSE);
curl_setopt($curl,CURLOPT_HEADER,0);
curl_setopt($curl,CURLOPT_CONNECTTIMEOUT,15);
curl_setopt($curl,CURLOPT_USERAGENT,$agent);
curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);
curl_setopt($curl,CURLOPT_BINARYTRANSFER,1);
$curl_data=curl_exec($curl); curl_close($curl);
echo $curl_data;
?>

Какие есть варианты? Может он палит IP из одной подсети?

KU
На сайте с 17.07.2008
Offline
251
#1

Возможно, стоит указать реферер.

А так - снифать запрос и думать.

Хостинг ( https://good-host.net ) / Linux VPS ( https://good-host.net/vps ) / Windows VPS ( https://good-host.net/windows-vps ) / Выделенные серверы ( https://good-host.net/dedicated ) 14 лет онлайн!
[umka]
На сайте с 25.05.2008
Offline
456
#2

Разные браузеры отличаются не только useragent-ом ... это тоже нужно учитывать.

У них у всех свой "характер" :)

Лог в помощь!
Bitman
На сайте с 05.07.2009
Offline
112
#3

Как вариант - на этих айпи ещё кто то парсит.

Северный лес (https://euro-vagonka.by) DREW (https://drew.by) AvtoDrive (https://avtodrive.by)
RO
На сайте с 13.07.2009
Offline
88
#4

перед парсингом ставтьте свежие прокси, и не из прокси помоек которыми пользуется много людей а собирать самому или покупать у знающих людей.

Ink-developer
На сайте с 31.01.2009
Offline
138
#5

Народ IP выделенные, на 100% чистые, и их ни кто не использует кроме меня. Он вычисляет как то по запросу, это началось вчера.

N
На сайте с 06.05.2007
Offline
419
#6

Ну вот я посмотрел на код и просто запустил - выкачивает нормально.

Кнопка вызова админа ()
Ink-developer
На сайте с 31.01.2009
Offline
138
#7

Выяснил причину, с других IP парсит нормально.

Но тут интересно другое, Яндекс реально вычислил всю подсеть ИП адресов. Дело в том что при смене адреса даже на такой с которого не было запросов вылетает Captcha, хотя ипишники отличаются достаточно.

Вот пример IP что бы было ясно на сколько они разные но все были спалены.

89.161.33.2

89.161.33.17

89.161.65.145

89.161.57.32

То есть он выкидывает капчу если первые две цифры 89.161 в независимости что идет дальше

Ипишники вымышленны.

[Удален]
#8

Ink-developer, он наверное логи стал вести, видит что на яндексе вам инетресно только колво страниц, вот и банит 🤣

Ink-developer
На сайте с 31.01.2009
Offline
138
#9

А уже спать хотел ложится, вероятно до утра прийдется переписывать парсинг на прокси.

И коль уже зашел разговор дабы не создавать очередную тему спрошу тут.

Пользуюсь прокси awmproxy.com, в общем в целом работает но по логам вижу что каждый четвертый запрос скрипт повторяет так как не получает информацию.

Есть ли полноценная альтернатива сервису awmproxy.com, что бы использовать и не переживать что проски не работают, а просто заплатил и спишь спокойно? Что посоветуете.

[Удален]
#10
Ink-developer:
Что посоветуете.

куптиь вдс за 5 баксов и ипов еще на 10

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий