Парсинг выдачи гугла - антибан

12
Y
На сайте с 09.09.2013
Offline
20
1798

Сделал скрипт, который получает количество результатов по ключевому слову (php+curl). Прикрутил список из 130 проксей. Задержка между запросами 4-8 сек, после каждого запроса меняется прокси и user-agent. Но это не помагает, после первого прохода всего списка проксей (т.е. 130 запросов), каждый прокси оказывается забаненым. Никак не могу понять, как гугл вычисляет парсер. Пробовал такие варианты:

Включил куки, по каждому ip выполнять 3 запроса, чистить куки

Парсил без прокси со своего локалхоста - около 100 запросов было нормально, потом гугл начал банить, причем, если зайти с браузера - предложит ввести капчу, вводишь - ищешь нормально (через браузер), при этом скрипт в этот же момент оказывается забаненым.

Посоветуйте, что еще можно предпринять?

DV
На сайте с 01.05.2010
Offline
644
#1

Прокси-то где берёте, HTTP_FORWARDED_FOR в каком состоянии?

Я столкнулся с тем, что большинство паблик-прокси перманентно забанены.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
Анабой Янсур
На сайте с 12.04.2011
Offline
114
#2

А авторизованные куки не пробовали подсовывать?

юни
На сайте с 01.11.2005
Offline
901
#3
Yahooo:
Прикрутил список из 130 проксей

Публичных? Посмотрите хуизы, к примеру, хостинги определяются уже на этой стадии.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
fleyg
На сайте с 21.09.2005
Offline
143
#4

Помогает

1. Авторизация (куки).

2. Покупка пула прокси.

3. Использование апи сервиса платного распознавания капч.

О каком объеме парсинга идет речь?

Алеандр
На сайте с 08.12.2010
Offline
183
#5

Если вы паблик прокси набрали - это основная причина, они давно убиты в ПС. Удивительно, что вы хотя бы 1 проход с ними умудряетесь делать. Причем вы даже могли купить пул общих прокси, и они все равно будут убиты. Плавали-знаем. Выход - покупка чистого пула прокси, исключительно в собственное пользование. В районе 2$ сейчас цена на них за один IPv4.

dkameleon
На сайте с 09.12.2005
Offline
386
#6
fleyg:
Помогает
1. Авторизация (куки).

у меня резервный инет через провайдера, который выдает одну внешнюю айпишку большим группам людей.

даже авторизованному юзеру гугл подсовывает периодически капчи. чаще всего по вечерам.

немного не то, что для парсинга годится :)

Дизайн интерьера (http://balabukha.com/)
Y
На сайте с 09.09.2013
Offline
20
#7

Нашел грубую ошибку у себя в коде. Весь день потратил на поиски другой причины в другом месте😮

Прокси-то где берёте, HTTP_FORWARDED_FOR в каком состоянии?
Я столкнулся с тем, что большинство паблик-прокси перманентно забанены.

Купил список прокси недорого. Вроде бы не паблик, хотя, как их отличить? У меня прокси с паролями временными.

А авторизованные куки не пробовали подсовывать?

Нет, куки были отключены. При ближайшей возможности попробую этот вариант.

Публичных? Посмотрите хуизы, к примеру, хостинги определяются уже на этой стадии.

Насколько я понял, не публичные. Зашел на хуиз сервис, просмотрел - на какой параметр обращать внимание?

Помогает
1. Авторизация (куки).
2. Покупка пула прокси.
3. Использование апи сервиса платного распознавания капч.
О каком объеме парсинга идет речь?

Спасибо за советы! Объем парсинга (как я понял из прочтения похожих тем на форуме) - маленький - на данный момент нужно отпарсить 10 000 ключевых слов. Скорость - чем больше тем лучше, но на данный момент 7-12 поисков в минуту.

Удивительно, что вы хотя бы 1 проход с ними умудряетесь делать

Нашел и устранил грубую ошибку у себя в коде. Пока что парсинг работает нормально 30 минут, потом завершается сам. Скорее всего где-то параметр нужно выставить. От user-agent пришлось отказаться, CURL с этим параметром не хочет работать - ошибки пишет.

Задержка в 5-8 секунд очень сказывается на скорости. Хотелось бы немного быстрее, т.е. меньше задержку, т.к. с такими темпами парсить будет больше суток. Какую минимально можно использовать?

юни
На сайте с 01.11.2005
Offline
901
#8
Yahooo:
на какой параметр обращать внимание?

Сайт организации, к примеру.

siv1987
На сайте с 02.04.2009
Offline
427
#9
Yahooo:
От user-agent пришлось отказаться, CURL с этим параметром не хочет работать - ошибки пишет.

Впервые слышу чтобы у курла были какие-то проблемы с юзер агентом. Кажется мне что дело не в нем...

Y
На сайте с 09.09.2013
Offline
20
#10

Прокси все-таки нормальные, это у меня ошибка была.

Впервые слышу чтобы у курла были какие-то проблемы с юзер агентом. Кажется мне что дело не в нем...

А смена рандомно юзер-агента как-то влияет на антибан? И еще, если кто-то уже парсил выдачу Гугла, какие задержки лучше использовать, чтобы не попасть в бан?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий