Как быстро Google банит автоматические парсеры выдачи, я в шоке. Что делать?

12
DO
На сайте с 01.09.2005
Offline
120
3362

Написал я скрипт (Perl, LWP::UserAgent), который дёргает выдачу Google на тему поиска ссылок на заданный сайт.

Между запросами к страницам делает случайный таймаут (где-то от 0,5 до 2,5 секунд).

Имя User Agent подставляет как одну из вариаций на тему MS IE.

Оказалось, они от этих фишек успешно защищаются.

Кого так банили - получалось восстановить доступ? Куда им писать?

D
На сайте с 20.05.2001
Offline
311
#1

А не проще поменять IP или дописать скрипт ддя работы через прокси..

DO
На сайте с 01.09.2005
Offline
120
#2
Drow:
А не проще поменять IP или дописать скрипт ддя работы через прокси..

Поменять IP сложно, а насчёт прокси - так и сделаю потом.

P.S.:

Доступ восстановился. Когда я ввёл код с картинки - то он не сразу доступ вернул, а какой-то таймаут выдерживал, а до этого перекидывал на абсолютно пустую страницу.

Буду осторожнее.

greenwood
На сайте с 08.09.2003
Offline
519
#3

только прокси спасет

DO
На сайте с 01.09.2005
Offline
120
#4
greenwood:
только прокси спасет

А где их взять?

Y
На сайте с 02.01.2006
Offline
138
#5

proxy hunter

greenwood
На сайте с 08.09.2003
Offline
519
#6
!kt0
На сайте с 28.06.2006
Offline
46
#7
greenwood:
только прокси спасет

Днем можно рандомный таймаут ставить 2-20 и часа на 2 на 3 одного IP хватит...

http://seorepa.com/ (http://seorepa.com/) - блог был там, пока не запилили mchost
DO
На сайте с 01.09.2005
Offline
120
#8

А поймали меня, кстати, не на слишком частых запросах.

Было так: вытягиваю первую же страницу выдачи (запрашивал ссылки запросом "link:..."), и тут же получаю бан.

Дело в параметрах запроса. Адрес 1-й страницы выдачи при заходе по поиску имеет один вид, а при заходе на 1-ю страницу со 2-й адрес уже другой, - туда добавляются кое-какие параметры.

Я с адреса 2-го вида и зашёл сразу (так их в цикле проще перебирать) - и всё, залёт.

Lor
На сайте с 28.05.2004
Offline
352
Lor
#9
greenwood:
только прокси спасет

Я замечал, что Гугл очень лихо пинает запросы через прокси. После определенного лимита просит ввести текст с картинки.

Йопез - форум без модераторов. https://yopez.com
Y
На сайте с 02.01.2006
Offline
138
#10
Lor:
После определенного лимита просит ввести текст с картинки.

как мне рассказывали, обходится достаточно просто (сам не эксперементировал, т.к. необходимости нет):

делается бесплатный портальчик с голыми девками, доступ к которым защищен через ввод букавок. Букавки отлавливаем сервером, ретранслируем на портальчик. Получаем пользовательский ввод, перенаправляем на того, кто требует ввести букавки, пользователю отдаем контент 😂 😂 😂

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий