Парсим Вордстат Директа.

TeamLeader
На сайте с 28.02.2006
Offline
51
1014

Написали свою парсилку вордстата Директа, дабы собирать частотности слов. Чтобы "работало" делаем следующее:

Меняем айпишники (много)

Рандомно под ними логинимся (для каждого запроса заново)

Даём случайные задержки в 4-10 секунд.

Всё-равно выдаёт капчу после 600 запросов. :( Причём сначала держался до 1000, потом стало столько.

Если есть какие идеи - посоветуйте пожалуйста, что ещё можно сделать, что бы он хотя бы подольше держался.

maxivanov
На сайте с 25.07.2006
Offline
58
#1

дольше задержку ставить - рандом 10-20с, если не поможет то увеличить до 30 с

Главное не в том что ты делаешь, а в том как ты это делаешь!
Удивительно
На сайте с 07.07.2009
Offline
215
#2

Меняем айпишники (много)

Каптчу будет выдавать по любому, но если айпишников много, то пока дойдете до конца списка - начало списка уже будет без каптчи (вордстат разбанит). И так по кругу. Штук 150-200 проксей хватает для парсинга без задержек (зависит только от скорости самих проксей).

Качественная семантика недорого ( https://moab.tools/ )
MO
На сайте с 22.04.2009
Offline
88
#3

Мне 20-30 прокси хватает, чтобы парсить без задержек, правда прокси не самые быстрые, но я не беру медленее 2 сек.

P.S. Чекаю уже 2-е суток. База большая.

TeamLeader
На сайте с 28.02.2006
Offline
51
#4
MegO_VatOkaT:
Мне 20-30 прокси хватает, чтобы парсить без задержек, правда прокси не самые быстрые, но я не беру медленее 2 сек.

P.S. Чекаю уже 2-е суток. База большая.

У нас более 50 ip и не помогает(

А большая база - это сколько?

MO
На сайте с 22.04.2009
Offline
88
#5
TeamLeader:
У нас более 50 ip и не помогает(
А большая база - это сколько?

Если ip из одной подсети, то скорей всего в этом проблема. База 500к кеев.

юни
На сайте с 01.11.2005
Offline
933
#6
TeamLeader:
У нас более 50 ip и не помогает(

Так это немного.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
TeamLeader
На сайте с 28.02.2006
Offline
51
#7
MegO_VatOkaT:
Если ip из одной подсети, то скорей всего в этом проблема.

Вот об этом-то я и забыл. Точно, спасибо! Будем пробовать.

SM
На сайте с 30.07.2008
Offline
32
#8

Странно, у меня Магадан парсит с задержкой в 10 секунд без прокси и IP не банится. Напарсил 3к, а потом ещё 5к.

D
На сайте с 27.06.2006
Offline
115
#9

TeamLeader, а юзер агент отдается один и тот же?

полезно сделать какую-нибудь рандомную смену при парсинге

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий