Парсинг Яндекс картинок - нюансы?

12
D
На сайте с 28.06.2008
Offline
980
1000

Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.

Нужно сделать порядка 15000 запросов.

Скорость не важна.

На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)

Как думаете нарвусь на капчу?

Пока придумал на каждый запрос менять юзер агент и куки в курле.

Прокси покупать не хочу.

Может еще подскажите нюансы?

minsky
На сайте с 01.09.2012
Offline
105
#1
Dram:
Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.
Нужно сделать порядка 15000 запросов.
Скорость не важна.
На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)

Как думаете нарвусь на капчу?
Пока придумал на каждый запрос менять юзер агент и куки в курле.
Прокси покупать не хочу.
Может еще подскажите нюансы?

На капчу не нарветесь, можно выставлять даже 30 сек и не меняя юзера и куки не трогая

Ньюансы - разгадывать капчу XEvil и парсить без таймаута

Продвигаю сайты ссылками (https://kwork.ru/user/minsky?ref=23382)
D
На сайте с 28.06.2008
Offline
980
#2

Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.

---------- Добавлено 04.04.2020 в 14:23 ----------

Нельзя ли использовать xml лимиты для этого?

minsky
На сайте с 01.09.2012
Offline
105
#3
Dram:
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.

---------- Добавлено 04.04.2020 в 14:23 ----------

Нельзя ли использовать xml лимиты для этого?

Можно вроде, у меня Зенопостер с задержкой 25-35 сек без проблем бесконечно может парсить и капчи не ловит

-S
На сайте с 10.12.2006
Offline
Модератор1196
#4
Dram:
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.

---------- Добавлено 04.04.2020 в 14:23 ----------

Нельзя ли использовать xml лимиты для этого?

Юзер агенты никогда особо роли не играют, если стоит защита, то она будет на число запросов с ip реагировать, а в случае с Яндексом то защита еще по большему числу параметров. Самый оптимальный вариант или использовать xevil или парсить не Яндекс или Гугл, а тех кто их уже спарсил или просто другие поисковики, хотя везде защиты есть, но есть послабее.

SocFishing
На сайте с 26.09.2013
Offline
118
#5

Очень удивлен, что вы не словили капчу на первые 100 запросов пока тестировали. При этом капчу уже на каждый запрос, которую даже на ручной правильный ввод не подходит.

Или же мои IP забанили, что зарегистрироваться в почти не могу даже. Работать с яндекс очень тяжело. "юзер агент на каждый запрос" это напротив фактор подозрения.

Вам точно нужны именно яндекс картинки?

раньше тут можно было 10к запросов сделать с одного IP: ask (поиска по картинке теперь не вижу)

тут вероятнее всего уже лимитировано duckduckgo

api они убрали? python / fluquid ..

★Сервис идентифицирует (https://socfishing.com/?utm_source=searchengines) посетителей вашего сайта и предоставляет их профили ВКонтакте, Телефон, Почта! Цены копеечные, работаем 8 лет.
D
На сайте с 28.06.2008
Offline
980
#6

Купил IPV6 прокси и пошло дело... 100 р не те деньги...

-S
На сайте с 10.12.2006
Offline
Модератор1196
#7
Dram:
Купил IPV6 прокси и пошло дело... 100 р не те деньги...

Если бы было все так просто :D

D
На сайте с 28.06.2008
Offline
980
#8
-= Serafim =-:
Если бы было все так просто :D

Первые 500 запросов прошли без проблем. Пока полет нормальный.

I
На сайте с 01.05.2016
Offline
103
#9

Прокси копейки стоят, зачем так мучиться? Сотнями гигабайт парсю, все в порядке.

kimsufi.com (https://www.kimsufi.com) очень дешевые и качественные дедики
athe
На сайте с 02.03.2020
Offline
9
#10

Месяца два назад писал парсер под яндекс картинки на пыхе.

Год назад делал парсинг через зенку..

Всегда использовал такую схему для зенки:

1 юзер агент, 1 прокси + антигейт - на 2-4 картинки. Все парсилось нормально.

Для PHP версии парсера юзал только рандомную задержку и мобильную версию.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий