Парсинг Яндекс картинок - нюансы? - Веб-строительство - Сайтостроение

1108

Dram

4 апреля 2020, 09:10

1624

Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.

Нужно сделать порядка 15000 запросов.

Скорость не важна.

На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)

Как думаете нарвусь на капчу?

Пока придумал на каждый запрос менять юзер агент и куки в курле.

Прокси покупать не хочу.

Может еще подскажите нюансы?

193

minsky

4 апреля 2020, 09:15

#1

Dram:
Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.
Нужно сделать порядка 15000 запросов.
Скорость не важна.
На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)

Как думаете нарвусь на капчу?
Пока придумал на каждый запрос менять юзер агент и куки в курле.
Прокси покупать не хочу.
Может еще подскажите нюансы?

На капчу не нарветесь, можно выставлять даже 30 сек и не меняя юзера и куки не трогая

Ньюансы - разгадывать капчу XEvil и парсить без таймаута

1

Продвигаю сайты ссылками, ускоряю индексацию сайтов и отдельных страниц ( https://kwork.ru/user/minsky?ref=23382 )

D

1108

Dram

4 апреля 2020, 11:12

#2

Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.

---------- Добавлено 04.04.2020 в 14:23 ----------

Нельзя ли использовать xml лимиты для этого?

193

minsky

4 апреля 2020, 12:08

#3

Dram:
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.

---------- Добавлено 04.04.2020 в 14:23 ----------

Нельзя ли использовать xml лимиты для этого?

Можно вроде, у меня Зенопостер с задержкой 25-35 сек без проблем бесконечно может парсить и капчи не ловит

-S

1354

-= Serafim =-

4 апреля 2020, 12:31

#4

Dram:
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.

---------- Добавлено 04.04.2020 в 14:23 ----------

Нельзя ли использовать xml лимиты для этого?

Юзер агенты никогда особо роли не играют, если стоит защита, то она будет на число запросов с ip реагировать, а в случае с Яндексом то защита еще по большему числу параметров. Самый оптимальный вариант или использовать xevil или парсить не Яндекс или Гугл, а тех кто их уже спарсил или просто другие поисковики, хотя везде защиты есть, но есть послабее.

118

SocFishing

4 апреля 2020, 12:53

#5

Очень удивлен, что вы не словили капчу на первые 100 запросов пока тестировали. При этом капчу уже на каждый запрос, которую даже на ручной правильный ввод не подходит.

Или же мои IP забанили, что зарегистрироваться в почти не могу даже. Работать с яндекс очень тяжело. "юзер агент на каждый запрос" это напротив фактор подозрения.

Вам точно нужны именно яндекс картинки?

раньше тут можно было 10к запросов сделать с одного IP: ask (поиска по картинке теперь не вижу)

тут вероятнее всего уже лимитировано duckduckgo

api они убрали? python / fluquid ..

★Сервис идентифицирует (https://socfishing.com/?utm_source=searchengines) посетителей вашего сайта и предоставляет их профили ВКонтакте, Телефон, Почта! Цены копеечные, работаем 8 лет.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

1108

Dram

4 апреля 2020, 13:15

#6

Купил IPV6 прокси и пошло дело... 100 р не те деньги...

-S

1354

-= Serafim =-

4 апреля 2020, 13:17

#7

Dram:
Купил IPV6 прокси и пошло дело... 100 р не те деньги...

Если бы было все так просто :D

D

1108

Dram

4 апреля 2020, 14:58

#8

-= Serafim =-:
Если бы было все так просто :D

Первые 500 запросов прошли без проблем. Пока полет нормальный.

202

iccup

4 апреля 2020, 16:02

#9

Прокси копейки стоят, зачем так мучиться? Сотнями гигабайт парсю, все в порядке.

kimsufi.com ( https://www.kimsufi.com ) очень дешевые и качественные дедики https://clck.ru/gvF9p - антибот, использую уже 3 года.

16

athe

6 апреля 2020, 03:24

#10

Месяца два назад писал парсер под яндекс картинки на пыхе.

Год назад делал парсинг через зенку..

Всегда использовал такую схему для зенки:

1 юзер агент, 1 прокси + антигейт - на 2-4 картинки. Все парсилось нормально.

Для PHP версии парсера юзал только рандомную задержку и мобильную версию.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, если ваша email-рассылка попала в спам

Парсинг Яндекс картинок - нюансы?