Как Гугль парсит Яндекс Маркет без капчи?

12
balr_ru
На сайте с 20.04.2013
Offline
40
7248

Здравствуйте.

Бьюсь с написанием парсера Яндекс Маркет. :-)

Пытаюсь использовать PHP обертку JonnyW/PhantomJs для, соответственно, консольного браузера PhantomJs (типа, не безликий file_get_contents по сайту ходит, а целый настоящий браузер :-) ).

Юзер Агент подменяю на гуглороботовский.

На определенном этапе все равно вылетает капча...

Да, я знаю, что надо использовать Antigate и оно практически прикручено.

Однако у меня вопрос несколько иного рода...

Очевидно, что в индексе Гугла несколько миллионов страниц с Яндекс Маркета:

https://www.google.ru/?q=site:market.yandex.ru

(и еще неизвестно сколько миллионов картинок).

Я далек от мысли, что Гугл тоже прикручивает Antigate, чтобы индексировать Яндекс Маркет. :-)

Соответственно, а каким таким тогда образом Гуглу удается сжирать и обновлять столько страниц и не ловить капчу?

У кого какие есть соображения на этот счет???

Продам старые трастовые отстоявшиеся домены 10+ лет ( https://www.internet-invest-domains.ru/ )
Chained
На сайте с 10.01.2013
Offline
92
#1

Скорее всего Яндекс сделал для ботов гугла исключение.

https://support.google.com/webmasters/answer/80553?hl=ru

D
На сайте с 14.01.2007
Offline
153
#2

ну давайте подумаем логично. в чём разница вашего парсера и гугла. наверно в том, что от гугла ЯМ получает "много" пользователей, а от вас только нагрузку на сервер? как же гугл отличает вас от гугла? для начала по user agent.

ах, если бы всё было так просто... любой бы дурак мог бы представляться гуглом и парсить немерянно. но яндекс может ещё и "по ip вычислить"

balr_ru
На сайте с 20.04.2013
Offline
40
#3
Chained:
Скорее всего Яндекс сделал для ботов гугла исключение.
https://support.google.com/webmasters/answer/80553?hl=ru

Спасибо за ссылку - многое проясняет... :-(

Dinozavr:
ну давайте подумаем логично. в чём разница вашего парсера и гугла. наверно в том, что от гугла ЯМ получает "много" пользователей, а от вас только нагрузку на сервер?

Да тут как сказать... :-)

Под моим IP, наверное, пол-Балашихи сидит. Он, IP, хоть и автоматически предоставляется, но по факту не меняется месяцами и годами (от перезагрузки домашнего роутера не зависит).

Так что с данного IP явно идет немало пользователей...

как же гугл отличает вас от гугла? для начала по user agent.
ах, если бы всё было так просто... любой бы дурак мог бы представляться гуглом и парсить немерянно. но яндекс может ещё и "по ip вычислить"

Получается, что "обратный DNS-запрос IP-адреса" Яндекс, скорее всего, выполняет.

Вопрос только как именно - на каждый запрос или только по IP, с которых пришла некая критическая масса запросов?

И как тогда быть в случае, когда под одним IP реально может сидеть дофигища народу?

Дофигища народу - это, значит, у каждого свой браузер и своя сессия.

Интересно, а если создать видимость сидения множества пользователей под одним IP?

Ну, типа, работает действительно много "браузеров", у каждого свои параметры, куки свои.

Кто-то, "для отвода глаз", лазит по смежным ресурсам Яндекса (а то и их парсит, чтоб было :-) ), логинится в почту или куда-то еще, по результатам поиска "кликает" (а заодно, и их парсит :-) ).

А результаты складываются в общую базу...

Какая, интересно, критическая масса пользователей, чтобы IP у Яндекса считался "белым"?

Может, не очень удачный пример, но Гугл, если просто иной раз на него залезть через Йоту, просто как обычный пользователь, сразу же, на первый же запрос капчу выкидывает.

Т.е., возможно, есть некие списки белых/серых/черных IP...

Тогда другой вопрос: а действительно, как симитировать "белизну" IP, с которого идет парсинг?

Или тут уже не отделаться одним компом и нужен кластер серверов и гигабитная оптика? :-)

Aisamiery
На сайте с 12.04.2015
Offline
293
#4

Может вам просто купить пачку проксей?

Разработка проектов на Symfony, Laravel, 1C-Bitrix, UMI.CMS, OctoberCMS
LEOnidUKG
На сайте с 25.11.2006
Offline
1722
#5

Для парсинга маркета яндекса есть Яндекс.Маркет API. Не вижу смысла биться в вебверсию и каптчу, если нужны промышленные масштабы. Это запросы уже давно продают в розницу.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
worldfoto
На сайте с 20.04.2012
Offline
197
#6

Выше все верно написано по API у меня плагин стоит 3 раза в день парсит все ок никаких проксей

⭐-> HostPro.ua_ - Лучший хостинг. с CPanel и бесплатным ssl сертификатом. Сам пользуюсь и рекомендую. Пожизненная скидка -10% с промокодом, на Хостинг, Cервера "searchengines-10%" https://bit.ly/38IeuNR
balr_ru
На сайте с 20.04.2013
Offline
40
#7
LEOnidUKG:
Для парсинга маркета яндекса есть Яндекс.Маркет API. Не вижу смысла биться в вебверсию и каптчу, если нужны промышленные масштабы.

Не хочется платить за использование.

worldfoto:
Выше все верно написано по API у меня плагин стоит 3 раза в день парсит все ок никаких проксей

Да понятное дело, что через API - оно проще.

Но у меня, помимо жабы, спортивный интерес, если угодно... ;-)

К тому же, я делаю скрипт так, что он кэширует каждую страницу на диск и в конце-концов у меня должен получиться "снимок" базы Яндекс Маркета.

В общем, (неутешительные) выводы пока такие:

1) Гуглом, судя по всему, прикинуться не получится.

2) "Обелить" IP, с которого идет парсинг, видимо, тоже не получится (если вообще Яндекс ведет такие списки).

LEOnidUKG
На сайте с 25.11.2006
Offline
1722
#8
Не хочется платить за использование.

Будете платить за каптчи и прокси.

St.One
На сайте с 03.03.2008
Offline
118
#9

А сколько за API надо платить?

Что дороже прокси или API?

Здесь Индивидуальные прокси (http://www.primeproxy.net/)
balr_ru
На сайте с 20.04.2013
Offline
40
#10
LEOnidUKG:
Будете платить за каптчи и прокси.

Капча - это оплата, скажем так, по факту (выпадения капчи).

За прокси, насколько я понимаю, придется платить уже что-то вроде "абонентской платы", независимо от того, используется ли сейчас парсер или нет.

Также как и за API - придется платить независимо от того, используется или нет.

Спрогнозировать, как часто будет использоваться парсер - я не могу (да и нафиг надо :-) ).

Получается, что да, платить придется, порядка $1-$2 за 1000 (!) капчей (тогда и только тогда, когда парсер используется; не используется - не платишь).

P.S. И что-то мне кажется, что даже пачка прокси все равно рано или поздно тоже будет вызывать капчу. А если это ОЧЕНЬ большая пачка - то и стоить она может дороже доступа к API. :-)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий