Как Гугль парсит Яндекс Маркет без капчи?

40

balr_ru

16 августа 2016, 12:11

7595

Здравствуйте.

Бьюсь с написанием парсера Яндекс Маркет. :-)

Пытаюсь использовать PHP обертку JonnyW/PhantomJs для, соответственно, консольного браузера PhantomJs (типа, не безликий file_get_contents по сайту ходит, а целый настоящий браузер :-) ).

Юзер Агент подменяю на гуглороботовский.

На определенном этапе все равно вылетает капча...

Да, я знаю, что надо использовать Antigate и оно практически прикручено.

Однако у меня вопрос несколько иного рода...

Очевидно, что в индексе Гугла несколько миллионов страниц с Яндекс Маркета:

https://www.google.ru/?q=site:market.yandex.ru

(и еще неизвестно сколько миллионов картинок).

Я далек от мысли, что Гугл тоже прикручивает Antigate, чтобы индексировать Яндекс Маркет. :-)

Соответственно, а каким таким тогда образом Гуглу удается сжирать и обновлять столько страниц и не ловить капчу?

У кого какие есть соображения на этот счет???

Продам старые трастовые отстоявшиеся домены 10+ лет ( https://www.internet-invest-domains.ru/ )

92

Chained

16 августа 2016, 12:17

#1

Скорее всего Яндекс сделал для ботов гугла исключение.

https://support.google.com/webmasters/answer/80553?hl=ru

2

D

153

Dinozavr

16 августа 2016, 12:27

#2

ну давайте подумаем логично. в чём разница вашего парсера и гугла. наверно в том, что от гугла ЯМ получает "много" пользователей, а от вас только нагрузку на сервер? как же гугл отличает вас от гугла? для начала по user agent.

ах, если бы всё было так просто... любой бы дурак мог бы представляться гуглом и парсить немерянно. но яндекс может ещё и "по ip вычислить"

robot.txt + Joomla не индексирует, записи в Часть коннектов идет на

40

balr_ru

17 августа 2016, 04:40

#3

Chained:
Скорее всего Яндекс сделал для ботов гугла исключение.
https://support.google.com/webmasters/answer/80553?hl=ru

Спасибо за ссылку - многое проясняет... :-(

Dinozavr:
ну давайте подумаем логично. в чём разница вашего парсера и гугла. наверно в том, что от гугла ЯМ получает "много" пользователей, а от вас только нагрузку на сервер?

Да тут как сказать... :-)

Под моим IP, наверное, пол-Балашихи сидит. Он, IP, хоть и автоматически предоставляется, но по факту не меняется месяцами и годами (от перезагрузки домашнего роутера не зависит).

Так что с данного IP явно идет немало пользователей...

как же гугл отличает вас от гугла? для начала по user agent.
ах, если бы всё было так просто... любой бы дурак мог бы представляться гуглом и парсить немерянно. но яндекс может ещё и "по ip вычислить"

Получается, что "обратный DNS-запрос IP-адреса" Яндекс, скорее всего, выполняет.

Вопрос только как именно - на каждый запрос или только по IP, с которых пришла некая критическая масса запросов?

И как тогда быть в случае, когда под одним IP реально может сидеть дофигища народу?

Дофигища народу - это, значит, у каждого свой браузер и своя сессия.

Интересно, а если создать видимость сидения множества пользователей под одним IP?

Ну, типа, работает действительно много "браузеров", у каждого свои параметры, куки свои.

Кто-то, "для отвода глаз", лазит по смежным ресурсам Яндекса (а то и их парсит, чтоб было :-) ), логинится в почту или куда-то еще, по результатам поиска "кликает" (а заодно, и их парсит :-) ).

А результаты складываются в общую базу...

Какая, интересно, критическая масса пользователей, чтобы IP у Яндекса считался "белым"?

Может, не очень удачный пример, но Гугл, если просто иной раз на него залезть через Йоту, просто как обычный пользователь, сразу же, на первый же запрос капчу выкидывает.

Т.е., возможно, есть некие списки белых/серых/черных IP...

Тогда другой вопрос: а действительно, как симитировать "белизну" IP, с которого идет парсинг?

Или тут уже не отделаться одним компом и нужен кластер серверов и гигабитная оптика? :-)

Региональность и определение города Парсинг выдачи гугла - Скрипт защиты от атак

316

Aisamiery

17 августа 2016, 07:46

#4

Может вам просто купить пачку проксей?

Разработка проектов на Symfony, Laravel, 1C-Bitrix, UMI.CMS, OctoberCMS

1762

LEOnidUKG

17 августа 2016, 08:08

#5

Для парсинга маркета яндекса есть Яндекс.Маркет API. Не вижу смысла биться в вебверсию и каптчу, если нужны промышленные масштабы. Это запросы уже давно продают в розницу.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/

213

worldfoto

17 августа 2016, 08:25

#6

Выше все верно написано по API у меня плагин стоит 3 раза в день парсит все ок никаких проксей

⭐ ->Лучший VPN https://u.to/i1L5IA | ⭐ - > Лучшая партнерка только с ней и зарабатываю! https://is.gd/OrRjrw

40

balr_ru

17 августа 2016, 10:45

#7

LEOnidUKG:
Для парсинга маркета яндекса есть Яндекс.Маркет API. Не вижу смысла биться в вебверсию и каптчу, если нужны промышленные масштабы.

Не хочется платить за использование.

worldfoto:
Выше все верно написано по API у меня плагин стоит 3 раза в день парсит все ок никаких проксей

Да понятное дело, что через API - оно проще.

Но у меня, помимо жабы, спортивный интерес, если угодно... ;-)

К тому же, я делаю скрипт так, что он кэширует каждую страницу на диск и в конце-концов у меня должен получиться "снимок" базы Яндекс Маркета.

В общем, (неутешительные) выводы пока такие:

1) Гуглом, судя по всему, прикинуться не получится.

2) "Обелить" IP, с которого идет парсинг, видимо, тоже не получится (если вообще Яндекс ведет такие списки).

Гугл прекращает поддержку оставшихся Вопрос к тем кто API youtbe - практика

1762

LEOnidUKG

17 августа 2016, 10:51

#8

Не хочется платить за использование.

Будете платить за каптчи и прокси.

118

St.One

18 августа 2016, 21:24

#9

А сколько за API надо платить?

Что дороже прокси или API?

Здесь Индивидуальные прокси (http://www.primeproxy.net/)

40

balr_ru

19 августа 2016, 05:33

#10

LEOnidUKG:
Будете платить за каптчи и прокси.

Капча - это оплата, скажем так, по факту (выпадения капчи).

За прокси, насколько я понимаю, придется платить уже что-то вроде "абонентской платы", независимо от того, используется ли сейчас парсер или нет.

Также как и за API - придется платить независимо от того, используется или нет.

Спрогнозировать, как часто будет использоваться парсер - я не могу (да и нафиг надо :-) ).

Получается, что да, платить придется, порядка $1-$2 за 1000 (!) капчей (тогда и только тогда, когда парсер используется; не используется - не платишь).

P.S. И что-то мне кажется, что даже пачка прокси все равно рано или поздно тоже будет вызывать капчу. А если это ОЧЕНЬ большая пачка - то и стоить она может дороже доступа к API. :-)

Как проверить большие объём Key Collector - автоматизированная XML Stock - биржа

Google: E-E-A-T не является фактором ранжирования

Переиграть и победить: как анализировать конкурентов для продвижения сайта