- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте.
Бьюсь с написанием парсера Яндекс Маркет. :-)
Пытаюсь использовать PHP обертку JonnyW/PhantomJs для, соответственно, консольного браузера PhantomJs (типа, не безликий file_get_contents по сайту ходит, а целый настоящий браузер :-) ).
Юзер Агент подменяю на гуглороботовский.
На определенном этапе все равно вылетает капча...
Да, я знаю, что надо использовать Antigate и оно практически прикручено.
Однако у меня вопрос несколько иного рода...
Очевидно, что в индексе Гугла несколько миллионов страниц с Яндекс Маркета:
https://www.google.ru/?q=site:market.yandex.ru
(и еще неизвестно сколько миллионов картинок).
Я далек от мысли, что Гугл тоже прикручивает Antigate, чтобы индексировать Яндекс Маркет. :-)
Соответственно, а каким таким тогда образом Гуглу удается сжирать и обновлять столько страниц и не ловить капчу?
У кого какие есть соображения на этот счет???
Скорее всего Яндекс сделал для ботов гугла исключение.
https://support.google.com/webmasters/answer/80553?hl=ru
ну давайте подумаем логично. в чём разница вашего парсера и гугла. наверно в том, что от гугла ЯМ получает "много" пользователей, а от вас только нагрузку на сервер? как же гугл отличает вас от гугла? для начала по user agent.
ах, если бы всё было так просто... любой бы дурак мог бы представляться гуглом и парсить немерянно. но яндекс может ещё и "по ip вычислить"
Скорее всего Яндекс сделал для ботов гугла исключение.
https://support.google.com/webmasters/answer/80553?hl=ru
Спасибо за ссылку - многое проясняет... :-(
ну давайте подумаем логично. в чём разница вашего парсера и гугла. наверно в том, что от гугла ЯМ получает "много" пользователей, а от вас только нагрузку на сервер?
Да тут как сказать... :-)
Под моим IP, наверное, пол-Балашихи сидит. Он, IP, хоть и автоматически предоставляется, но по факту не меняется месяцами и годами (от перезагрузки домашнего роутера не зависит).
Так что с данного IP явно идет немало пользователей...
ах, если бы всё было так просто... любой бы дурак мог бы представляться гуглом и парсить немерянно. но яндекс может ещё и "по ip вычислить"
Получается, что "обратный DNS-запрос IP-адреса" Яндекс, скорее всего, выполняет.
Вопрос только как именно - на каждый запрос или только по IP, с которых пришла некая критическая масса запросов?
И как тогда быть в случае, когда под одним IP реально может сидеть дофигища народу?
Дофигища народу - это, значит, у каждого свой браузер и своя сессия.
Интересно, а если создать видимость сидения множества пользователей под одним IP?
Ну, типа, работает действительно много "браузеров", у каждого свои параметры, куки свои.
Кто-то, "для отвода глаз", лазит по смежным ресурсам Яндекса (а то и их парсит, чтоб было :-) ), логинится в почту или куда-то еще, по результатам поиска "кликает" (а заодно, и их парсит :-) ).
А результаты складываются в общую базу...
Какая, интересно, критическая масса пользователей, чтобы IP у Яндекса считался "белым"?
Может, не очень удачный пример, но Гугл, если просто иной раз на него залезть через Йоту, просто как обычный пользователь, сразу же, на первый же запрос капчу выкидывает.
Т.е., возможно, есть некие списки белых/серых/черных IP...
Тогда другой вопрос: а действительно, как симитировать "белизну" IP, с которого идет парсинг?
Или тут уже не отделаться одним компом и нужен кластер серверов и гигабитная оптика? :-)
Может вам просто купить пачку проксей?
Для парсинга маркета яндекса есть Яндекс.Маркет API. Не вижу смысла биться в вебверсию и каптчу, если нужны промышленные масштабы. Это запросы уже давно продают в розницу.
Выше все верно написано по API у меня плагин стоит 3 раза в день парсит все ок никаких проксей
Для парсинга маркета яндекса есть Яндекс.Маркет API. Не вижу смысла биться в вебверсию и каптчу, если нужны промышленные масштабы.
Не хочется платить за использование.
Выше все верно написано по API у меня плагин стоит 3 раза в день парсит все ок никаких проксей
Да понятное дело, что через API - оно проще.
Но у меня, помимо жабы, спортивный интерес, если угодно... ;-)
К тому же, я делаю скрипт так, что он кэширует каждую страницу на диск и в конце-концов у меня должен получиться "снимок" базы Яндекс Маркета.
В общем, (неутешительные) выводы пока такие:
1) Гуглом, судя по всему, прикинуться не получится.
2) "Обелить" IP, с которого идет парсинг, видимо, тоже не получится (если вообще Яндекс ведет такие списки).
Будете платить за каптчи и прокси.
А сколько за API надо платить?
Что дороже прокси или API?
Будете платить за каптчи и прокси.
Капча - это оплата, скажем так, по факту (выпадения капчи).
За прокси, насколько я понимаю, придется платить уже что-то вроде "абонентской платы", независимо от того, используется ли сейчас парсер или нет.
Также как и за API - придется платить независимо от того, используется или нет.
Спрогнозировать, как часто будет использоваться парсер - я не могу (да и нафиг надо :-) ).
Получается, что да, платить придется, порядка $1-$2 за 1000 (!) капчей (тогда и только тогда, когда парсер используется; не используется - не платишь).
P.S. И что-то мне кажется, что даже пачка прокси все равно рано или поздно тоже будет вызывать капчу. А если это ОЧЕНЬ большая пачка - то и стоить она может дороже доступа к API. :-)