- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Последние две недели, это просто жесть.
Яндекс выдаёт каптчу, через каждые 4-5 запросов. В браузере я не могу добиться такого эффекта, хотя клацаю быстро и в много потоков куда угодно.
Проворачиваю все через такие настройки:
$headers = array
(
'Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1',
'Accept-Language: ru-RU,ru;q=0.9,en;q=0.8',
'Accept-Encoding: gzip, deflate',
'Cache-Control: no-cache',
'Connection: keep-alive'
);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT, 'Opera/9.80 (Windows NT 6.2) Presto/2.12.388 Version/12.17');
curl_setopt($ch, CURLOPT_TIMEOUT ,60);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
curl_setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt");
curl_setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt");
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
curl_setopt($ch, CURLOPT_AUTOREFERER , 1);
curl_setopt($ch, CURLOPT_ENCODING, 1);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
Таймат между запросами вообще ни на, что не влияет, хоть 0 хоть 15
Залогенный юзер ни на, что не влияет
Есть у кого какие идейки по этому поводу?
Последние две недели, это просто жесть.
Яндекс выдаёт каптчу, через каждые 4-5 запросов. В браузере я не могу добиться такого эффекта, хотя клацаю быстро и в много потоков куда угодно.
Ну, браузер-то еще и java с flash исполняет.
Ну, браузер-то еще и java с flash исполняет.
Такая помощь, такая подсказка. В КЭП-а решили поиграть? 🍿
Я не жду решения обхода, я жду решения уменьшения. Возможно проблема в мелочи, возможно кто-то уже нащупал.
Попробуйте в браузере отключить подгрузку изображений, стилей, скриптов и пр.
Чтобы браузер забирал только html-код.
И снова интенсивно "поклацайте" :)
Нужно нащупать, с помощью какого подгружаемого файла яндекс отделяет мух от котлет.
Хотя, может, там ява-скриптом какие-то проверочные действия совершаются.
;13041448']Попробуйте в браузере отключить подгрузку изображений, стилей, скриптов и пр.
Чтобы браузер забирал только html-код.
И снова интенсивно "поклацайте" :)
Нужно нащупать, с помощью какого подгружаемого файла яндекс отделяет мух от котлет.
Попробовал сейчас. Благо опера старая это позволяет в два клика.
Выключил все плагины
Выключил JS
Очистил куки. Яндекса 1 раз запросил каптчу. Ввёл.
Всё, тыкал открыл 50 страниц товаров. Никаких проблем.
По ночам при парсинге яндекс капчу реже показывает, яндексоиды сами говорили. Вроде как с полуночи до 4-5 утра.
LEOnidUKG, Маркет не парсил, но тоже интересно и может натолкну на мысли... есть пара вопросов:
- покажите файл куков. есть что-то интересное? есть отличия от браузерных?
- пробовали менять юзер-агент?
- я правильно понял, что используете один набор ip-useragent? пробовали давать ip "отдохнуть" пару дней или заходить в выдачу с таким же юзер агент?
И добавлю... Использовали анти-капчу? что просиходит при верном вводе?
LEOnidUKG, Маркет не парсил, но тоже интересно и может натолкну на мысли... есть пара вопросов:
- покажите файл куков. есть что-то интересное? есть отличия от браузерных?
- пробовали менять юзер-агент?
- я правильно понял, что используете один набор ip-useragent? пробовали давать ip "отдохнуть" пару дней или заходить в выдачу с таким же юзер агент?
И добавлю... Использовали анти-капчу? что просиходит при верном вводе?
1. Куки не сильно отличаются от браузерного. Я пробовал из браузера все вставить, без изменений
2. Пробовал разные юзер агенты даже как у меня у текущего браузера
3. да ёмаё, брауезры и так все одинаковы. Беру с этим юзерагентом в браузере реальном, тыкаю, потом его переношу в скрипт. Не влияет это.
Эм, ну что происходит после удачного ввода, всё ок. 3-5 запросов и опять каптча.
---------- Добавлено 09.08.2014 в 10:54 ----------
По ночам при парсинге яндекс капчу реже показывает, яндексоиды сами говорили. Вроде как с полуночи до 4-5 утра.
Я так и буду клиентам говорить, мол ребяки не спите по ночам, а парсите 🤪
В браузере проверяйте js файлы на предмет простановки ими куков. Или даже картинки.
В браузере проверяйте js файлы на предмет простановки ими куков. Или даже картинки.
А можно узнать, как это сделать? Загружать руками каждую картику и JS?
Я попробовал сделать так.
1. Прошёл по многим сервисам яндекса в браузере, и сам поиск и маркет.
2. Экспортировал все куки собранные в файл
3. Отдал их скрипту
т.е. если даже у него запросят каптчу, то остальные куки останутся на долго ли, не знаю.
Но пока сработало.
Попробуйте поменять юзер-агент на более актуальный + вообще менять по-переменно.
Ну и еще, помимо кук - яндекс.маркет ставит метки в localStorage, как это эмулировать - я пока не в курсе.