- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.
Нужно сделать порядка 15000 запросов.
Скорость не важна.
На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)
Как думаете нарвусь на капчу?
Пока придумал на каждый запрос менять юзер агент и куки в курле.
Прокси покупать не хочу.
Может еще подскажите нюансы?
Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.
Нужно сделать порядка 15000 запросов.
Скорость не важна.
На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)
Как думаете нарвусь на капчу?
Пока придумал на каждый запрос менять юзер агент и куки в курле.
Прокси покупать не хочу.
Может еще подскажите нюансы?
На капчу не нарветесь, можно выставлять даже 30 сек и не меняя юзера и куки не трогая
Ньюансы - разгадывать капчу XEvil и парсить без таймаута
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.
---------- Добавлено 04.04.2020 в 14:23 ----------
Нельзя ли использовать xml лимиты для этого?
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.
---------- Добавлено 04.04.2020 в 14:23 ----------
Нельзя ли использовать xml лимиты для этого?
Можно вроде, у меня Зенопостер с задержкой 25-35 сек без проблем бесконечно может парсить и капчи не ловит
Капчу поймал очень быстро... :( Даже меняя юзер агент на каждый запрос.
---------- Добавлено 04.04.2020 в 14:23 ----------
Нельзя ли использовать xml лимиты для этого?
Юзер агенты никогда особо роли не играют, если стоит защита, то она будет на число запросов с ip реагировать, а в случае с Яндексом то защита еще по большему числу параметров. Самый оптимальный вариант или использовать xevil или парсить не Яндекс или Гугл, а тех кто их уже спарсил или просто другие поисковики, хотя везде защиты есть, но есть послабее.
Очень удивлен, что вы не словили капчу на первые 100 запросов пока тестировали. При этом капчу уже на каждый запрос, которую даже на ручной правильный ввод не подходит.
Или же мои IP забанили, что зарегистрироваться в почти не могу даже. Работать с яндекс очень тяжело. "юзер агент на каждый запрос" это напротив фактор подозрения.
Вам точно нужны именно яндекс картинки?
раньше тут можно было 10к запросов сделать с одного IP: ask (поиска по картинке теперь не вижу)
тут вероятнее всего уже лимитировано duckduckgo
api они убрали? python / fluquid ..
Купил IPV6 прокси и пошло дело... 100 р не те деньги...
Купил IPV6 прокси и пошло дело... 100 р не те деньги...
Если бы было все так просто :D
Если бы было все так просто :D
Первые 500 запросов прошли без проблем. Пока полет нормальный.
Прокси копейки стоят, зачем так мучиться? Сотнями гигабайт парсю, все в порядке.
Месяца два назад писал парсер под яндекс картинки на пыхе.
Год назад делал парсинг через зенку..
Всегда использовал такую схему для зенки:
1 юзер агент, 1 прокси + антигейт - на 2-4 картинки. Все парсилось нормально.
Для PHP версии парсера юзал только рандомную задержку и мобильную версию.