Чем ваш вариант лучше Selenium, Puppetteer (PyPuppetteer - для пайтона), BAS (Browser Automation Stidio), Splash(WebPyQt) и еще огромной кучи вариантов автоматизации?
Мне просто интересно чисто с проф.точки зрения.
Добавлю, что можно не дорого дополнительные IP использовать
еще у zomro были не дорогие тарифы на KVM в пределах 2 евро.Больше года использую. Поблем нет.
Вы не поняли. Программист не будет реализовывать никакие идеи за свои деньги
Это не всегда так. Я реализовываю свои идеи. Трачу на них свое время (время - деньги) которое мог бы потратить а зарабатывание денег
Почему эти вакансии не занимают те, кто получает 60-70 тыс? Почему они не уходят с какого-нибудь яндекса или мейла на эти 200 т?
С чего вы это решили?
Что касается Яндекса - там более 200к нормальные специалисты зарабатывают. + условия работы комфортные. так что на 200 не переманишь...
и поселить в нем тещу....
Все же, нужно использовать HeadlessCrome или Puppetteer. Чисто на PHP не получится с приемлемыми затратами сделать. Там добавлен js который делает разные проверки...
Надо проверить, выполняется ли автоматический редирект curl-ом
но если включен safe_mode то это не сработает.
Поэтому я проверил бы возвращаемый код (301, 302, 307) и если он есть, перезапросил страницу с куками, которые устанавливает текущий запрос.
Или посмотреть что передается в отладочном прокси (Fiddler например)Если используешь свой ВПС или сервер, то самое простое установить докер, взять контейнер с HeadlessChrome, или еще проще с puppetteer, и через него получать отрендереный html
Господа, нужно спарсить пару каталогов лекарств с сайта eаптека, накидал быстро парсер через курл
Можно ли на php обойти эту проверку?
Вообще с этим сайтом проблем не было особых никогда. Там несколько редиректов на каждом добавляются куки прежде чем контент получишь. ... Мы его(в том числе) каждый день парсим уже несколько лет....
И еще, уточни на каком оборудовании запускаешь парсинг - хостинк, сервер, прокси. Это все играет роль.
как вариант - видео интервью с клиентом после того как он предоставил документы. Это работает на некоторых зарубежных фриланс биржах.
У вас задачи по парсингу?
400 ошибка как правило при не соответствии протокола прокси и сайта
409 в случае с клоудфлэр - просто не используйте. вы ее не победите.
еще бывает 407 ошибка на прочеканной рабочей проксе - требуется авторизация. Такие тоже можно смело выкидывать из списка.
Одно время я использовал ProxyBroker - он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.
Что бы немного денег сэкономить... Как показывает моя практика - 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.