drDaemon

Рейтинг
82
Регистрация
16.05.2012
Должность
sr.Software Developer
программист. Python, Go, NodeJs, SQL
Twickbot :
Сабж.


Чем ваш вариант лучше Selenium, Puppetteer (PyPuppetteer - для пайтона), BAS (Browser Automation Stidio), Splash(WebPyQt) и еще огромной кучи вариантов автоматизации?

Мне просто интересно чисто с проф.точки зрения.

Pavel A #:
hetzner cloud. Гигабитный канал за 2.5 евро. Главное в 20 тб вписаться. Сеть шикарная.

Добавлю, что можно  не дорого дополнительные IP использовать


еще у zomro были не дорогие тарифы на KVM в пределах 2 евро.

Больше года использую. Поблем нет.

anthony_ #:

Вы не поняли. Программист не будет реализовывать никакие идеи за свои деньги

Это не всегда так. Я реализовываю свои идеи. Трачу на них свое время (время - деньги) которое мог бы потратить а зарабатывание денег

plustilino #:

Почему эти вакансии не занимают те, кто получает 60-70 тыс? Почему они не уходят с какого-нибудь яндекса или мейла на эти 200 т?

С чего вы это решили?

Что касается Яндекса - там более 200к нормальные специалисты зарабатывают. + условия работы комфортные. так что на 200 не переманишь...

sochi-russia #:
Ну например запрограммировать умный дом!

и поселить в нем тещу....

Dram #:


Все же, нужно использовать HeadlessCrome или Puppetteer. Чисто на PHP не получится с приемлемыми затратами сделать. Там добавлен js который делает разные проверки...

Dram #:


Надо проверить, выполняется ли автоматический редирект curl-ом

но если включен safe_mode то это не сработает.


Поэтому я проверил бы возвращаемый код (301, 302, 307) и если он есть, перезапросил страницу с куками, которые устанавливает текущий запрос.

Или посмотреть что передается в отладочном прокси (Fiddler например)

Если используешь свой ВПС или сервер, то самое простое установить докер, взять контейнер с HeadlessChrome, или еще проще с puppetteer, и через него получать отрендереный html


Upd:
 Я так понял ты пытаешься сделать AJAX запрос.  Попробуй перед ним сделать обычный запрос и использовать его куки.
Dram :

Господа, нужно спарсить пару каталогов лекарств с сайта eаптека, накидал быстро парсер через курл

Можно ли на php обойти эту проверку?

Вообще с этим сайтом проблем не было особых никогда. Там несколько редиректов на каждом добавляются куки прежде чем контент получишь. ...
Мы его(в том числе) каждый день парсим уже несколько лет.... 


И еще, уточни на каком оборудовании запускаешь парсинг - хостинк, сервер, прокси. Это все играет роль.

как вариант - видео интервью с клиентом после того как он предоставил документы. Это работает на некоторых зарубежных фриланс биржах.

У вас задачи по парсингу?

400 ошибка как правило при не соответствии протокола прокси и сайта

409 в случае с клоудфлэр - просто не используйте. вы ее не победите.

еще бывает 407 ошибка на прочеканной рабочей проксе - требуется авторизация. Такие тоже можно смело выкидывать из списка.

Одно время я использовал ProxyBroker - он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.

-= Serafim =-:
А зачем список бесплатных прокси?

Что бы немного денег сэкономить... Как показывает моя практика - 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.

Всего: 71