-= Serafim =- #:Они сделали проверку на выполнение js - без эмуляции браузера вы не проходите челенджи и попадаете в блок.
Иногда этого не достаточно потому что и Selenium и Chrome (headless) детектируются и при обнаружении отклонений могут блокировать.
sarkis28 #:подскажите, данный пак работает ли с приватными прокси (написано authorisation with credentials does not work ) и получится ли его запускать через CRON ?
именно насчет этого пака (я с GO работаю, и на нем строил большие системы для сбора данных + Chrome) не скажу, а вообще можно использовать любые прокси которые поддерживает хром. Для этого используются опции при запуске. Или есть другие способы.Запускать можно по разному.
То что браузеры работают сHTTP/2 поверх SSL вовсе не значит что HTTP/2 не работает без SSL. Работает и без проблем.
браузер всегда правильно отсылает стандартные заголовки.вы как заголовки проверяете? (Django, Flask, что то еще используете)
Если джанго -
# You can access headers case-insensitively'Content-Type' in request.headers# True'content-type' in request.headers# True
если фласк - (если не ошибаюсь - давно не использовал) также возможно case insens
В php заголовки клиента содержаться в массиве $_SERVER c ключами вида
То есть ключи приводятся к верхнему регистру и разделителем стает нижнее подчеркивание
Я хз, это web сервер проводит такие манипуляции или сам php
Это ПХП делает. Вебсервер опирается на стандарты.
потому такие проекты состоят не из монолита , а из набора сетевых сервисов(микросервисов) а на Python можно очень быстро делать прототип любого из них. У него куча "батареек" на все случаи жизни. Ну и из моего опыта, сервис переписанный с PHP на Python стал обрабатывать в 8-10 больше RPS при тех же условиях. причем без всяких asyncio, на обычном Twisted.
Скорее всего вы путаете стоимость (в смысле ваших затрат) и ценность (соответственно готовность платить за это)... это две большие разницы.
Не могу загуглить рабочий вариант для записи данных в Гугл таблицу.
Не поделитесь рабочим скриптом?
Здесь рассказывают об этом, если я правильно понял вашу задачу
https://codd-wd.ru/primery-google-sheets-tablicy-api-php/
Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.
Проблемы на самом деле начинаются во врем эксплуатации.
Какой сайт (сайты), какое количество страниц, периодичность, 'экспорт данных куда, в каком формате. и .т.д....?
В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper. Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо).Можно заказать у специалистов.....Все зависит от условий задачи....
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.