drDaemon

Рейтинг
82
Регистрация
16.05.2012
Должность
sr.Software Developer
программист. Python, Go, NodeJs, SQL

-= Serafim =- #:
Они сделали проверку на выполнение js - без эмуляции браузера вы не проходите челенджи и попадаете в блок.

Иногда этого не достаточно потому что и Selenium и Chrome (headless) детектируются и при обнаружении отклонений могут блокировать.

sarkis28 #:
подскажите, данный пак работает ли с приватными прокси (написано   authorisation with credentials does not work ) и получится ли его запускать через CRON ?

именно насчет этого пака (я с GO работаю, и на нем строил большие системы для сбора данных + Chrome)  не скажу, а вообще можно использовать любые прокси которые поддерживает хром.  Для этого используются опции при запуске. Или есть другие способы.
Запускать можно по разному. 

danforth #:
HTTP/2 не работает без SSL, нужно ходить на https версию сайта. HTTP/2 в курле с версии 7.33.0

То что браузеры работают сHTTP/2 поверх SSL вовсе не значит что HTTP/2  не работает  без SSL.  Работает и без проблем.

Sly32 #:
Тут дело не в вебсервере а в том как данные формы отсылает браузер.

браузер всегда правильно отсылает стандартные заголовки.
вы как заголовки проверяете? (Django, Flask, что то еще используете)


Если джанго -

#  You can access headers case-insensitively
'Content-Type' in request.headers
# True
'content-type' in request.headers
# True

если фласк - (если не ошибаюсь - давно не использовал) также  возможно case insens

livetv #:

В php заголовки клиента содержаться в массиве $_SERVER c ключами вида

То есть ключи приводятся к верхнему регистру и разделителем стает нижнее подчеркивание

Я хз, это web сервер проводит такие манипуляции или сам php

Это ПХП делает. Вебсервер опирается на стандарты.

Есть несколько подходов к решению.

Например верстаем обычный Html темплейт. На его основе создаем Html документ. А затем используя HeadlessChrome, экспортируем этот документ в формате PDF.
Реализация очень простая. Можно сделать в виде микросервиса. (может быть можно готовый докер контейнер найти)
Может быть есть смысл на таблицу с комментариями повесить триггеры, а суммарные результаты хранить в отдельной таблице. Тогда все значительно упростится и работать будет быстро.
ArbNet #:
Он не лучшее решение для веб разработки
С чего вы это решили? У вас есть большой опыт разработки в Web,и в том числе на Python?
timo-71 #:
Если питон плохое решение, то почему высоконагруженные его используют?

потому такие проекты состоят не из монолита , а из набора сетевых сервисов(микросервисов) а на Python можно очень быстро делать прототип любого  из них. У него куча "батареек" на все случаи жизни. Ну и из моего опыта, сервис переписанный с PHP на Python стал обрабатывать в 8-10 больше RPS при тех же условиях. причем без всяких asyncio, на обычном Twisted.


ArbNet #:
но ухудшает конечный результат. Который будет постоянно создавать проблемы так как в сложной системе да темболее собранной из небольших кусочков кода написанных кем не попадя в итоге кто собирает из всего этого не может прогнозировать как программа будет работать по какому либо сценарию..
Это не от языка зависит, а от индивидуальных особенностей конкретного разработчика. Так что это сомнительное утверждение.
ArbNet #:
теперь моя разработка стоит не малых денег,

Скорее всего вы путаете стоимость (в смысле ваших затрат) и ценность (соответственно готовность платить за это)... это две большие разницы.

Dram :

Не могу загуглить рабочий вариант для записи данных в Гугл таблицу.

Не поделитесь рабочим скриптом?

Здесь рассказывают об этом, если я правильно понял вашу задачу

https://codd-wd.ru/primery-google-sheets-tablicy-api-php/

Алеандр #:
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что "скачать сайт". Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к "500", внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.

Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.

Алеандр #:
Не нужно додумывать за других то, что не было написано.
Это вы вообще о чем?


Проблемы на самом деле начинаются во врем эксплуатации.

Какой сайт (сайты), какое количество страниц, периодичность, 'экспорт данных куда, в каком формате. и .т.д....?

В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper.  
Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо).
Можно заказать у специалистов.....

Все зависит от условий задачи....

Алеандр #:
У всех сайтов разный HTML.


Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.

Disson :
Парсер цен конкурентов - стоит ли делать? Есть у кого то опыт написания такого?
Просто парсер цен - смысла особого нет.
Если сбор данных для аналитики - вполне.... Я над этим последние 5 лет работаю. 
Всего: 71