Комментарии - drDaemon - Профиль вебмастера - Форум об интернет-маркетинге

Парсер Авито - вопрос по обходу блокировки

30 октября 2021, 10:55

-= Serafim =- #:
Они сделали проверку на выполнение js - без эмуляции браузера вы не проходите челенджи и попадаете в блок.

Иногда этого не достаточно потому что и Selenium и Chrome (headless) детектируются и при обнаружении отклонений могут блокировать.

sarkis28 #:
подскажите, данный пак работает ли с приватными прокси (написано authorisation with credentials does not work ) и получится ли его запускать через CRON ?

именно насчет этого пака (я с GO работаю, и на нем строил большие системы для сбора данных + Chrome) не скажу, а вообще можно использовать любые прокси которые поддерживает хром. Для этого используются опции при запуске. Или есть другие способы.
Запускать можно по разному.

cURL средствами php по протоколу HTTP/2 не получается...

28 октября 2021, 09:16

danforth #:
HTTP/2 не работает без SSL, нужно ходить на https версию сайта. HTTP/2 в курле с версии 7.33.0

То что браузеры работают сHTTP/2 поверх SSL вовсе не значит что HTTP/2 не работает без SSL. Работает и без проблем.

Обработка данных формы -заголовки отправляются разные, это нормально?

27 декабря 2020, 22:05

Sly32 #:
Тут дело не в вебсервере а в том как данные формы отсылает браузер.

браузер всегда правильно отсылает стандартные заголовки.
вы как заголовки проверяете? (Django, Flask, что то еще используете)

Если джанго -

#  You can access headers case-insensitively
'Content-Type' in request.headers
# True
'content-type' in request.headers
# True

если фласк - (если не ошибаюсь - давно не использовал) также возможно case insens

livetv #:

В php заголовки клиента содержаться в массиве $_SERVER c ключами вида

То есть ключи приводятся к верхнему регистру и разделителем стает нижнее подчеркивание

Я хз, это web сервер проводит такие манипуляции или сам php

Это ПХП делает. Вебсервер опирается на стандарты.

Python PDF

10 декабря 2020, 17:59

Есть несколько подходов к решению.

Например верстаем обычный Html темплейт. На его основе создаем Html документ. А затем используя HeadlessChrome, экспортируем этот документ в формате PDF.
Реализация очень простая. Можно сделать в виде микросервиса. (может быть можно готовый докер контейнер найти)

Сложный запрос SQL

30 ноября 2020, 23:44

Может быть есть смысл на таблицу с комментариями повесить триггеры, а суммарные результаты хранить в отдельной таблице. Тогда все значительно упростится и работать будет быстро.

Удобство разработки

29 ноября 2020, 20:49

ArbNet #:
Он не лучшее решение для веб разработки

С чего вы это решили? У вас есть большой опыт разработки в Web,и в том числе на Python?

timo-71 #:
Если питон плохое решение, то почему высоконагруженные его используют?

потому такие проекты состоят не из монолита , а из набора сетевых сервисов(микросервисов) а на Python можно очень быстро делать прототип любого из них. У него куча "батареек" на все случаи жизни. Ну и из моего опыта, сервис переписанный с PHP на Python стал обрабатывать в 8-10 больше RPS при тех же условиях. причем без всяких asyncio, на обычном Twisted.

ArbNet #:
но ухудшает конечный результат. Который будет постоянно создавать проблемы так как в сложной системе да темболее собранной из небольших кусочков кода написанных кем не попадя в итоге кто собирает из всего этого не может прогнозировать как программа будет работать по какому либо сценарию..

Это не от языка зависит, а от индивидуальных особенностей конкретного разработчика. Так что это сомнительное утверждение.

ArbNet #:
теперь моя разработка стоит не малых денег,

Скорее всего вы путаете стоимость (в смысле ваших затрат) и ценность (соответственно готовность платить за это)... это две большие разницы.

Запись данных в Google spreadsheets PHP

23 октября 2020, 21:34

Dram :

Не могу загуглить рабочий вариант для записи данных в Гугл таблицу.

Не поделитесь рабочим скриптом?

Здесь рассказывают об этом, если я правильно понял вашу задачу

https://codd-wd.ru/primery-google-sheets-tablicy-api-php/

Парсинг сайтов

18 сентября 2020, 15:14

Алеандр #:
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что "скачать сайт". Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к "500", внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.

Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.

Алеандр #:
Не нужно додумывать за других то, что не было написано.

Это вы вообще о чем?

Проблемы на самом деле начинаются во врем эксплуатации.

Парсинг сайтов

17 сентября 2020, 20:07

Какой сайт (сайты), какое количество страниц, периодичность, 'экспорт данных куда, в каком формате. и .т.д....?

В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper.
Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо).
Можно заказать у специалистов.....

Все зависит от условий задачи....

Алеандр #:
У всех сайтов разный HTML.

Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.

Парсер цен - стоит ли делать?

17 сентября 2020, 17:32

Disson :
Парсер цен конкурентов - стоит ли делать? Есть у кого то опыт написания такого?

Просто парсер цен - смысла особого нет.
Если сбор данных для аналитики - вполне.... Я над этим последние 5 лет работаю.

Дзен реализовал для авторов возможность вывода денег через СПБ

Переиграть и победить: как анализировать конкурентов для продвижения сайта

drDaemon