master32

Рейтинг
124
Регистрация
09.02.2022
Sly32 #:
как меня роботс остановит если я пойду скрапить через апишку CF? 🤣
конкретно /crawl для сервиса Browser Rendering учитывает роботс и будет соблюдать правила)

WebStorm #:

значит вот такое решение для тех сайтов, которые юзают cloudflare cdn и не хотят, чтобы их дёргала всякая школота через прокси из сети клауда я придумал:

1 - настраиваем передачу уникального заголовка в настройках cdn, который будет передавать cloudflare защищаемому сайту

(rules - > overview -> createrule->request header transform rule->all incoming requests->set static header)

2 - если пришли из сети cloudflare и нет этого уникального заголовка, показываем 403

не благодарите

называется из пушки по воробьям)
достаточно в роботс.тхт прописать запрет для CF и он не будет ходить
но ты переоцениваешь угрозу (которой нет), на фоне тысяч нонейм ботов)
а есть какой-то мессенджер (не МАХ), куда можно загружать большие файлы по 4ГБ и они бы там хранились хотя бы месяц?
в МАХ грузится, но хотелось бы бесплатный резерв под бекапы)
Kykapa4a #:

Выкладываем свои результаты.


Окау


обнова в личном, чекайте)
Ваш квартальный отчёт
Подготовили для вас отчёт по вашим топовым площадкам за четвёртый квартал 2025 года. Анализируйте эффективность монетизации, сравнивайте свои результаты с похожими площадками и находите новые возможности для роста через наши персональные рекомендации.

TonyBlackberry #:
Спасибо большое!  Добавил CloudflareBrowserRenderingCrawler  в блок
там любой UA можно поставить, блокай по ASN, хотя к CF можно свой VNC подрубить и ходить через своего прова)
TonyBlackberry #:
ну он там пишет "rendered in a headless browser". т.е. в логах увидим HeadlessChrome или что-то другое?
172.69.22.72    [-][US][-][US][San Jose][13335:CloudFlare Inc] - [11/Mar/2026:14:32:02 +0000] [host] 404 "637cb0c2f13616f64579488771957950|-" "GET /sitemap.xml HTTP/1.1" "-" "CloudflareBrowserRenderingCrawler/1.0"
172.71.159.74   [-][US][-][US][San Jose][13335:CloudFlare Inc] - [11/Mar/2026:14:32:01 +0000] [host] 404 "5d2e36f383e4fadd0abb95e31bec4893|-" "GET /robots.txt HTTP/1.1" "-" "CloudflareBrowserRenderingCrawler/1.0"
172.71.155.26   [-][US][-][US][San Jose][13335:CloudFlare Inc] - [11/Mar/2026:14:31:59 +0000] [host] 200 "bfff50d73c1494e81c1f6c26eb237a66|-" "HEAD / HTTP/1.1" "-" "-"

Sly32 #:
неплохо, можно попробовать. Может и playwright  будет не нужен. Как я понял он даже на бесплатном акке доступен?
да, еще не тыкал, новость в ленте прилетела)

TonyBlackberry #:
А защита от этой приблуды такая?
а защиту дает CF, на платном акке)
пора блокировать CF у себя)
Cloudflare выпустила в открытую бету эндпоинт /crawl для сервиса Browser Rendering, позволяющий сканировать целые веб-сайты одним API-вызовом. Инструмент автоматически обходит страницы, поддерживает форматы HTML, Markdown и JSON, а также соблюдает robots.txt и карты сайта. Подробнее читайте в Cloudflare Developers. 
https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/
Sly32 #:
вот конкретно Claude-4.6 сегодня с докером
возможно там не совсем Claude-4.6, а задистиллированная  или пониженная модель)
я такое наблюдаю со времен гпт-3.5, в периоде работает правильно, а затем начинает косячить)

Всего: 1923