Cloudflare лег?

M3
На сайте с 09.02.2022
Offline
120
#1281
пора блокировать CF у себя)
Cloudflare выпустила в открытую бету эндпоинт /crawl для сервиса Browser Rendering, позволяющий сканировать целые веб-сайты одним API-вызовом. Инструмент автоматически обходит страницы, поддерживает форматы HTML, Markdown и JSON, а также соблюдает robots.txt и карты сайта. Подробнее читайте в Cloudflare Developers. 
https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/
Crawl entire websites with a single API call using Browser Rendering
Crawl entire websites with a single API call using Browser Rendering
  • 2026.03.10
  • developers.cloudflare.com
You can now crawl an entire website with a single API call using Browser Rendering's new endpoint, available in open beta. Submit a starting URL, and pages are automatically discovered, rendered in a headless browser, and returned in multiple formats, including HTML, Markdown, and structured JSON. This is great for training models, building RAG...
S3
На сайте с 29.03.2012
Offline
373
#1282
master32 #:
Cloudflare выпустила в открытую бету эндпоинт /crawl
неплохо, можно попробовать. Может и playwright  будет не нужен. Как я понял он даже на бесплатном акке доступен?
TB
На сайте с 16.01.2009
Offline
274
#1283
А защита от этой приблуды такая?

if ($http_user_agent ~* "Headless") {
        return 403;
    }

или

if ($http_user_agent ~* "HeadlessChrome") {
        return 403;
    }

?

M3
На сайте с 09.02.2022
Offline
120
#1284
Sly32 #:
неплохо, можно попробовать. Может и playwright  будет не нужен. Как я понял он даже на бесплатном акке доступен?
да, еще не тыкал, новость в ленте прилетела)

TonyBlackberry #:
А защита от этой приблуды такая?
а защиту дает CF, на платном акке)
TB
На сайте с 16.01.2009
Offline
274
#1285
master32 #:

а защиту дает CF, на платном акке)
ну он там пишет "rendered in a headless browser". т.е. в логах увидим HeadlessChrome или что-то другое?
S3
На сайте с 29.03.2012
Offline
373
#1286
TonyBlackberry #:
ну он там пишет "rendered in a headless browser". т.е. в логах увидим HeadlessChrome или что-то другое?
как минимум в  Playwright Stealth я могу скрыть реального юзерагента и ходить под видом обычного пользователя. Плюсом есть и еще методы прикинуться живым пользователем. Возможно  CF скрапер тоже это умеет, не проверял, правда
M3
На сайте с 09.02.2022
Offline
120
#1287
TonyBlackberry #:
ну он там пишет "rendered in a headless browser". т.е. в логах увидим HeadlessChrome или что-то другое?
172.69.22.72    [-][US][-][US][San Jose][13335:CloudFlare Inc] - [11/Mar/2026:14:32:02 +0000] [host] 404 "637cb0c2f13616f64579488771957950|-" "GET /sitemap.xml HTTP/1.1" "-" "CloudflareBrowserRenderingCrawler/1.0"
172.71.159.74   [-][US][-][US][San Jose][13335:CloudFlare Inc] - [11/Mar/2026:14:32:01 +0000] [host] 404 "5d2e36f383e4fadd0abb95e31bec4893|-" "GET /robots.txt HTTP/1.1" "-" "CloudflareBrowserRenderingCrawler/1.0"
172.71.155.26   [-][US][-][US][San Jose][13335:CloudFlare Inc] - [11/Mar/2026:14:31:59 +0000] [host] 200 "bfff50d73c1494e81c1f6c26eb237a66|-" "HEAD / HTTP/1.1" "-" "-"

TB
На сайте с 16.01.2009
Offline
274
#1288
Спасибо большое!  Добавил CloudflareBrowserRenderingCrawler  в блок
M3
На сайте с 09.02.2022
Offline
120
#1289
TonyBlackberry #:
Спасибо большое!  Добавил CloudflareBrowserRenderingCrawler  в блок
там любой UA можно поставить, блокай по ASN, хотя к CF можно свой VNC подрубить и ходить через своего прова)
WS
На сайте с 01.11.2008
Offline
164
#1290
на плохую тропу они встали, раз этого бота выпускают с той же сети, что и свои прокси, за инфу спасибо

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий