Что делать с gpt-ботами?

12
S6
На сайте с 11.01.2026
Offline
0
226

С весны 2025 года на моем сайте начался рост количества гпт-ботов


сейчас ситуация с этими ботами настолько стала плоха, что имеем такую статистику:

Количество людей посетителей в среднем 6000 в сутки, поисковые боты - примерно 5000 хостов, остальные боты (я их причисляю к сборщикам инфы для языковых моделей ) - еще примерно 40000

итого на каждого реального пользователя приходится 10 ботов, при этом что интересно из 40 000 ботов примерно 7000-8000 крутят счетчики, то есть выаполняют джаваскрипт, остальные headless


пока сервер справляется, но думаю ситуация будет только ухудшаться

пришлось пока через хтаксесс закрыть самые спамящие страны - бразилию, сингапур, вьетнам, индию

домен сайта в международной зоне, возраст 20 лет, поэтому видимо во всех базах он есть

Я так понимаю у всех такая ситуация

TB
На сайте с 16.01.2009
Offline
263
#1
Бороться с ботами чтобы что? Поставьте перед собой задачу и вы сами ответите на свой вопрос.
S6
На сайте с 11.01.2026
Offline
0
#2
TonyBlackberry #:
Бороться с ботами чтобы что? Поставьте перед собой задачу и вы сами ответите на свой вопрос.

нагрузку создают паразитную. в пике доходит до 300 гет запросов в секунду


клаудфларе бесплатный в рф не работает (заблочен РКН)Э, рф-аналоги гумно за оверпрайс

TB
На сайте с 16.01.2009
Offline
263
#3
sav6756 #:

нагрузку создают паразитную. в пике доходит до 300 гет запросов в секунду


клаудфларе бесплатный в рф не работает (заблочен РКН)Э, рф-аналоги гумно за оверпрайс

Большинство на этом форуме блокирует ботов по иной причине. За ботов выкидывают из РСЯ, а также боты могут отрицательно влиять на позиции сайта в поисковых системах.

WS
На сайте с 01.11.2008
Online
161
#4
sav6756 #:

нагрузку создают паразитную. в пике доходит до 300 гет запросов в секунду


клаудфларе бесплатный в рф не работает (заблочен РКН)Э, рф-аналоги гумно за оверпрайс

большинство AI ботов передают специфического юзер агента, по нему и задавайте блокировки, тут уже десятки раз поднимались такие вопросы, есть куча примеров для nginx, apache
S6
На сайте с 11.01.2026
Offline
0
#5
WebStorm #:
большинство AI ботов передают специфического юзер агента, по нему и задавайте блокировки, тут уже десятки раз поднимались такие вопросы, есть куча примеров для nginx, apache

95% из них ничего не передают


вот пример


220.181.51.92
CN, Beijing
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Saf
TB
На сайте с 16.01.2009
Offline
263
#6
sav6756 #:

95% из них ничего не передают


вот пример


220.181.51.92
CN, Beijing
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Saf

Так это и не ai бот. 

WS
На сайте с 01.11.2008
Online
161
#7
sav6756 #:

95% из них ничего не передают


вот пример


220.181.51.92
CN, Beijing
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Saf

тогда это не gpt боты, это китайские ддосеры, я от таких по огромному списку с cidr подсетками защищаюсь, если у вас обычный хостинг, то будет проблематично, тк список реально большой, апач может из-за этого подтормаживать, если сервер, то проблем нет, добавляете в фаерволл и всё, могу поделиться списком cidr если надо, через личку

ps - бразилия - это взломанные зомби, реальные зловреды управляют ими из китая, сталкивался на прошлой неделе с таким

S6
На сайте с 11.01.2026
Offline
0
#8

это не ддосеры, они последовательно перебирают страницы, собирают контент

просто частные аи парсеры

у меня таких 40000 в сутки, в особые дни аж до 200 000 уникальых хостов доходило


какой экономический смысл ддосить сайт, если он  работает при таком полу-ддосе?

WS
На сайте с 01.11.2008
Online
161
#9

какой экономический смысл ддосить сайт, если он  работает при таком полу-ддосе?

это первый этап, второй будет, когда они навалятся одновременно
Genius Ideaing
На сайте с 12.02.2024
Offline
100
#10
sav6756 :

на моем сайте начался рост количества гпт-ботов

всех поисковых роботов, краулеров, seo-чекеров, AI-ботов, которых обнаруживаю через access_log того или иного сайта, отправляю по 301 ошибке через .htaccess на пустую страницу запрещенную к индексации в robots.txt


RewriteCond %{HTTP_USER_AGENT} SERankingBacklinksBot|UrlBeeBot|Arquivo-web-crawler|NovaviaBot|Amazonbot|serpstatbot|coccocbot-web|Turnitin|GigaExplorator|Applebot|Turnitin|Baiduspider|Discordbot|BLEXBot|l9scan|aiohttp|Telegram|WhatsApp|Exabot|Google%20AdWords%20Robot|Chrome%20Privacy%20Preserving%20Prefetch%20Proxy|Buck|scalaj-http|Google-Apps-Script|Thinkbot|Linkfluence%20Yak%20Bot|IAS%20Crawler|Coccocbot|netEstate%20NE%20Crawler|Flyriverbot|AwarioBot|CMS-Checker|Apache-HttpClient|WebartexBot|PerplexityBot|Perplexity-User|Fuzz%20Faster%20U%20Fool|vkShare|Fast-Webcrawler|SeznamBot|VelenPublicWebCrawler|ALittle|InternetMeasurement|Hogwarts|PubMatic%20Crawler%20Bot|Go-http-client|SeopultContentAnalyzer|Mediatoolkitbot|OI-Crawler|Baidu|CensysInspect|WebMeUp|Apple%20Web%20Crawler|Slackbot|Slack-ImgProxy|Linkfluence|Yetibot|DataForSeoBot|DataForSeoBot|ByteDance|GPTBot|bidswitchbot|ChatGPT|OAI-SearchBot|keys-so-bot|ClaudeBot|DotBot|MJ12bot|LinkCheckerBot|TikTokSpider|Amazon|GetIntent|SemrushBot|Twitterbot|PetalBot|VKRobotRB|FaceBook|BrightEdge|Gaislab|AhrefsBot|Archive [NC]

RewriteRule ^(.*)$ https://XXXXXXXXXXXXX.ru/404/404.html [R=301,L]


одновременно прошу вежливо в robots.txt не индексировать весь сайт ИИ-ботов, seo-чекеров и т.д.

User-Agent: NovaviaBot

Disallow: /


User-Agent: GPTBot

Disallow: /


User-Agent: Applebot

Disallow: /


User-Agent: OAI-SearchBot

Disallow: /


User-Agent: PetalBot

Disallow: /


User-Agent: Baiduspider

Disallow: /


User-Agent: ClaudeBot

Disallow: /


User-Agent: Amazonbot

Disallow: /


User-Agent: serpstatbot

Disallow: /


User-Agent: keys-so-bot

Disallow: /


User-Agent: Arquivo-web-crawler

Disallow: /


как то так..

Дешёвый хостинг и домены: https://clck.ru/3FxXCa / Мощный хостинг: https://clck.ru/3DKmVu / Есть Идеи! Ищу хороших людей для совместного воплощения этих идей в мире Интернета! Мой Telegram: https://clck.ru/396JFF
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий