Запрет на обход и обучение нейронками вашего сайта

123
Shelton724
На сайте с 26.05.2011
Offline
263
#11
softerra #:
В роботсе нельзя, а в .хтаксессе можно.

Если кто-то упорно лезет, не смотря на рекомендацию не лезть в роботс, что ему помешает не представляться в заголовках должным образом и заходить с совершенно разных адресов?

G6
На сайте с 12.07.2007
Offline
170
#12
Shelton724 #:
должным образом и заходить с совершенно разных адресов?

С большой вероятность это будут прямые запросы. В зависимости от сайта, отправлять все прямые на проверку (капча от сервисов или что-то свое) или другой вариант...

softerra
На сайте с 02.10.2023
Offline
50
#13
Shelton724 #:

Если кто-то упорно лезет, не смотря на рекомендацию не лезть в роботс, что ему помешает не представляться в заголовках должным образом и заходить с совершенно разных адресов?

Боты вроде представляются.
Такая пропись закрывает им дверь.

# Full Fledged htaccess Blacklist from Web warrior
RewriteEngine on
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} almaden [OR]
RewriteCond %{HTTP_USER_AGENT} ^Anarchie [OR]
RewriteCond %{HTTP_USER_AGENT} ^ASPSeek [OR]

И тд

Uncle 301
На сайте с 23.04.2024
Offline
15
#14
Steve Rambo #:
И давно директива в роботсе стала правилом? Это рекомендация. От того, что вы в роботсе что-то запретите, ничего не изменится.

Это зависит от того, что за бот прибегает. Есть много всяких маркетинговых контор, они, как правило, на своих сайтах пишут, выполняют или не выполняют их роботы то, что описано в robots.txt. Если они говорят, что принимают во внимание эти правила из robots.txt — значит так оно и есть. Это по логам можно отследить. Если видите, что бот ломится сначала в robots.txt — он же не просто так это делает. Но некоторые боты сразу идут гулять по сайту.

В любом случае, они сегодня принимают во внимание, завтра могут перестать, так что единственная возможность действительно блокнуть — сразу на уровне сервера прямо на пороге этих ботов разворачивать. Другой вопрос — зачем это делать, потому что контент у вас всё равно своруют, если потребуется.

Модерация, которую мы заслужили https://ibb.co/L57tHRS 👍 👍 👍
G6
На сайте с 12.07.2007
Offline
170
#15
Uncle 301 #:
Другой вопрос — зачем это делать, потому что контент у вас всё равно своруют, если потребуется.

Например не так давно один из таких ботов стукнул на один сайтик более 100к раз за сутки. Просто заранее озаботиться возможной нагрузкой и заблочить.

M
На сайте с 17.06.2021
Offline
78
#16

Shelton724 #:

Если кто-то упорно лезет, не смотря на рекомендацию не лезть в роботс, что ему помешает не представляться в заголовках должным образом и заходить с совершенно разных адресов?

ничего не помешает, но я же написал ранее, что если чатгпт будет дальше собирать инфу с сайтов которые запретили это делать, будут суды, или вы думаете они вывезут иски от топ медиа ресурсов?

1. The New York Times стала первой крупной американской медиакомпанией, которая подала в суд на создателей чат-ботов. Ранее Getty Images обвинила одну из ИИ-компаний в использовании ее визуальных материалов для создания собственных изображений.
2. https://forklog.com/news/ai/amerikanskie-gazety-podali-v-sud-na-openai-i-microsoft-iz-za-narusheniya-avtorskih-prav-pri-obuchenii-ii
в форклоге очень интересные кейсы описаны


инфа из тележных каналов:
Ходят слухи, что OpenAI анонсирует новую поисковую систему 9 мая 2024 года.
https://mspoweruser.com/microsoft-backed-openai-might-unveil-its-search-engine-on-may-9th/

Газеты подали в суд на OpenAI и Microsoft из-за обучения ИИ
  • 2024.05.01
  • forklog.com
Восемь ежедневных газет, принадлежащих компании Alden Global Capital, подали в суд на OpenAI и Microsoft из-за якобы незаконного использования их статей для обучения языковых моделей. Техгигантов обвинили в задействовании миллионов статей для обучения генеративных ИИ-продуктов, включая ChatGPT и Copilot. Издания утверждают, что не давали своего...
Bybit крипто биржа https://partner.bybit.com/b/58507 /// Зарубежные VPS с оплатой РФ картами https://aeza.net/?ref=416422 (+15% к пополнению) //// Обучаем нейронки на сайте https://f4ck41.fun/
V
На сайте с 17.11.2010
Offline
247
#17

Все в порядке, РКН нас услышал https://www.kommersant.ru/doc/6679719

Иностранному боту - дорога в РФ - заказана.

Роскомнадзор рекомендовал хостинг-провайдерам ограничить сбор информации с российских ресурсов иностранными ботами, в том числе компаний Google, OpenAI и Apple. В ближайшее время провайдеры должны провести анализ рисков на своих сетях и в случае обнаружения применить правила блокировки. Эксперты считают, что со временем рекомендации могут стать обязательными, что приведет к росту конкуренции за трафик.

Правка есть один косяк, ИМХО, кто надеялся на траф от Гугла, можно переставать, ибо его ботов тоже сказали  в блок.

Бот не пройдет
Бот не пройдет
  • 2024.05.01
  • www.kommersant.ru
Роскомнадзор рекомендовал хостинг-провайдерам ограничить сбор информации с российских ресурсов иностранными ботами, в том числе компаний Google, OpenAI и Apple. В ближайшее время провайдеры должны провести анализ рисков на своих сетях и в случае обнаружения применить правила блокировки. Эксперты считают, что со временем рекомендации могут стать...
M
На сайте с 17.06.2021
Offline
78
#18
Vladimirus #:
В ближайшее время провайдеры

потеряют бОльшую часть клиентов)))

V
На сайте с 17.11.2010
Offline
247
#19
makepuff #:
потеряют бОльшую часть клиентов)))

После 2022 года об этом думают в последнюю очередь. Да, и пока это рекомендация. Но и ее будут исполнять, мал по малу.

Если все это реализуют и гугл не примет меры, то он просто вылетит, с рынка. А все кто захочет получать траф из РФ, должны будут работать с Яндексом. С одой сторы это справедливо нам то траф из других стран не дают.

M
На сайте с 17.06.2021
Offline
78
#20
Vladimirus #:
С одой сторы это справедливо нам то траф из других стран не дают.

кто тебе не дает траф из других стран? у меня мозг ломается от таких сообщений
сайт на ру языке, все кто хочет - заходит из любой страны... но тебе кто-то что-то не дает



123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий