В письме РКН на блокировку есть краулер Google-Extended, который невозможно заблокировать по user-agent или ip-адресам без блокировки других ботов - Google

216

htexture

5 мая 2024, 19:57

#111

Vladimirus #:
Вот этими тисками в Россию выдавило один их первых Cybertruck

Санкции не про невозможность, а про сложности. Вы другое представление о санкциях имеете.

2

50

tripsik

7 мая 2024, 23:17

#112

Валентина #:
Бред всё это конечно… Но если вдруг даже… Думаю, такие крупные хостинги, как Timeweb, придумают, что с этим делать… Ну, например, сделают что-то типа копии Таймвеба, которая будет располагаться полностью за границей (и сервера все не наши естественно будут) и перенесут туда по нашему согласию наши сайты… как вариант =)

не теште себя бредовыми надеждами

этот таймвеб до сир пор не может отправку почты на протон сделать и блочит коннекты с ресурсами из реестра ркн

поддержка шлет лесом типа такой закон запрет от ркн и типа не их проблема

когда ркн внесет гугл в реестр хостеры у которых есть юрлица рф не будут нарушать закон рф и будут его блочить

если нужен траф от гугла и других нероссийских поисковиков то хостинги домены из рф нужно срочно переносить

“Ъ” ознакомился с письмом, направленным Центром управления связью общего пользования (ЦМУ ССОП) Роскомнадзора компаниям из реестра провайдеров хостинга в конце апреля. Письмо содержит рекомендации по настройке ограничений доступа поисковых ботов к информации на российских сайтах. Собеседник “Ъ” на рынке интернет-провайдеров объясняет, что речь идет об иностранных ботах, в том числе поисковых сервисов Google (Googlebot) или GPTBot компании OpenAI, Apple Bot компании Apple и др.

пока это рекоммендация но скоро станет обязательной и ркн всех российских хостеров легко заставит ее исполнять

хотят изолировать рунет от мирового интернета и иностранных поисковиков. все потому что отжали яндекс и хотят сделать его монополистом

Хостерам вопрос на засыпку Ужесточение ответственности за нарушения Роскомнадзор начнет вести реестр

109

Анти ДДОС

8 мая 2024, 00:08

#113

tripsik #:
пока это рекоммендация но скоро станет обязательной и ркн всех российских хостеров легко заставит ее исполнять

Это не рекомендация. Это выдернутое журналистами ради хайпа мнение какого-то собеседника о том, что в списке ботов есть ИИ бот Гугла. О блокировке поисковых ботов Гугла там и рядом не стояло. Мнение собеседника основано на том, что в этом эксперименте Гугла пока что нет возможности как-то отключить этого бота, и в целом запрет на его использование в роботс ни разу не приводит к тому, что поисковик перестает использовать контент сайта для обучения своего ИИ.

А сам список - это список ботов какого-то чувака из ЮАР с Гитхаб.

Развели флуда на 12 страниц.

Токен Google-Extended для файла robots.txt указывает сканерам Google включить сайт в поиск, но не разрешает использовать сайт для обучения системам ИИ, подобным тем, которые лежат в основе чат-бота Bard и Vertex AI, в том числе и для будущих поколений ИИ-моделей компании.

Защита сайта от ботов, настройка Cloudflare, поведенческие факторы, АнтиБот, DDoS - https://antiddos24.ru

Google позволил защитить свой Директива Google-Extended не работает Google дополнил Bard списком

50

tripsik

8 мая 2024, 00:59

#114

когда в 12 году создали реестр ркн. по всем форумам тоже примебали проплаченные комментаторы которые успокаивали людей что блокировать будут только информацию о наркотиках и способах самоубийств чтобы оградить детей и ничего кроме.

а теперь заблокировано сайтов полинтернета. больше чем в китае, иранеб судане и саудовской аравии вместе взятых. хуже только в туркменистане и северной корее.

в письме написано о блокировке иностранных поисковых ботов. никаких исключений для бота гугла там нет. не надо врать.

2

Роскомнадзор заблокировал 130к IP Как вам такой метод Роскомнадзор внес меня в

71

sartiqus

8 мая 2024, 02:19

#115

В списке РКН на блокировку, который из письма разосланного Центром управления связью общего пользования Роскомнадзора российским хостерам, есть краулер Google-Extended. Его невозможно заблокировать по user-agent или ip-адресам без блокировки других ботов гугла, т.к. он ходит с юзер-агентом стандартного краулера и с тех же ip-адресов. Точнее это один и тот же краулер!
Если заблокируют его по юзер-агенту или по подсетям гугла то заблокируют и индексацию сайта. Может быть росхостеры дополнительно реализуют подмену указанного клиентами robots.txt, но о таком методе в письме не упоминается да и сложно это, прозе все заблокировать на более высоком уровне. Заодно и редомицилированный Яндекс полностью избиватся от конкурента в лице Гугла. Не исключено что ради этого все и затеяли.

Google-Extended doesn't have a separate HTTP request user agent string. Crawling is done with existing Google user agent strings; the robots.txt user-agent token is used in a control capacity.

https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

Да и обоснование необходимости этого в стиле "чтобы данные о российских сайтах не утекали во вражеские страны" как бы намекает что никто не будет разбираться в таких тонкостях и заблокируют все что можно заблокировать. Это очень даже в русле "Суверенного Чебурнета" закон о котором принят уже давно.

Самое печальное, что реально вредоносные боты ходят под юзер-агентами легитимных браузеров и заблокировать их таким способом не получится. Да и по ip-адресам стоящих за ними компаний тоже.

Поэтому во второе обоснование "Ограничение доступа иностранных ботов к российским сайтам, согласно пояснению из письма ЦМУ ССОП, необходимо для исключения сбора данных о критических уязвимостях российских ресурсов, индексировании данных россиян и анализа собранной информации" может поверить только обыватель без мозга.

Условные боты ЦРУ и Госдепа (которые поимимо поиска уязвимостей спят и видят как бы спарсить драгоценные знания из Дзена, Пикабу и Ответов Мэйл.Ру) вряд ли будут это делать под юзер-агентами "CIA-crawler" и "gosdep-bot" из подсетей дата-центра АНБ.

Не исключено, что цель нововведения не только в дальнейшей изоляции Рунета, а хотят зачистить рынок ГосЯндексу от конкурентов, чтобы ухудшить им качество поиска.

1

Google Crawler (User Agent) Overview | Google Search Central | Documentation | Google for Developers

developers.google.com

Google uses crawlers and fetchers to perform actions for its products, either automatically or triggered by user request. "Crawler" (sometimes also called a "robot" or "spider") is a generic term for any program that is used to automatically discover and scan websites by following links from one web page to another. Google's main crawler used...

В каком поисковике начать Роскомнадзор внес меня в Запросы от Яндекса со

590

Vladimir

8 мая 2024, 05:31

#116

alikchan :

Ограничение доступа необходимо, чтобы иностранные компании не смогли собирать данные о критических уязвимостях российских ресурсов.

Предложение школоты который не знаком с инетом.
Так трудно всем перечисленным поменять, дополнить IP?
Чтобы это выполнить, необходимо забанить весь буржунет.
Вывод: Те кто перенесет хостинг ( есть уже перенесли🤣) будут забанены

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )

Забанят или нет? Google. Продвижение русскоязычной странички Бан по IP существует

37

complex200

23 мая 2024, 18:25

#117

Поздравляю! Началось...
Хостинг hoster.ru и hts.ru (технически ОДНА организация см. контакты)
Замена ваших файлов robots.txt на "правильные" при обращении поискового бота Google

В "правильных" файлах robots.txt теперь запрет всего сайта для индексации:

Вот что видит Google бот вместо родного файла на хостинге:

User-Agent: Yandex
Disallow: /
Host: www.hts.ru

User-Agent: Googlebot
Disallow: /

User-Agent: *
Disallow: /

Сайты быстро накапливаю ошибки индексации в Google Search Console///
Усердные админы и в Яндексе сайт до кучи забанили 😊, чтоб Google боту не обидно было

Google сам подставляет ошибочный из-за чего выпала главная? Файл robots.txt как правильно

216

htexture

23 мая 2024, 18:34

#118

complex200 #:
Host: www.hts.ru

А с чего взяли что это на хостинге у сайтов, возможно только хостинг такое захотел сделать себе? Или на сайтах тоже самое?

P1

153

puma1

23 мая 2024, 18:36

#119

htexture #:
А с чего взяли что это на хостинге у сайтов, возможно только хостинг такое захотел сделать себе? Или на сайтах тоже самое?

Вот, уже тема есть: https://searchengines.guru/ru/forum/1098825

1

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Наши сайты перестанут индексироваться Гуглом?