Как заблокировать фейковых google роботов?

N1
На сайте с 16.07.2021
Offline
18
657
Добрый день! Нашел вот такой кусок кода для блокировки фейковых гугл-ботов, но, к сожалению блокирует, также с IP адресов, начинающихся c 66.249.
Товарищи, не могли бы подсказать где может быть ошибка в коде? И вообще насколько он валиден?

# Validate Googlebots

RewriteCond %{HTTP_USER_AGENT} ^Mozilla/5\.0\ \(compatible;\ Googlebot/2\.[01];\ \+http://www\.google\.com/bot\.html\)$

RewriteCond %{HTTP:Accept} ^\*/\*$ RewriteCond %{HTTP:Accept-Encoding} ="gzip,deflate"

RewriteCond %{HTTP:Accept-Language} =""

RewriteCond %{HTTP:Accept-Charset} =""

RewriteCond %{HTTP:From} ="googlebot(at)googlebot.com"

RewriteCond %{REMOTE_ADDR} ^66\.249\.(6[4-9]|7[0-9]|8[0-46-9]|9[0-5])\. [OR]

RewriteCond %{REMOTE_ADDR} ^216\.239\.(3[2-9]|[45][0-9]|6[0-3])\.0

# Optional reverse-DNS-lookup replacement for IP-address check lines above

# RewriteCond %{REMOTE_HOST} ^crawl(-([1-9][0-9]?|1[0-9]{2}|2[0-4][0-9]|25[0-5])){4}\.googlebot\.com$ RewriteRule ^ - [S=1]

RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]

RewriteRule ^ - [F]



nimag
На сайте с 02.02.2007
Offline
146
#1


Почему они фейковые?

ps: проглядел контекст. сори.

Выгодная партнерка по мягкой мебели (5%). МСК, СПБ. https://msk.imeex.ru/partnerskaya-programma-dlya-vebmasterov/
N1
На сайте с 16.07.2021
Offline
18
#2
nimag #:


Почему они фейковые?


66.249.66.9 - - [04/Dec/2023:16:13:05 +0300] "GET / HTTP/1.0" 200 10609 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +www.google.com/bot.html)" - настоящий гугл бот
176.62.72.69 - - [04/Dec/2023:16:26:16 +0300] "GET / HTTP/1.0" 200 49181 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +www.google.com/bot.html)" - фейковый 

109.195.153.68 - - [04/Dec/2023:10:31:46 +0300] "GET / HTTP/1.0" 200199 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.6045.123 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"   - фейковый 

Такого рода фейковых ботов с ip адресами, которые отличаются от 66.249. хотелось бы заблокировать....

Сведения о роботе Googlebot | Центр Google Поиска  |  Документация  |  Google for Developers
Сведения о роботе Googlebot | Центр Google Поиска  |  Документация  |  Google for Developers
  • developers.google.com
Определить, какой именно робот посещал страницу, можно по строке агента пользователя в запросе. Обратите внимание, что оба робота соответствуют одному и тому же токену агента пользователя (токену робота Google), поэтому в файле robots.txt для них невозможно задать разные правила. При обработке большинства сайтов Google в первую очередь...
N1
На сайте с 16.07.2021
Offline
18
#3
Всем спасибо, проблема решена.
Антоний Казанский
На сайте с 12.04.2007
Offline
618
#4
nick1403 #:
Всем спасибо, проблема решена.

Как решили? Прямым запретом конкретных IP?

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
qilly
На сайте с 28.03.2008
Offline
382
#5
Антоний Казанский #:

Как решили? Прямым запретом конкретных IP?

Тоже интересно.

qilly
На сайте с 28.03.2008
Offline
382
#6

А может сталкивался кто с такой ситуацией? Или посоветовать что? Есть большой сайт, у которого периодически возникают проблемы после резервного копирования в виде 502 ошибки. Хостер пишет, что идёт ддос-атака (200-350 запросов в секунду типа). Типа маскируются под гуглботов в том числе. 

Такое ощущение, что при резервном копировании диска, сайт начинает тормозить и копятся какие-то запросы в большом кол-ве. 

Потом всё резко проходит (через несколько часов) и сайт летает... до следующего бекапа.

Сайт на дедике, если что. 

AD
На сайте с 05.05.2007
Offline
240
#7
nick1403 #:
Всем спасибо, проблема решена.
не верю. Может в настройках сервера что-то прописали или пачкой плохие ip в бан, но не через htaccess
N1
На сайте с 16.07.2021
Offline
18
#8
Антоний Казанский #:

Как решили? Прямым запретом конкретных IP?

Опытным методом подобрали,и  также ребята с хабра помогли:

<IfModule mod_rewrite.c> 

RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]

RewriteCond %{REMOTE_ADDR} !^66\.249\.(6[4-9]|7[0-9]|8[0-46-9]|9[0-5])\.

RewriteCond %{REMOTE_ADDR} !^216\.239\.(3[2-9]|[45][0-9]|6[0-3])\.0

RewriteRule ^ - [F]

</IfModule>

Все работает на ура.

N1
На сайте с 16.07.2021
Offline
18
#9
ArmenDomain #:
не верю. Может в настройках сервера что-то прописали или пачкой плохие ip в бан, но не через htaccess

Не поверите, директива  REMOTE_ADDR прекрасно отрабатывает. Кстати по данному логическому шаблону можно банить любых фейков.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий