Что с этим ботом googleweblight делать?

12
vga1
На сайте с 18.02.2007
Offline
226
4267

В последнее время массово идут запросы от google proxy из их подсети c юзерагентом:

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Используется сервис так: https://googleweblight.com/?lite_url=https://www.site.com

Не понимаю, или это реально индусы используют этот сервис для ускорения загрузки страниц или кто-то сайт целиком парсит.

Как понять?

Хочется заблочить эту дыру для парсинга сайта от имени гугла.

Mik Foxi
На сайте с 02.03.2011
Offline
892
#1

Блокируй. Никаких негативных последствий от блокировки не будет, проверено.

Антибот защита для сайта https://antibot.cloud/#searchengines - защита от спама, взлома и поиска xss, от хит и клик ботов, от парсинга и кражи контента, снижает нагрузку на сервер. | Защита яндекс метрики от ботов: https://wmsn.biz/m.php?p=144236
Оптимизайка
На сайте с 11.03.2012
Offline
396
#2
vga1:
Не понимаю, или это реально индусы используют этот сервис для ускорения загрузки страниц или кто-то сайт целиком парсит. Как понять?

https://support.google.com/webmasters/answer/6211428?hl=ru

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
vga1
На сайте с 18.02.2007
Offline
226
#3

Если правильно понял, надо в http header добавить

Cache-Control: no-transform ,чтобы небыло нового запроса через proxy,

а сами запросы от google-proxy блокировать?

Оптимизайка
На сайте с 11.03.2012
Offline
396
#4
vga1:
Если правильно понял, надо в http header добавить
Cache-Control: no-transform ,чтобы небыло нового запроса через proxy,
а сами запросы от google-proxy блокировать?

Насколько я понял, этот http заголовок лишь сообщит гуглу, что не нужно "мобилизировать" проксируемую страницу. Несмотря на то, что этот юзер агент у меня заблокирован, страница все равно отображается (видимо подтягивает из гуглокэша), но для парсинга уже неприемлемо, т.к. там нет текста, а какой то javascript только. Поэтому вполне можно блокировать по юзерагенту ("googleweblight").

neoks
На сайте с 17.03.2010
Offline
143
#5

Этот бот так-же используется в новых версиях мобильного браузера google, а именно в режиме "Экономия трафика".

Новая версия просит включить режим "Экономия трафика" при каждом открытии браузере.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#6
neoks:
Этот бот так-же используется в новых версиях мобильного браузера google, а именно в режиме "Экономия трафика"

Включил на хроме на андроиде режим экономии трафика, юзер агент оригинальный, "Mozilla/5.0 (Linux; Android 7.0; SM-A320F Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.109 Mobile Safari/537.36", айпишник гугловский, 66.249.93.46.

Не вижу "googleweblight"

neoks
На сайте с 17.03.2010
Offline
143
#7

Оптимизайка, Вы правы, на новом телефоне такой пометки действительно нету, но вот на старом телефоне она есть "Mozilla/5.0 (Linux; Android 4.4.2; GT-N7100 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko; googleweblight) Chrome/64.0.3282.137 Mobile Safari/537.36", причем на https используется обычный user-agent.

vga1
На сайте с 18.02.2007
Offline
226
#8

Провел эксперимент, при запрете по user-agent (точнее проверяю IP по обратной зоне наличие маски вида google-proxy-66-102-8-62.google.com.) проседает трафик.

Если только выставить в http хидере "Cache-Control: no-transform", просадки нет. Ну и парсить по url https://googleweblight.com/?lite_url=https://xxx не дает, ошибка: "Transcoding test failed:

This page has opted out of transcoding."

ЗЫ: host 66.249.93.46

46.93.249.66.in-addr.arpa domain name pointer google-proxy-66-249-93-46.google.com.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#9
neoks:
причем на https используется обычный user-agent.

А в доке и пишут, что если https, то никакого "сжатия" трафика не происходит. Т.е. если есть "googleweblight" и у вас сайт на https, то это явный фейк.

vga1
На сайте с 18.02.2007
Offline
226
#10

Вроде новость по этой же теме: Google запретил использовать свою сеть в качестве прокси

/ru/news/1636436

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий