- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В последнее время массово идут запросы от google proxy из их подсети c юзерагентом:
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Используется сервис так: https://googleweblight.com/?lite_url=https://www.site.com
Не понимаю, или это реально индусы используют этот сервис для ускорения загрузки страниц или кто-то сайт целиком парсит.
Как понять?
Хочется заблочить эту дыру для парсинга сайта от имени гугла.
Блокируй. Никаких негативных последствий от блокировки не будет, проверено.
Не понимаю, или это реально индусы используют этот сервис для ускорения загрузки страниц или кто-то сайт целиком парсит. Как понять?
https://support.google.com/webmasters/answer/6211428?hl=ru
Если правильно понял, надо в http header добавить
Cache-Control: no-transform ,чтобы небыло нового запроса через proxy,
а сами запросы от google-proxy блокировать?
Если правильно понял, надо в http header добавить
Cache-Control: no-transform ,чтобы небыло нового запроса через proxy,
а сами запросы от google-proxy блокировать?
Насколько я понял, этот http заголовок лишь сообщит гуглу, что не нужно "мобилизировать" проксируемую страницу. Несмотря на то, что этот юзер агент у меня заблокирован, страница все равно отображается (видимо подтягивает из гуглокэша), но для парсинга уже неприемлемо, т.к. там нет текста, а какой то javascript только. Поэтому вполне можно блокировать по юзерагенту ("googleweblight").
Этот бот так-же используется в новых версиях мобильного браузера google, а именно в режиме "Экономия трафика".
Новая версия просит включить режим "Экономия трафика" при каждом открытии браузере.
Этот бот так-же используется в новых версиях мобильного браузера google, а именно в режиме "Экономия трафика"
Включил на хроме на андроиде режим экономии трафика, юзер агент оригинальный, "Mozilla/5.0 (Linux; Android 7.0; SM-A320F Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.109 Mobile Safari/537.36", айпишник гугловский, 66.249.93.46.
Не вижу "googleweblight"
Оптимизайка, Вы правы, на новом телефоне такой пометки действительно нету, но вот на старом телефоне она есть "Mozilla/5.0 (Linux; Android 4.4.2; GT-N7100 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko; googleweblight) Chrome/64.0.3282.137 Mobile Safari/537.36", причем на https используется обычный user-agent.
Провел эксперимент, при запрете по user-agent (точнее проверяю IP по обратной зоне наличие маски вида google-proxy-66-102-8-62.google.com.) проседает трафик.
Если только выставить в http хидере "Cache-Control: no-transform", просадки нет. Ну и парсить по url https://googleweblight.com/?lite_url=https://xxx не дает, ошибка: "Transcoding test failed:
This page has opted out of transcoding."
ЗЫ: host 66.249.93.46
46.93.249.66.in-addr.arpa domain name pointer google-proxy-66-249-93-46.google.com.
причем на https используется обычный user-agent.
А в доке и пишут, что если https, то никакого "сжатия" трафика не происходит. Т.е. если есть "googleweblight" и у вас сайт на https, то это явный фейк.
Вроде новость по этой же теме: Google запретил использовать свою сеть в качестве прокси
/ru/news/1636436