Запросы от Яндекса со странным ЮзерАгентом

12
D
На сайте с 28.06.2008
Offline
1101
779

Логи трафика на моих сайтах разделены и мониторятся Мунином, поэтому сразу бросилось в глаза на графиках, что поисковые роботы начали получать 444 ответ.

Полез в логи, смотрю пришло более 5000 запросов вида  (IP один и тот же, все на скачивание картинок)

5.255.199.62 - - [19/Sep/2021:13:42:41 +0300] "GET /images/e1abefa363d187b54705c95286ea029981f6588d.jpg HTTP/1.1" 444 0 "-" "Python-urllib/3.7"

444 отлуп получен из-за юзер агента, у меня реально есть такое условие (разные говно юзер агенты), но запрос попал в лог для поисковых ботов ибо реально он из подсети Яндекса.

Так чего он не ставит свой нормальный Юзер агент?

LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#1

Кто-то что-то тестировал с твоего сайта. Вот и всё.

Так чего он не ставит свой нормальный Юзер агент?

Кто "он"? Яндекс это корпорация с кучей разработчиков, которые работают каждый день и что-то делают. 
✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
D
На сайте с 28.06.2008
Offline
1101
#2
LEOnidUKG #:

Кто-то что-то тестировал с твоего сайта. Вот и всё.

Кто "он"? Яндекс это корпорация с кучей разработчиков, которые работают каждый день и что-то делают. 

Тестировал? 5000 запросов на скачивание картинок. Странные тесты. Они что после первых запросов не поняли что ничего не приходит в ответ?

W1
На сайте с 22.01.2021
Offline
285
#3
Dram :
Так чего он не ставит свой нормальный Юзер агент?

Это стандартный юзерагент автоматического парсера на пайтоне. Они же не знали, что Вы будете отсекать этот юзерагент, вот и оставили стандартный. Но вообще говоря, отсекать по юзерагенту - это дурное занятие, потому что его можно сделать абсолютно любым, и как раз "правильные" роботы подменой юзерагента не занимаются. Если уж хочется отсекать конкретных роботов, то нужно использовать чёрный список, а не белый список.

Мой форум - https://webinfo.guru –Там я всегда на связи
D
На сайте с 28.06.2008
Offline
1101
#4
webinfo #:

Это стандартный юзерагент автоматического парсера на пайтоне. Они же не знали, что Вы будете отсекать этот юзерагент, вот и оставили стандартный. Но вообще говоря, отсекать по юзерагенту - это дурное занятие, потому что его можно сделать абсолютно любым, и как раз "правильные" роботы подменой юзерагента не занимаются. Если уж хочется отсекать конкретных роботов, то нужно использовать чёрный список, а не белый список.

Он у меня и есть черный 

map $http_user_agent $bad_useragent {
default 0;
~*ia_archiver   1;
~*Curl  1;
~*libwww        1;
~*BLEXBot       1;
~*SBooksNet     1;
~*MJ12bot       1;
~*Java  1;
~*NTENTbot      1;
~*GetIntent     1;
~*SemrushBot    1;
~*HybridBot     1;
~*AhrefsBot     1;
~*SeznamBot     1;
~*DeuSu 1;
~*GrapeshotCrawler      1;
~*SentiBot      1;
~*default       1;
~*Virusdie      1;
~*WordPress     1;
~*WhatsApp      1;
~*SeopultContentAnalyzer  1;
~*WinHTTP  1;
~*MauiBot  1;
~*weborama  1;
~*Python  1;
~*Go-http-client  1;
~*webdatastats.com  1;
~*opensiteexplorer.org  1;
~*www.ru  1;
~*Web-Crawler  1;
~*HttpUrlConnection  1;
~*magpie-crawler  1;
~*AdsrvrBot  1;
~*Clever  1;
~*Seekport  1;
}
D
На сайте с 28.06.2008
Offline
1101
#5
Добавил сюда в map условие отсутствие подсети IP в белом списке, чтобы не было ложного срабатывания, проверил, этот бот все долбится и теперь получает 200 ответ
pegs
На сайте с 07.06.2007
Offline
658
#6
Dram #:
условие отсутствие подсети IP в белом списке
А не могут быть это юзеры из Яндекс.Облака?
«Палата номер 6» ищет своего Главврача: https://www.palata6.ru/
LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#7
pegs #:
А не могут быть это юзеры из Яндекс.Облака?

Да, может быть какие-нибудь парсерсы. Как Google Cloud там же тоже определяется как Google IP

LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#8
Dram #:
Добавил сюда в map условие отсутствие подсети IP в белом списке, чтобы не было ложного срабатывания, проверил, этот бот все долбится и теперь получает 200 ответ

Класс!!! Сам всё сдал парсеру. Тогда убери вообще защиту, чего уж там.

pegs
На сайте с 07.06.2007
Offline
658
#9
Мне кажется, это некоторые хитрецы специально используют Облака Поисковиков для маскировки под поисковых ботов. Для них админы всё откроют 😀 Вот только про  ЮзерАгента  кто-то не додумался. Теперь поправит.
LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#10
pegs #:
Мне кажется, это некоторые хитрецы специально используют Облака Поисковиков для маскировки под поисковых ботов. Для них админы всё откроют 😀 Вот только про  ЮзерАгента  кто-то не додумался. Теперь поправит.

Да это классика, также ещё Гугл документы юзают, чтобы данные вытягивать. Помню даже была статья как DDOS устраивали через них.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий