Megaindex

12
AK
На сайте с 23.02.2009
Offline
117
#11

if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {

return 403;
}
*
serg-smirnoff
На сайте с 23.02.2008
Offline
139
#12

Благодарю!

serg-smirnoff
На сайте с 23.02.2008
Offline
139
#13

Еще пару полезностей, по теме

grep 'bot' "/data/logs/domainname.tld.access.log" | awk '{ print $12}' | sort | uniq -c | sort -n -k 1 | tail -n 30

Вывести наиболее активных 30 ботов из лога apache (для блокировки по user-agent)

Мой вывод

2 SurdotlyBot/1.0;

3 MegaIndex.ru/2.0;

4 Baiduspider/2.0;

5 Exabot/3.0;

7 YandexImageResizer/2.0;

8 DeuSu/5.0.2;

10 Yahoo!

11 2

14 NT

15 (compatible;

15 Configuration/CLDC-1.1

21 1

22 Uptimebot/1.0;

23 CPU_TIME:

24 SputnikBot/2.3;

43

82 SeznamBot/3.2;

92 Android

128 YandexImages/3.0;

181 YandexNews/3.0;

196 CPU

252 0

331 YandexMetrika/2.0;

460 YandexDirect/3.0;

658 YandexBlogs/0.99;

1031 MJ12bot/v1.4.5;

1658 Googlebot/2.1;

2164 AhrefsBot/5.1;

2684 bingbot/2.0;

16780 YandexBot/3.0;

По сути, основных под бан, это 2164 AhrefsBot/5.1; + 1031 MJ12bot/v1.4.5; + 24 SputnikBot/2.3;

Dolph
На сайте с 08.04.2008
Offline
215
#14

Добрый день.

Мегаиндекс прочёл Ваше сообщение.

Ситуация крайне странная, т.к. у нашего краулера весьма жёсткие рамки на обход сайтов (правда подобное может быть если на одном сервере находится множество сайтов).

Не могли бы Вы сказать по какому домену был такой суровый обход нашим роботом?

RuCaptcha.com ( http://www.RuCaptcha.com ) отечественный капча-сервис 20-44 руб за 1000 решений ($0,61 максимум!) на простые капчи ReCaptcha V2/V3/Invis, FunCaptcha, HCaptcha, GeeTest, Capy, KeyCaptcha
serg-smirnoff
На сайте с 23.02.2008
Offline
139
#15

Мне действительно не интересно с вами вести переписку, настройте ботов, чтобы они работали корректно. Например можете начать с того, чтобы ваши боты начали учитывать Crawl-delay как это делают некоторые другие боты.

И вот когда "правда подобное может быть", превратиться в "правда подобное исключено", тогда это будет корректно. А пока нет.

[Удален]
#16
serg-smirnoff:
Мне действительно не интересно с вами вести переписку, настройте ботов, чтобы они работали корректно. Например можете начать с того, чтобы ваши боты начали учитывать Crawl-delay как это делают некоторые другие боты.

И вот когда "правда подобное может быть", превратиться в "правда подобное исключено", тогда это будет корректно. А пока нет.

Если Вы поможете диагностировать данную проблему, это возможно и будет исключено. Ведь нужно помогать, а Вы пожаловались, Вашу проблему захотели решить и Вы заднюю включаете , не дело так поступать.

serg-smirnoff
На сайте с 23.02.2008
Offline
139
#17

На сайт megaindex зайдите и почитайте что в комментариях по поводу похожих проблем написано. При чем тут задняя не задняя. Они нагружают чужое оборудование, знают это, и ничего с этим не делают. Начните с Crawl-delay например. Это адресовано megaindex

---------- Добавлено 03.10.2016 в 22:04 ----------

Мне видится странным такая нагрузка на сайт, у которого в robots.txt прописано Crawl-delay: 4 Причем нагрузка в период 00:00 - 11:00

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий