Megaindex

serg-smirnoff · 2016-09-28T08:28:36.0000000Z

Сегодня с 00:00 100% нагрузка на процессор. Соответственно в .htaccess ушло следующее Deny from 148.251.236.167 + SetEnvIfNoCase User-Agent ".*MegaIndex" badbingbot SetEnvIfNoCase User-Agent ".*MegaIndex*" badbingbot Deny from env=badbingbot Так же блокировка по IP на уровне iptables + блокировка по IP на уровне панельки на сервере На картинке иллюстрация нагрузки на процессор в ночное время от бота Megaindex Зачем быть такими уродами?

AK

117

ant_key

28 сентября 2016, 20:47

#11

if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {

    return 403;

}

*

139

serg-smirnoff

28 сентября 2016, 21:35

#12

Благодарю!

139

serg-smirnoff

29 сентября 2016, 06:40

#13

Еще пару полезностей, по теме

grep 'bot' "/data/logs/domainname.tld.access.log" | awk '{ print $12}' | sort | uniq -c | sort -n -k 1 | tail -n 30

Вывести наиболее активных 30 ботов из лога apache (для блокировки по user-agent)

Мой вывод

2 SurdotlyBot/1.0;

3 MegaIndex.ru/2.0;

4 Baiduspider/2.0;

5 Exabot/3.0;

7 YandexImageResizer/2.0;

8 DeuSu/5.0.2;

10 Yahoo!

11 2

14 NT

15 (compatible;

15 Configuration/CLDC-1.1

21 1

22 Uptimebot/1.0;

23 CPU_TIME:

24 SputnikBot/2.3;

43

82 SeznamBot/3.2;

92 Android

128 YandexImages/3.0;

181 YandexNews/3.0;

196 CPU

252 0

331 YandexMetrika/2.0;

460 YandexDirect/3.0;

658 YandexBlogs/0.99;

1031 MJ12bot/v1.4.5;

1658 Googlebot/2.1;

2164 AhrefsBot/5.1;

2684 bingbot/2.0;

16780 YandexBot/3.0;

По сути, основных под бан, это 2164 AhrefsBot/5.1; + 1031 MJ12bot/v1.4.5; + 24 SputnikBot/2.3;

Проблемы с Мастерхост. Сайты Странные переходы из всех Стучатся боты..

215

Dolph

30 сентября 2016, 09:50

#14

Добрый день.

Мегаиндекс прочёл Ваше сообщение.

Ситуация крайне странная, т.к. у нашего краулера весьма жёсткие рамки на обход сайтов (правда подобное может быть если на одном сервере находится множество сайтов).

Не могли бы Вы сказать по какому домену был такой суровый обход нашим роботом?

RuCaptcha.com ( http://www.RuCaptcha.com ) отечественный капча-сервис 20-44 руб за 1000 решений ($0,61 максимум!) на простые капчи ReCaptcha V2/V3/Invis, FunCaptcha, HCaptcha, GeeTest, Capy, KeyCaptcha

Так всё-таки бан или Обновление поисковой базы 2019-02-13 13000 запросов за сутки

139

serg-smirnoff

30 сентября 2016, 20:52

#15

Мне действительно не интересно с вами вести переписку, настройте ботов, чтобы они работали корректно. Например можете начать с того, чтобы ваши боты начали учитывать Crawl-delay как это делают некоторые другие боты.

И вот когда "правда подобное может быть", превратиться в "правда подобное исключено", тогда это будет корректно. А пока нет.

Гугл начал банить за Биржа ссылок Uniplace (beta) Ограничить Yahoo доступ к

[Удален]

30 сентября 2016, 22:59

#16

serg-smirnoff:
Мне действительно не интересно с вами вести переписку, настройте ботов, чтобы они работали корректно. Например можете начать с того, чтобы ваши боты начали учитывать Crawl-delay как это делают некоторые другие боты.

И вот когда "правда подобное может быть", превратиться в "правда подобное исключено", тогда это будет корректно. А пока нет.

Если Вы поможете диагностировать данную проблему, это возможно и будет исключено. Ведь нужно помогать, а Вы пожаловались, Вашу проблему захотели решить и Вы заднюю включаете , не дело так поступать.

1

139

serg-smirnoff

3 октября 2016, 19:01

#17

На сайт megaindex зайдите и почитайте что в комментариях по поводу похожих проблем написано. При чем тут задняя не задняя. Они нагружают чужое оборудование, знают это, и ничего с этим не делают. Начните с Crawl-delay например. Это адресовано megaindex

---------- Добавлено 03.10.2016 в 22:04 ----------

Мне видится странным такая нагрузка на сайт, у которого в robots.txt прописано Crawl-delay: 4 Причем нагрузка в период 00:00 - 11:00

Craw-delay Как тормознуть Googlebot'a? Нагрузка от Яндекс бота

Дзен реализовал для авторов возможность вывода денег через СПБ

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ