Методы отлова ботов

30

lagif

19 октября 2005, 08:58

1045

По здравом размышлении, решила, что мне по этому вопросу известно недостаточно.

Посему, просьба народу: какие методы определения ботов (не только читеров) вам известны?

Надеюсь, данная тема будет интересна не только мне.

Это тоже пройдет...

257

AiK

19 октября 2005, 09:39

#1

Тот что Яндекс применяет. Невидимая простому пользователю ссылка, закрытая в robots.txt.

Это для невежливых ботов. А для вежливых - обращение к robots.txt.

30

lagif

19 октября 2005, 09:43

#2

AiK, Ну а если бот не читает роботс.тхт?

257

AiK

19 октября 2005, 09:46

#3

Я же написал. Для тех кто не читает - невидимая ссылка. Пользователь туда не ломанётся и вежливый бот - тоже. Тех кто ломится - в чёрный список.

30

lagif

19 октября 2005, 10:19

#4

AiK, Извините, невнимательно читала.

Допустим, бот настолько умный, что знает каким юзер-агентом прикидываться, знает какие ссылки можно считать скрытыми (что вряд ли у него получится правильно всегда) и плевать хотел на роботс...

Есть какая-нибудь база айпишников?

345

pelvis

19 октября 2005, 10:32

#5

если вы не хотите чтобы боты лазили по страницам которые сокрыты, уберите все ссылки к ним. а так, что бот, что юзер сможет получить доступ к файлам. Вообще боты - "народ" достаточно вежливый :) в отличие от людей запросов к апачу по 10 в секунду не делают. (на своем опыте давно убедился)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

Отсечь ботов и не Как вывести сайт в Полноэкранный блок и боты

JR

263

jED R.

19 октября 2005, 10:34

#6

lagif:
AiK,
Есть какая-нибудь база айпишников?

ну базу то насобирать можно, а если ваш робот окажется настолько умным что будет юзать прокси? :)

257

AiK

19 октября 2005, 10:38

#7

lagif, если бот к robots.txt идёт с одного IP, а при обращении к контенту меняет IP, то это проблема. Т.е. это уже и троян может быть на многих компьютерах-жертвах.

Если это открытые прокси, то есть методы их определения, самый грубы из которых - обращение по стандартным проксёвым портам на этих IP.

Базы есть (не у меня :)), но они не распространяются - а ну как ты именно бота и создаёшь? :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

19 октября 2005, 10:44

#8

В общем-то невидимые ссылки - единственный приличный метод. Всякие куки, яваскрипты и т. п. - хорошо эмулируются, если бота под винду писать, а про ip-адреса уже сказали.

30

lagif

19 октября 2005, 10:45

#9

AiK,

Мне предложили вариант парсенья логов - если слишком короткий промежуток времени между двумя запросами с одного айпишника, и притом страниц скачано больше допустимого N - вероятнее всего, это робот.

Но тут надо маяться, не хочется... да и не критично.

А вот меня саму, кажется, кое-где уже забанили :)

Яндекс кобласит Как относятся поисковики к VKRobotRB - что за

257

AiK

19 октября 2005, 10:49

#10

Вот ещё, что очевидно, потому и забыл.

Анализ логов. Большинство автоматически генерируемых запросов хорошо видно. Даже реалтайм.

Причём тот же Гугль очень жёсткие рамки ставит, я несколько раз попадал на блокировку, не пользуясь при этом ничем, кроме браузера. Кстати, очень эффективный метод: скажем, на какой-нибудь 50-й загружаемой странице спросить: а не бот ли вы? И попросить ввести число с картинки.

Помощь в фильтрации ботов PageSpeed Insights реагирует негативно Максимальный доход или ограничение

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ