Методы отлова ботов

12
lagif
На сайте с 15.12.2004
Offline
30
1019

По здравом размышлении, решила, что мне по этому вопросу известно недостаточно.

Посему, просьба народу: какие методы определения ботов (не только читеров) вам известны?

Надеюсь, данная тема будет интересна не только мне.

Это тоже пройдет...
AiK
На сайте с 27.10.2000
Offline
257
AiK
#1

Тот что Яндекс применяет. Невидимая простому пользователю ссылка, закрытая в robots.txt.

Это для невежливых ботов. А для вежливых - обращение к robots.txt.

lagif
На сайте с 15.12.2004
Offline
30
#2

AiK, Ну а если бот не читает роботс.тхт?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#3

Я же написал. Для тех кто не читает - невидимая ссылка. Пользователь туда не ломанётся и вежливый бот - тоже. Тех кто ломится - в чёрный список.

lagif
На сайте с 15.12.2004
Offline
30
#4

AiK, Извините, невнимательно читала.

Допустим, бот настолько умный, что знает каким юзер-агентом прикидываться, знает какие ссылки можно считать скрытыми (что вряд ли у него получится правильно всегда) и плевать хотел на роботс...

Есть какая-нибудь база айпишников?

pelvis
На сайте с 01.09.2005
Offline
345
#5

если вы не хотите чтобы боты лазили по страницам которые сокрыты, уберите все ссылки к ним. а так, что бот, что юзер сможет получить доступ к файлам. Вообще боты - "народ" достаточно вежливый :) в отличие от людей запросов к апачу по 10 в секунду не делают. (на своем опыте давно убедился)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
JR
На сайте с 22.03.2005
Offline
263
#6
lagif:
AiK,
Есть какая-нибудь база айпишников?

ну базу то насобирать можно, а если ваш робот окажется настолько умным что будет юзать прокси? :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#7

lagif, если бот к robots.txt идёт с одного IP, а при обращении к контенту меняет IP, то это проблема. Т.е. это уже и троян может быть на многих компьютерах-жертвах.

Если это открытые прокси, то есть методы их определения, самый грубы из которых - обращение по стандартным проксёвым портам на этих IP.

Базы есть (не у меня :)), но они не распространяются - а ну как ты именно бота и создаёшь? :)

[Удален]
#8

В общем-то невидимые ссылки - единственный приличный метод. Всякие куки, яваскрипты и т. п. - хорошо эмулируются, если бота под винду писать, а про ip-адреса уже сказали.

lagif
На сайте с 15.12.2004
Offline
30
#9

AiK,

Мне предложили вариант парсенья логов - если слишком короткий промежуток времени между двумя запросами с одного айпишника, и притом страниц скачано больше допустимого N - вероятнее всего, это робот.

Но тут надо маяться, не хочется... да и не критично.

А вот меня саму, кажется, кое-где уже забанили :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#10

Вот ещё, что очевидно, потому и забыл.

Анализ логов. Большинство автоматически генерируемых запросов хорошо видно. Даже реалтайм.

Причём тот же Гугль очень жёсткие рамки ставит, я несколько раз попадал на блокировку, не пользуясь при этом ничем, кроме браузера. Кстати, очень эффективный метод: скажем, на какой-нибудь 50-й загружаемой странице спросить: а не бот ли вы? И попросить ввести число с картинки.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий