- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
По здравом размышлении, решила, что мне по этому вопросу известно недостаточно.
Посему, просьба народу: какие методы определения ботов (не только читеров) вам известны?
Надеюсь, данная тема будет интересна не только мне.
Тот что Яндекс применяет. Невидимая простому пользователю ссылка, закрытая в robots.txt.
Это для невежливых ботов. А для вежливых - обращение к robots.txt.
AiK, Ну а если бот не читает роботс.тхт?
Я же написал. Для тех кто не читает - невидимая ссылка. Пользователь туда не ломанётся и вежливый бот - тоже. Тех кто ломится - в чёрный список.
AiK, Извините, невнимательно читала.
Допустим, бот настолько умный, что знает каким юзер-агентом прикидываться, знает какие ссылки можно считать скрытыми (что вряд ли у него получится правильно всегда) и плевать хотел на роботс...
Есть какая-нибудь база айпишников?
если вы не хотите чтобы боты лазили по страницам которые сокрыты, уберите все ссылки к ним. а так, что бот, что юзер сможет получить доступ к файлам. Вообще боты - "народ" достаточно вежливый :) в отличие от людей запросов к апачу по 10 в секунду не делают. (на своем опыте давно убедился)
AiK,
Есть какая-нибудь база айпишников?
ну базу то насобирать можно, а если ваш робот окажется настолько умным что будет юзать прокси? :)
lagif, если бот к robots.txt идёт с одного IP, а при обращении к контенту меняет IP, то это проблема. Т.е. это уже и троян может быть на многих компьютерах-жертвах.
Если это открытые прокси, то есть методы их определения, самый грубы из которых - обращение по стандартным проксёвым портам на этих IP.
Базы есть (не у меня :)), но они не распространяются - а ну как ты именно бота и создаёшь? :)
В общем-то невидимые ссылки - единственный приличный метод. Всякие куки, яваскрипты и т. п. - хорошо эмулируются, если бота под винду писать, а про ip-адреса уже сказали.
AiK,
Мне предложили вариант парсенья логов - если слишком короткий промежуток времени между двумя запросами с одного айпишника, и притом страниц скачано больше допустимого N - вероятнее всего, это робот.
Но тут надо маяться, не хочется... да и не критично.
А вот меня саму, кажется, кое-где уже забанили :)
Вот ещё, что очевидно, потому и забыл.
Анализ логов. Большинство автоматически генерируемых запросов хорошо видно. Даже реалтайм.
Причём тот же Гугль очень жёсткие рамки ставит, я несколько раз попадал на блокировку, не пользуясь при этом ничем, кроме браузера. Кстати, очень эффективный метод: скажем, на какой-нибудь 50-й загружаемой странице спросить: а не бот ли вы? И попросить ввести число с картинки.