- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
По здравом размышлении, решила, что мне по этому вопросу известно недостаточно.
Посему, просьба народу: какие методы определения ботов (не только читеров) вам известны?
Надеюсь, данная тема будет интересна не только мне.
Тот что Яндекс применяет. Невидимая простому пользователю ссылка, закрытая в robots.txt.
Это для невежливых ботов. А для вежливых - обращение к robots.txt.
AiK, Ну а если бот не читает роботс.тхт?
Я же написал. Для тех кто не читает - невидимая ссылка. Пользователь туда не ломанётся и вежливый бот - тоже. Тех кто ломится - в чёрный список.
AiK, Извините, невнимательно читала.
Допустим, бот настолько умный, что знает каким юзер-агентом прикидываться, знает какие ссылки можно считать скрытыми (что вряд ли у него получится правильно всегда) и плевать хотел на роботс...
Есть какая-нибудь база айпишников?
если вы не хотите чтобы боты лазили по страницам которые сокрыты, уберите все ссылки к ним. а так, что бот, что юзер сможет получить доступ к файлам. Вообще боты - "народ" достаточно вежливый :) в отличие от людей запросов к апачу по 10 в секунду не делают. (на своем опыте давно убедился)
AiK,
Есть какая-нибудь база айпишников?
ну базу то насобирать можно, а если ваш робот окажется настолько умным что будет юзать прокси? :)
lagif, если бот к robots.txt идёт с одного IP, а при обращении к контенту меняет IP, то это проблема. Т.е. это уже и троян может быть на многих компьютерах-жертвах.
Если это открытые прокси, то есть методы их определения, самый грубы из которых - обращение по стандартным проксёвым портам на этих IP.
Базы есть (не у меня :)), но они не распространяются - а ну как ты именно бота и создаёшь? :)
В общем-то невидимые ссылки - единственный приличный метод. Всякие куки, яваскрипты и т. п. - хорошо эмулируются, если бота под винду писать, а про ip-адреса уже сказали.
AiK,
Мне предложили вариант парсенья логов - если слишком короткий промежуток времени между двумя запросами с одного айпишника, и притом страниц скачано больше допустимого N - вероятнее всего, это робот.
Но тут надо маяться, не хочется... да и не критично.
А вот меня саму, кажется, кое-где уже забанили :)
Вот ещё, что очевидно, потому и забыл.
Анализ логов. Большинство автоматически генерируемых запросов хорошо видно. Даже реалтайм.
Причём тот же Гугль очень жёсткие рамки ставит, я несколько раз попадал на блокировку, не пользуясь при этом ничем, кроме браузера. Кстати, очень эффективный метод: скажем, на какой-нибудь 50-й загружаемой странице спросить: а не бот ли вы? И попросить ввести число с картинки.