- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Левые боты постоянно качают информацию. Трафик очень большой - сотни тысяч запросов. Какие алгоритмы существуют ограничения ботов, так чтобы не отпугнуть SE?
ЗЫ гуглил. Ничего внятного не нашел.
Единственная зацепка - ловить тех кто игнорирует robots.txt но вроде Гугл иногда это проделывает. Или врут?
Если боты идут с определённых IP или с определённым user-agent, то бан через .htaccess
Если каждый день с разных, то чекать по количеству запросов с одного IP и после 1000(или, как придумаете) так же в бан. Все поисковики ходят с правильным user-agent и отделить их не составляет труда. Если бот косит под гугл - проверить несколько раз принадлежность IP. Ни один левый прокси не даст через себя гнать сотни тысяч запросов, посему сканят со своих IP или со своей сетки, которую тоже легко в бан.
Ну, где-то так.
Левые боты постоянно качают информацию. Трафик очень большой - сотни тысяч запросов. Какие алгоритмы существуют ограничения ботов, так чтобы не отпугнуть SE?
ЗЫ гуглил. Ничего внятного не нашел.
Может это поможет
Skom прав. Самый верный способ это бан IP в .htaccess. Почитайте здесь.
Lazy, stifler_x Проблема не в том, как отсечь, а в том, как определить вредного робота от полезного и при этом не срубить большой прокси-узел.
Кстати срубать вообще-то не обязательно. Намного эффективнее слить ботам дезинформацию или явный поисковый спам.
Все поисковики ходят с правильным user-agent
Точно? Я полагал, что есть боты проверяющие на клоакинг. Если они есть, значит не должны представляться. Или таких ботов нет? Или они не создают нагрузку?
Ни один левый прокси не даст через себя гнать сотни тысяч запросов
а если тысяча или пять тысячи? Но таких ботов много. Сайт - специализированная доска объявлений в Топе Рэмблера. Грабят его многие для накачки своих баз.
М.б. параллельно с записью IP потенциальных ботов смотреть кто скачал картинки и JS + страницы запрещенные для ботов? Но опять же Google на запреты кладет.