Ограничение левых ботов и качалок

Ayavryk
На сайте с 11.10.2003
Offline
209
646

Левые боты постоянно качают информацию. Трафик очень большой - сотни тысяч запросов. Какие алгоритмы существуют ограничения ботов, так чтобы не отпугнуть SE?

ЗЫ гуглил. Ничего внятного не нашел.

Единственная зацепка - ловить тех кто игнорирует robots.txt но вроде Гугл иногда это проделывает. Или врут?

Тынгыр, мынгыр, комсомол (http://erum.ru). Ехари, ехари, (жалобно) аяврик. /народная тунгусская песня/
Skom
На сайте с 02.12.2006
Offline
166
#1

Если боты идут с определённых IP или с определённым user-agent, то бан через .htaccess

Если каждый день с разных, то чекать по количеству запросов с одного IP и после 1000(или, как придумаете) так же в бан. Все поисковики ходят с правильным user-agent и отделить их не составляет труда. Если бот косит под гугл - проверить несколько раз принадлежность IP. Ни один левый прокси не даст через себя гнать сотни тысяч запросов, посему сканят со своих IP или со своей сетки, которую тоже легко в бан.

Ну, где-то так.

Cras amet qui numquam amavit quique amavit cras amet
Lazy
На сайте с 11.11.2005
Offline
59
#2
Ayavryk:
Левые боты постоянно качают информацию. Трафик очень большой - сотни тысяч запросов. Какие алгоритмы существуют ограничения ботов, так чтобы не отпугнуть SE?
ЗЫ гуглил. Ничего внятного не нашел.

Может это поможет

Лучшее - враг хорошего!
stifler_x
На сайте с 19.06.2008
Offline
193
#3

Skom прав. Самый верный способ это бан IP в .htaccess. Почитайте здесь.

Ayavryk
На сайте с 11.10.2003
Offline
209
#4

Lazy, stifler_x Проблема не в том, как отсечь, а в том, как определить вредного робота от полезного и при этом не срубить большой прокси-узел.

Кстати срубать вообще-то не обязательно. Намного эффективнее слить ботам дезинформацию или явный поисковый спам.

Skom:
Все поисковики ходят с правильным user-agent

Точно? Я полагал, что есть боты проверяющие на клоакинг. Если они есть, значит не должны представляться. Или таких ботов нет? Или они не создают нагрузку?

Skom:
Ни один левый прокси не даст через себя гнать сотни тысяч запросов

а если тысяча или пять тысячи? Но таких ботов много. Сайт - специализированная доска объявлений в Топе Рэмблера. Грабят его многие для накачки своих баз.

М.б. параллельно с записью IP потенциальных ботов смотреть кто скачал картинки и JS + страницы запрещенные для ботов? Но опять же Google на запреты кладет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий