На депозите намного больше можно заработать, чем на летитбите с его КПД.
Baidu получилось забанить. Была неточность в регулярном выражении, его останавливает следующая запись (в его User-agent в начале, видимо, еще что-то присутствует):
SetEnvIfNoCase User-Agent "^.*Baiduspider" SearchBots
или просто (как описал del_im выше):
SetEnvIfNoCase User-Agent "Baiduspider" SearchBots
В Mozilla Firefox есть очень замечательный плагин, который позволяет на лету изменять User-agent и заходить на сайты под видом телефона или Googlebot (список агентов большой и может дополняться). Называется User Agent Switcher.
Вчера забанила еще около 5 предположительно поисковиков, нагрузка форума в часы пик уменьшилась в 2 раза.
Боты вычисляются в логах следующим образом:
1. Если бот послушный, будет периодически встречаться запись "GET /robots.txt HTTP/1.0".
2. Среди общего набора URL присутствует большое количество адресов, по которым обычные пользователи не переходят: просмотр профилей пользователей одного за другим, RSS-новости, справка.
3. Очень малая задержка между переходами на протяжении длительного времени.
Пыталась блокировать бота Baidu двумя описанными в Интернете способами, но так ничего из этого не вышло. Сама захожу с его User-agent - меня сайт не впускает, а на форуме в списке ботов Baidu все равно активен. Придется изучать код SMF для того, чтобы выяснить, как форум его идентифицирует: по длинному списку IP-адресов или по какому-нибудь другому специфическому признаку. Этот противный китайский бот может грузить сайт парой сотен своих клонов одновременно.
Мои попытки:
RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]RewriteRule .* - [F]
SetEnvIfNoCase User-Agent "^Baiduspider" SearchBotsOrder Allow,DenyAllow from AllDeny from env=SearchBots
На фильтрацию по User-Agent в .htaccess Baidu, например, не отреагировал. Для его блокировки уже нашла немного модифицированное решение. Да и названия не всех ботов получается выяснить. Видно только, из диапазонов каких IP-адресов идет нагрузка, а кто за ними скрывается можно и не узнать.
Админы "топовых" на данный момент ФО пьют валидол и обливаются холодным потом :)
Спасибо за совет. Пока еще не хватает знаний по iptables, но уже пытаюсь разобраться.
Может тематика форума и является причиной агрессивности ботов? :)
Прямо как пчёлы на мёд слетаются!
Не успела вывести около 200. Бывает и больше у людей.
Ребята, я же пришла к Вам с миром :)
На ороне со мной так и поступили, когда только начинала с ними работать. Я сообщила администрации, что их пару сотен гигабайт для меня мало, попросила увеличить пространство.
- Мне убрали ограничения по пространству.
- Мне несколько месяцев давали премиумы, чтобы файлы не удалялись.
Для меня до сих пор остается проблемой, когда я за 1-3 дня загружаю на новый ФО тысячи файлов (соответственно они имеют одинаковую дату загрузки). А через 30 дней одновременно все папки становятся наполовину пустыми. И так первые несколько месяцев.
Уважаемый LuckyShare, как вы относитесь к методу перезаливки файлов, когда:
- загружаются полностью все файлы заново (старые файлы еще находятся в папках).
- удаляются старые файлы и на их место помещаются новые.
При этом на 1-3 дня занимаемое пространство может увеличиваться в ~1,5 раза.
P.s.: сейчас только депозит радует со своим 90-дневным сроком хранения и программой лояльности (каждый месяц бесплатный премиум можно активировать).