Блокировка ботов и различных адресов.

GasTarbols
На сайте с 14.12.2007
Offline
151
931

Доброго времени суток.

Предистория: Столкнулся с ситуацией, которая раньше не давала о себе знать:

Когда превышаю 15% нагрузки на хостинг(серв), то хостер отрубает сайт на 10мин, отдавая 503.

В логах перед падением часто вижу ботов не известных мне, судя по всему это они атакуют.

Вопросы:

Не давно в robots.txt блокировал таких ботов как "yamdex", а как заблокировать например такое Presto/2.1.1? Т.е. в robots.txt я должен прописать:


User-agent: Presto/2.1.1
Disallow: / #

Правильно ли это и как реагируют ПС если у меня идёт несколько исключений?:

User-agent: Yamdex
Disallow: / #

User-agent: Wget
Disallow: / #

User-agent: Presto/2.1.1
Disallow: / #

И ещё вопрос: часто бывает идёт столбиком несколько строчек, например:

78-106-109-240.broadband.corbina.ru <<<что открывали и каким браузером>>>

С такими IP можно бороться также запрещая их в robots.txt?

P.S. поиск юзал, но только ещё больше запутался.

Спасибо.

Мастер спорта по спорту.
DI
На сайте с 03.01.2007
Offline
123
#1

Роботы, особенно грабберы, вряд ли будут читать robots.txt и следовать инструкциям:)

GasTarbols:
78-106-109-240.broadband.corbina.ru <<<что открывали и каким браузером>>>

Это - не робот, а посетитель (живой человек с руками и ногами). Соответственно, ему на ваш robots тоже пофигу.

Блокировать можно только серверными методами, имея в распоряжении его ip (часто меняется; ботнеты + прокси), User-Agent (подделывается в 90% случаях) и остальные косвенные данные (чаще всего: запрос нескольких страниц в секунду; отсутствие реферера; серф по всем ссылкам подряд). Анализируйте имеющуюся информацию и думайте, как и по каким инструкциям их заблокировать.

Я на одном портале, где спам-боты и остальные выкачивальщики живут сотнями ежедневно, расставил несколько различных ловушек, на которые способны попасть только боты - и они моментально заносятся в бан-лист на сутки. После 5 попаданий в бан-лист любой ip заносится в блек-лист, и больше робот не ходок.

Высказывание идиотского утверждения требует на порядок меньше усилий, чем его последовательное и обоснованное опровержение и более того, иногда это опровержение вообще невозможно. © (http://zhurnal.lib.ru/s/shapiro_m_a/raspidiota.shtml)
GasTarbols
На сайте с 14.12.2007
Offline
151
#2
DenIT:
Роботы, особенно грабберы, вряд ли будут читать robots.txt и следовать инструкциям:)


Это - не робот, а посетитель (живой человек с руками и ногами). Соответственно, ему на ваш robots тоже пофигу.

Блокировать можно только серверными методами, имея в распоряжении его ip (часто меняется; ботнеты + прокси), User-Agent (подделывается в 90% случаях) и остальные косвенные данные (чаще всего: запрос нескольких страниц в секунду; отсутствие реферера; серф по всем ссылкам подряд). Анализируйте имеющуюся информацию и думайте, как и по каким инструкциям их заблокировать.

Я на одном портале, где спам-боты и остальные выкачивальщики живут сотнями ежедневно, расставил несколько различных ловушек, на которые способны попасть только боты - и они моментально заносятся в бан-лист на сутки. После 5 попаданий в бан-лист любой ip заносится в блек-лист, и больше робот не ходок.

А хостер никаким образом не должен способствовать решению проблемы? Т.е. предлагать какие то пути решения?

_mihey
На сайте с 15.07.2005
Offline
199
#3

берите vps помощнее тогда. что сейчас за хостинг ? сколько хитов-хостов ?

сколько запросов sql в среднем на страницу ?

Куплю размещение статей с трансляцией в Я.Новости (/ru/forum/833079)
GasTarbols
На сайте с 14.12.2007
Offline
151
#4
_mihey:
берите vps помощнее тогда. что сейчас за хостинг ? сколько хитов-хостов ?
сколько запросов sql в среднем на страницу ?

majordomo, 1700-2000 хостов и 7000-10000 хитов.

А вот где последнюю циферку посмотреть подскажите, я только вижу таблицу количество mysql-запросов.

GasTarbols добавил 10.12.2008 в 22:07

Ещё вопрос такой, что такое:

Запретить передачу ссылок через GET
Запретить передачу ссылок через POST

В логах везде GET, а разница между ними в чём?

DI
На сайте с 03.01.2007
Offline
123
#5
GasTarbols:
А хостер никаким образом не должен способствовать решению проблемы? Т.е. предлагать какие то пути решения?

А в чем собственно проблема? То, что к вам посетители ходят? Ну выключите тогда сайт, или запретите ходить Яндексу и Гуглу - думаю, их поменьше станет.

GasTarbols
На сайте с 14.12.2007
Offline
151
#6
DenIT:
А в чем собственно проблема? То, что к вам посетители ходят? Ну выключите тогда сайт, или запретите ходить Яндексу и Гуглу - думаю, их поменьше станет.

Сами же понимаете что тут дело не в ботах яши и гугла.

Хорошо, задам вопрос иначе: хостер не должен помогать своим клиентам в борьбе с ботами(даунлоадерами и т.д.) ?

RU
На сайте с 08.12.2008
Offline
9
#7
GasTarbols:
А хостер никаким образом не должен способствовать решению проблемы? Т.е. предлагать какие то пути решения?

как правила хостер отмазывается.. мол скрипты пишите нормальные или переходите на другой тариф :)

доступный способ для оплаты ваших услуг (http://www.smsdostup.ru/3137/) Дивная верстка за $10 (/ru/forum/324509)
DI
На сайте с 03.01.2007
Offline
123
#8
GasTarbols:
Сами же понимаете что тут дело не в ботах яши и гугла.

Это я предложил как вариант уменьшения посетителей:)

GasTarbols:
хостер не должен помогать своим клиентам в борьбе с ботами(даунлоадерами и т.д.) ?

Я конечно не хостер, но мне кажется, что у хостера задача обеспечивать работоспособность сайта, а не ограничивать доступ. Если бы у вас посещаемость была аналогичная, только человеческая - вы бы не просили хостера помочь бороться с этим? А хостер не виноват, что ваш сайт роботы любят.

Это все ИМХО, а по делу - читайте договор с хостером, там все четко прописано, что он вам должен.

Но от такой "борьбы", думаю, пострадают обычные пользователи, а боты так и будут качать, изменив 1-2 настройки - саппорт вряд ли будет сильно заморачиваться над решением этой проблемы.

GasTarbols
На сайте с 14.12.2007
Offline
151
#9
DenIT:
Это я предложил как вариант уменьшения посетителей:)

Я конечно не хостер, но мне кажется, что у хостера задача обеспечивать работоспособность сайта, а не ограничивать доступ. Если бы у вас посещаемость была аналогичная, только человеческая - вы бы не просили хостера помочь бороться с этим? А хостер не виноват, что ваш сайт роботы любят.

Это все ИМХО, а по делу - читайте договор с хостером, там все четко прописано, что он вам должен.
Но от такой "борьбы", думаю, пострадают обычные пользователи, а боты так и будут качать, изменив 1-2 настройки - саппорт вряд ли будет сильно заморачиваться над решением этой проблемы.

Спасибо большое за советы и ответы.

Сейчас в оффлайне человек предложил помощь, посмотрим что получиться ;)

Темы можно closed.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий