myhand

Рейтинг
278
Регистрация
16.09.2009
zexis:
Не нужно гадать ложные срабатывания или не ложные, не имея для этого достаточно информации.

Да никто и не гадает. Это независимо предложил уже второй человек. Причем, вполне вероятно, он как и я исходил из сценария "с кучей сайтов". Ибо если проектов ~10 - ситуация абсолютно точно ненормальная.

zexis:
Нужно посмотреть кого банит.

Конечно, никто "диагноз" тут вам не ставит - поймите правильно. Может и все в порядке, но на первый взляд - уж больно подозрительно.

zexis:
Вопрос вероятности ложных банов решается настройкой лимитов под трафик каждого сайта. Да это бывает трудоемко, если сайтов много.

Вот это отдельно очень настораживает. Рискну еще раз предположить, что у данного вашего клиента как раз "куча сайтов". Может ваши "алгоритмы" работают сразу для всех скопом - тогда ложные срабатывания совершенно элементарны.

theBlackWolf:
Перерыл гугл в поисках оптимального решения. Более менее понятно с ограничениями кол-ва соединений, но вот когда соединений 1-2 с бота (скажем slow post атака) тут я попал в ступор.

Задумываться надо было с другого конца:

"Вот он мне льет запросов столько, сколько серверу позволено обрабатывать. Я при этом вообще зайти на сервер смогу? Я смогу что-то в консоли сделать (тот же анализ лога вебсервера) - или буду видеть слайд-шоу?"

Dram:
Максимально забаненых ботов было как раз в районе 2000. Мелкие атаки 500-1000 идут почти каждый день. Сервер их теперь не замечает :)

Не исключено, что это фальшивые срабатывания - вы (или ваши клиенты) теряете просто трафик. Я бы проверил.

horofag:
Мда, а товарищ myhand действительно думает что нужно заносить именно адреса ботов 😂

А зачем вам адрес шлюза, за которым сидит ихняя секретутка?

horofag:
Давайте и вы будете. А то я взял из логов достаточно случайного бота - и его не оказалось в нс лизвеба и топнета.

Нет проблем, малыш (@dnscache.masterhost.ru):

$ dig -x 178.154.243.111
...
;; Query time: 3 msec
...
$ dig -x 178.154.243.111
...
;; Query time: 3 msec
...

Жду ответа на заданный ранее вопрос.

horofag:
Такой большой, а не можешь сам узнать?

Могу (и более того - знаю), но интересует меня - ваша оценка. Пожалуйста, выдайте ее. В абсолютных числах, в процентах - как сумеете, на многое от вас я не расчитываю. Статистику, а не результат отдельной проверки.

И лучше, конечно, в качестве примера брать более типовой сайт, нежели xml.yandex.ru. Надеюсь, сумеете сообразить почему?

horofag:
Я писал, что нужно проверять по юзер агенту и IP.

Я прекрасно это помню.

Вся проблема - как вы реализуете эту проверку по IP. Я предлагаю - делать так, как написано в документации. Вы - собрать все подсети яндекса из ripe и не париться.

Ladycharm:
Костыль. Он совершенно не спасает от роботов, проверяющих на клоакинг, поэтому ничем не лучше использования IP подсетей.

Поясните. Вы думаете, что реально подделать ptr у ip яндекса?!

Ladycharm:
И чем это мешает решению задачи? Какая разница - бот это лезет, или модератор Яндекса?

А что, кроме модераторов и поисковых ботов - там нет и ничего быть не может?

Ladycharm:
И что, есть какая-то гарантия, что PTR у них не будет содержать слово yandex?

Есть, конечно. Документация.

Ей, народный целитель - я вам диагнозы не выставлял, не надо врать.

blManVps:
Тех. поддержка ответила "Попробуйте сделать симлинк
cd /usr/lib/mysql
ln -s libmysqlclient.so.18 libmysqlclient.so.16"
Сделал, запускаю выбивает error while loading shared libraries: libmysqlclient.so.12

Попробуйте сделать симлинк :)

ln -s libmysqlclient.so.18 libmysqlclient.so.12

blManVps:
Потом обновил php но нечего не дало

А вот это зря. Поди, кучу всего еще наломали корявыми ручками. Не пытайтесь решать проблемы наугад - ничего хорошего из этого не выйдет.

horofag:
Если совсем немного подумать, то периодичность станет известной.

Ну "подумайте", удачи. Кто знает, может вам администраторы яндекса на домашний телефон звонят каждый раз, когда приспичит сменить IP очередному боту.

Но для большинства - это тайна. Когда они будут что-то менять в своем пуле, даже когда просто изменят информацию в своем AS (напр., добавят подсеть) - остается только гадать. Странно что это гадание вы назвали "думать".

horofag:
Не обязательно, но в абсолютном большинстве случаев будет им.

С чего вдруг? Давайте вы будете доказывать такие спорные утверждения. Я взял из логов достаточно случайного бота - и он оказался в ns.masterhost.ru. и ns.zenon.ru. ЧЯДНТ?

horofag:
Вы бы в самом деле использовали такие костыли?

Проверка PTR - не "костыль". А необходимость использования - зависит от задачи. Хочет ТС очередную эвристику или точное решение.

horofag:
И ведь яндекс больше любят быстрые сайтики.

Как вы думаете, сколько по порядку величины занимает времени запрос ptr (не попавший в кэш, конечно)?

horofag:
Я даже больше скажу - вычислить очень просто.
whois -i origin AS13238 | grep route | awk '{print $2}'

Вот вам и список.

Наивный малыш. Среди этих IP есть куча тех, которые ровно никакого отношения к ботам. "Абсолютное большинство" (ц).

netwind:
И это пишет человек, который слово "рекомендую" пишет с двумя М. Причем, всегда.

1) Не всегда.

2) Мне можно.

3) Так круче.

horofag:
И что? Я разве писал что там его нет?

Вы писали "по днс проверять медленно". Но по ссылке речь идет не только о проверке dns.

horofag:
Зачем мне поддерживать?

Ну, вы же хотите достоверно определить робота? IP меняются и, что гораздо чаще - добавляются.

horofag:
Этим занимается например ripe. Дело администратора один раз написать не самый сложный скрипт.

И вызывать его с неизвестной заранее периодичностью.

horofag:
Кеш устаревает, а первый запрос всегда медленный.

Ну так это же не обязательно *ваш* запрос.

horofag:
Кроме того, я дурак и не понял как силами nginx реализовать предложенную яндексом схему.

Вы сами и ответили на свой вопрос. А вообще - у nginx есть perl и lua. Так что отрезолвить $remote_addr не проблема.

joost:
не работают они
или не правильно применяю

Чтобы работали - надо прочитать документацию.

joost:
order deny,allow
deny from all
allow from мой айпи

Эта часть у вас правильна - проверяйте что апач получает действительно *ваш ip*, а не ip какого-нибудь прокси, что перед ним стоит (nginx?). Логи доступа смотрите.

horofag:
По днс проверять медленно. Лучше юзер агент+IP.

1) там есть список UA.

2) "по IP" проверять - вам потребуется тогда поддерживать список этих IP. Проверка PTR позволяет легко избежать такого гемороя. Для "быстро" - DNS умеет кешировать.

Мораль: читай, что тебе пишут до конца, а потом комментируй.

Всего: 4890