nginx определение бота яндекса

123
H
На сайте с 01.04.2012
Offline
15
#11
myhand:
1) там есть список UA.

И что? Я разве писал что там его нет?

myhand:
2) "по IP" проверять - вам потребуется тогда поддерживать список этих IP. Проверка PTR позволяет легко избежать такого гемороя. Для "быстро" - DNS умеет кешировать.

Зачем мне поддерживать? Этим занимается например ripe. Дело администратора один раз написать не самый сложный скрипт.

Кеш устаревает, а первый запрос всегда медленный. Кроме того, я дурак и не понял как силами nginx реализовать предложенную яндексом схему.

M
На сайте с 01.12.2009
Offline
235
#12

TC - вам пишут как делать правильно, вы должны знать что это 100% яша, раз задача такая, зачем вы противоречите.

Администратор Linux,Freebsd. построения крупных проектов.
M
На сайте с 16.09.2009
Offline
278
#13
horofag:
И что? Я разве писал что там его нет?

Вы писали "по днс проверять медленно". Но по ссылке речь идет не только о проверке dns.

horofag:
Зачем мне поддерживать?

Ну, вы же хотите достоверно определить робота? IP меняются и, что гораздо чаще - добавляются.

horofag:
Этим занимается например ripe. Дело администратора один раз написать не самый сложный скрипт.

И вызывать его с неизвестной заранее периодичностью.

horofag:
Кеш устаревает, а первый запрос всегда медленный.

Ну так это же не обязательно *ваш* запрос.

horofag:
Кроме того, я дурак и не понял как силами nginx реализовать предложенную яндексом схему.

Вы сами и ответили на свой вопрос. А вообще - у nginx есть perl и lua. Так что отрезолвить $remote_addr не проблема.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().
Андрей
На сайте с 30.09.2009
Offline
494
#14
Маэстро:
У Яндекса не один IP адерс..

Все его подсети вычислить не трудно. Их не так уж и много.

EuroHoster.org ( https://eurohoster.org/ru) - территория быстрых серверов. Выделенные серверы, VPS, SSL, домены и VPN.
H
На сайте с 01.04.2012
Offline
15
#15
myhand:
Вы писали "по днс проверять медленно". Но по ссылке речь идет не только о проверке dns.

И что? Если это вы оправдываетесь за ссылку, то не стоит. Была бы она бесполезной - я бы так и написал.

myhand:
Ну, вы же хотите достоверно определить робота? IP меняются и, что гораздо чаще - добавляются. И вызывать его с неизвестной заранее периодичностью.

Если совсем немного подумать, то периодичность станет известной. Тем более это не играет никакого значения, ибо даже если на каждого бота заново проверять список (что естественно абсолютно бесполезно) это будет сравнимо по скорости с проверкой по днс.

myhand:
Ну так это же не обязательно *ваш* запрос.

Не обязательно, но в абсолютном большинстве случаев будет им.

myhand:
А вообще - у nginx есть perl и lua. Так что отрезолвить $remote_addr не проблема.

Вы бы в самом деле использовали такие костыли?

И ведь яндекс больше любят быстрые сайтики.

---------- Добавлено 22.12.2012 в 00:12 ----------

WapGraf:
Все его подсети вычислить не трудно. Их не так уж и много.

Я даже больше скажу - вычислить очень просто.

whois -i origin AS13238 | grep route | awk '{print $2}'

Вот вам и список. А то товарищ myhand похоже думает что нужно заносить именно адреса ботов, предварительно в поте лица разыскивая их в интернетах. Трудно иначе объяснить как столько простой метод стал геморроем.

M
На сайте с 16.09.2009
Offline
278
#16
horofag:
Если совсем немного подумать, то периодичность станет известной.

Ну "подумайте", удачи. Кто знает, может вам администраторы яндекса на домашний телефон звонят каждый раз, когда приспичит сменить IP очередному боту.

Но для большинства - это тайна. Когда они будут что-то менять в своем пуле, даже когда просто изменят информацию в своем AS (напр., добавят подсеть) - остается только гадать. Странно что это гадание вы назвали "думать".

horofag:
Не обязательно, но в абсолютном большинстве случаев будет им.

С чего вдруг? Давайте вы будете доказывать такие спорные утверждения. Я взял из логов достаточно случайного бота - и он оказался в ns.masterhost.ru. и ns.zenon.ru. ЧЯДНТ?

horofag:
Вы бы в самом деле использовали такие костыли?

Проверка PTR - не "костыль". А необходимость использования - зависит от задачи. Хочет ТС очередную эвристику или точное решение.

horofag:
И ведь яндекс больше любят быстрые сайтики.

Как вы думаете, сколько по порядку величины занимает времени запрос ptr (не попавший в кэш, конечно)?

horofag:
Я даже больше скажу - вычислить очень просто.
whois -i origin AS13238 | grep route | awk '{print $2}'

Вот вам и список.

Наивный малыш. Среди этих IP есть куча тех, которые ровно никакого отношения к ботам. "Абсолютное большинство" (ц).

М
На сайте с 08.09.2006
Offline
223
#17
madoff:
TC - вам пишут как делать правильно, вы должны знать что это 100% яша, раз задача такая, зачем вы противоречите.

Где я что противоречу?

---------- Добавлено 23.12.2012 в 15:49 ----------

'[umka:
;11234540']Юзер-агент — это не паспорт.
Если к вам подходит человек, а у него на бэйджике написано "Василий", то откуда вам знать правда ли это? :)

Ну только если кто то подделывает User-agent, а для таких пользователей блок также лишнем не будем.

---------- Добавлено 23.12.2012 в 15:50 ----------

esetnod:
.*Yandex.*

А первая точка для чего?

Не бойся неизбежного... Уже не продаю авто морды...
H
На сайте с 01.04.2012
Offline
15
#18
myhand:
Ну "подумайте", удачи. Кто знает, может вам администраторы яндекса на домашний телефон звонят каждый раз, когда приспичит сменить IP очередному боту.

Мда, а товарищ myhand действительно думает что нужно заносить именно адреса ботов 😂

myhand:
Давайте вы будете доказывать такие спорные утверждения. Я взял из логов достаточно случайного бота - и он оказался в ns.masterhost.ru. и ns.zenon.ru.

Давайте и вы будете. А то я взял из логов достаточно случайного бота - и его не оказалось в нс лизвеба и топнета.

myhand:
Проверка PTR - не "костыль".

Там я писал больше про преложенную вами реализацию.

myhand:

Как вы думаете, сколько по порядку величины занимает времени запрос ptr (не попавший в кэш, конечно)?

Такой большой, а не можешь сам узнать? Держи - http://ping-admin.ru/free_test/result/1356269927lhdx11zxnkb847c34ydfb.html

myhand:
Наивный малыш. Среди этих IP есть куча тех, которые ровно никакого отношения к ботам. "Абсолютное большинство" (ц).

Я писал, что нужно проверять по юзер агенту и IP.

"Мораль: читай, что тебе пишут до конца, а потом комментируй." (ц)

Так что прекращай газировать лужу и веди себя нормально.

L
На сайте с 07.12.2007
Offline
351
#19
myhand:
Проверка PTR - не "костыль".

Костыль. Он совершенно не спасает от роботов, проверяющих на клоакинг, поэтому ничем не лучше использования IP подсетей.

myhand:
Наивный малыш. Среди этих IP есть куча тех, которые ровно никакого отношения к ботам. "Абсолютное большинство" (ц).

И чем это мешает решению задачи? Какая разница - бот это лезет, или модератор Яндекса?

И что, есть какая-то гарантия, что PTR у них не будет содержать слово yandex?

M
На сайте с 16.09.2009
Offline
278
#20
horofag:
Мда, а товарищ myhand действительно думает что нужно заносить именно адреса ботов 😂

А зачем вам адрес шлюза, за которым сидит ихняя секретутка?

horofag:
Давайте и вы будете. А то я взял из логов достаточно случайного бота - и его не оказалось в нс лизвеба и топнета.

Нет проблем, малыш (@dnscache.masterhost.ru):

$ dig -x 178.154.243.111
...
;; Query time: 3 msec
...
$ dig -x 178.154.243.111
...
;; Query time: 3 msec
...

Жду ответа на заданный ранее вопрос.

horofag:
Такой большой, а не можешь сам узнать?

Могу (и более того - знаю), но интересует меня - ваша оценка. Пожалуйста, выдайте ее. В абсолютных числах, в процентах - как сумеете, на многое от вас я не расчитываю. Статистику, а не результат отдельной проверки.

И лучше, конечно, в качестве примера брать более типовой сайт, нежели xml.yandex.ru. Надеюсь, сумеете сообразить почему?

horofag:
Я писал, что нужно проверять по юзер агенту и IP.

Я прекрасно это помню.

Вся проблема - как вы реализуете эту проверку по IP. Я предлагаю - делать так, как написано в документации. Вы - собрать все подсети яндекса из ripe и не париться.

Ladycharm:
Костыль. Он совершенно не спасает от роботов, проверяющих на клоакинг, поэтому ничем не лучше использования IP подсетей.

Поясните. Вы думаете, что реально подделать ptr у ip яндекса?!

Ladycharm:
И чем это мешает решению задачи? Какая разница - бот это лезет, или модератор Яндекса?

А что, кроме модераторов и поисковых ботов - там нет и ничего быть не может?

Ladycharm:
И что, есть какая-то гарантия, что PTR у них не будет содержать слово yandex?

Есть, конечно. Документация.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий