Проверка бота Яндекс-гугл. Есть ли что-то готовое ?

12
_
На сайте с 24.03.2008
Offline
381
1855

Яндекс рекомендует проверять по имени

http://help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml

Есть ли подобные рекомендации от гугла ? (сходу не нагуглилось)

Есть ли примеры чего-то готового для nginx для проверки бот стучится или нет.

Собственно хотелось бы, чтобы leaky bucket для ботов (я+г) не работал, а работал

для всех остальных ботов, посетителей итп.

Можно это конечно и к fail2ban привинтить, но лучше бы к nginx-у

Rodnoi
На сайте с 11.03.2013
Offline
195
#1

Клоака? ) Нужно банить по сеткам, по юзер агентам - ерунда, ходят и с обычных якобы пользовательских. За Гугл могу точно сказать. Мы его палили по времени загрузки страниц, т.к. бот их грузит очень быстро (точных цифр не помню, но это являлось основным критерием). Готового под рукой нет, да и это стоит денег.

Все по жести.
Mik Foxi
На сайте с 02.03.2011
Offline
1076
#2

гугловские также видны по whois ip

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.
J
На сайте с 20.02.2014
Offline
120
jkm
#3
kxk
На сайте с 30.01.2005
Offline
970
kxk
#4

jkm, Я лично веду белые списки по подсетям.

C from я уже видел ddos ботов.

Ваш DEVOPS
Mik Foxi
На сайте с 02.03.2011
Offline
1076
#5

если парсер прикидывается гуглоботом - то и этот заголовок не проблема передать.

юни
На сайте с 01.11.2005
Offline
901
#6
_SP_:
хотелось бы, чтобы leaky bucket для ботов (я+г) не работал

Для этого хватит официальных мануалов и проверки ip по хуизам (совпадение организации/мантейнера/автономки).

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Andreyka
На сайте с 19.02.2005
Offline
822
#7

Есть такой прикольный сайт http://bgp.potaroo.net/cidr/autnums.html

Парсим, получаем список автономок и по ним проверяем

Например, вот запрос на листинг IP автономки yandex.money:

$ whois -h whois.ripe.net -i origin -T route AS43247 | grep -w "route:" | awk '{print $NF}' |sort -n

77.75.152.0/21

77.75.152.0/22

77.75.156.0/24

77.75.157.0/24

77.75.158.0/24

77.75.159.0/24

109.235.160.0/21

109.235.160.0/24

Не стоит плодить сущности без необходимости
_
На сайте с 24.03.2008
Offline
381
#8
юни:
Для этого хватит официальных мануалов и проверки ip по хуизам (совпадение организации/мантейнера/автономки).

Человек такая ленивая скотина, неужели нет уже готового ?, как без этого пользоваться модулем непонятно...

Чую придется конечно читать кучу ман-ов...

---------- Добавлено 18.06.2014 в 14:16 ----------

Andreyka:
Есть такой прикольный сайт http://bgp.potaroo.net/cidr/autnums.html

Парсим, получаем список автономок и по ним проверяем

Например, вот запрос на листинг IP автономки yandex.money:
$ whois -h whois.ripe.net -i origin -T route AS43247 | grep -w "route:" | awk '{print $NF}' |sort -n
77.75.152.0/21
77.75.152.0/22
77.75.156.0/24
77.75.157.0/24
77.75.158.0/24
77.75.159.0/24
109.235.160.0/21
109.235.160.0/24

По мне, так не слишком хорошее решение.

1. Как поддерживать список адекватным ? Вручную ? Не хочу.

2. Сам яндекс рекомендует ведь другие способы... не вижу почему бы не

использовать механизм проверки по имени.

Все видится довольно простым, но самому огород городить если честно не хочется.

По-хорошему кеш какой-то ip-шников бы иметь итд итп, для этого надо внятно

понимать как там nginx работает. Подозреваю на каком-нибудь lua надо написать

некий "аплет".

Меня пугает не перспектива всё это делать, а явная бессмысленность этой работы.

Очевидно же, что используя leaky bucket ВСЕ сталкивались с этой проблемой,

но почему-то готового решения нету. Неужели "не взлетит" ?

Или я просто не умею искать ?

Andreyka
На сайте с 19.02.2005
Offline
822
#9

1. Написать скрипт автоматизации

2. Яндекс часто обманывает, и тут не исключение

_
На сайте с 24.03.2008
Offline
381
#10
Andreyka:

2. Яндекс часто обманывает, и тут не исключение

Т.е. у вас есть личные наблюдения, что пауки забирают странички тысячами

c ip резолвящимися без слов яндекс, и это пауки яндекса ?

И при этом эти ip еще и приписаны к яндексу ?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий