- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Яндекс рекомендует проверять по имени
http://help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml
Есть ли подобные рекомендации от гугла ? (сходу не нагуглилось)
Есть ли примеры чего-то готового для nginx для проверки бот стучится или нет.
Собственно хотелось бы, чтобы leaky bucket для ботов (я+г) не работал, а работал
для всех остальных ботов, посетителей итп.
Можно это конечно и к fail2ban привинтить, но лучше бы к nginx-у
Клоака? ) Нужно банить по сеткам, по юзер агентам - ерунда, ходят и с обычных якобы пользовательских. За Гугл могу точно сказать. Мы его палили по времени загрузки страниц, т.к. бот их грузит очень быстро (точных цифр не помню, но это являлось основным критерием). Готового под рукой нет, да и это стоит денег.
гугловские также видны по whois ip
https://support.google.com/webmasters/answer/80553?hl=ru
По полю From в заголовках
http://googlewebmastercentral.blogspot.com/2008/03/first-date-with-googlebot-headers-and.html
jkm, Я лично веду белые списки по подсетям.
C from я уже видел ddos ботов.
По полю From в заголовках
http://googlewebmastercentral.blogspot.com/2008/03/first-date-with-googlebot-headers-and.html
если парсер прикидывается гуглоботом - то и этот заголовок не проблема передать.
хотелось бы, чтобы leaky bucket для ботов (я+г) не работал
Для этого хватит официальных мануалов и проверки ip по хуизам (совпадение организации/мантейнера/автономки).
Есть такой прикольный сайт http://bgp.potaroo.net/cidr/autnums.html
Парсим, получаем список автономок и по ним проверяем
Например, вот запрос на листинг IP автономки yandex.money:
$ whois -h whois.ripe.net -i origin -T route AS43247 | grep -w "route:" | awk '{print $NF}' |sort -n
77.75.152.0/21
77.75.152.0/22
77.75.156.0/24
77.75.157.0/24
77.75.158.0/24
77.75.159.0/24
109.235.160.0/21
109.235.160.0/24
Для этого хватит официальных мануалов и проверки ip по хуизам (совпадение организации/мантейнера/автономки).
Человек такая ленивая скотина, неужели нет уже готового ?, как без этого пользоваться модулем непонятно...
Чую придется конечно читать кучу ман-ов...
---------- Добавлено 18.06.2014 в 14:16 ----------
Есть такой прикольный сайт http://bgp.potaroo.net/cidr/autnums.html
Парсим, получаем список автономок и по ним проверяем
Например, вот запрос на листинг IP автономки yandex.money:
$ whois -h whois.ripe.net -i origin -T route AS43247 | grep -w "route:" | awk '{print $NF}' |sort -n
77.75.152.0/21
77.75.152.0/22
77.75.156.0/24
77.75.157.0/24
77.75.158.0/24
77.75.159.0/24
109.235.160.0/21
109.235.160.0/24
По мне, так не слишком хорошее решение.
1. Как поддерживать список адекватным ? Вручную ? Не хочу.
2. Сам яндекс рекомендует ведь другие способы... не вижу почему бы не
использовать механизм проверки по имени.
Все видится довольно простым, но самому огород городить если честно не хочется.
По-хорошему кеш какой-то ip-шников бы иметь итд итп, для этого надо внятно
понимать как там nginx работает. Подозреваю на каком-нибудь lua надо написать
некий "аплет".
Меня пугает не перспектива всё это делать, а явная бессмысленность этой работы.
Очевидно же, что используя leaky bucket ВСЕ сталкивались с этой проблемой,
но почему-то готового решения нету. Неужели "не взлетит" ?
Или я просто не умею искать ?
1. Написать скрипт автоматизации
2. Яндекс часто обманывает, и тут не исключение
2. Яндекс часто обманывает, и тут не исключение
Т.е. у вас есть личные наблюдения, что пауки забирают странички тысячами
c ip резолвящимися без слов яндекс, и это пауки яндекса ?
И при этом эти ip еще и приписаны к яндексу ?