Ничего мудрёного, это делается не для какого-то определённого сайта отдельно, а для множества одновременно. Запросы создаются по словарям. Вся выдача заранее спарсена по множеству запросов. Если к сайту нет доступа по прямым и т.п. заходам, бот смотрит по базе, где сайт есть в выдаче. Теория, но вроде логичная.
Возможно, не просто так яндекс xml закрывает.
Блокируйте спамные сетки на прямые заходы, там будет не более 10 сеток. После этого спам с прямых заходов можно будет считать по пальцам.
Крупнейший поставщик таких заходов - Ростелеком Москва, как вы себе представляете его блокировку?
Боты с Яндекс поиска по релевантным фразам?
Мистика
Абсолютли. В какой-то из тем я уже рассказывал, но расскажу ещё раз. У меня есть сайт по обучению и с инструкциями по старой технике. Эта техника не используется уже более 10 лет по различным причинам. Она не просто устарела, а её использовать в принципе невозможно. Представьте, что это принтер с драйверами только под windows 95, заправку и расходники на него найти невозможно. А теперь добавьте к этому ещё и то, что это специализированная техника и в Россию она официально не завозилась. В теории может такое быть, что 1 посетитель в пару месяцев зайдёт с поиска на такую страницу. Но то, что таких посетителей 1-3 каждый день, да ещё и на десятки моделей просто исключено. Так вот у меня есть сайт с такими посетителями и всё там выглядит нормально и осознанно, если не учитывать, что искать это люди не могут. Запросы составные, а не просто по заголовкам и т.п. А если сайт актуальный, то распознать такие заходы просто невозможно.
Моё мнение, что есть смысл пытаться блокировать, если сайт совсем маленький, тогда есть шанс, что от вас частично отстанут. Либо в случаях с сильно высокой нагрузкой можно фильтровать битерику, ahrefs и прочий мусор, который даже не пытается скрываться. На сайтах с посещаемостью от 1000 хостов в день любые действия приводят к переключению ботов на другие методы, а постоянно ужесточать правила невозможно, чтобы в итоге это не превратилось в анал-карнавал с 3 капчами. На экспериментальном сайте я дошёл до того, что боты ходят всего двумя способами: 1. прямые заходы на главную, как-то сильно блокировать это глупо, если есть постоянная аудитория; 2. заходы с яндекса, которые без внимательного анализа невозможно отличить от нормальных посетителей, фильтровать такое невозможно, да и глупо сразу вываливать всем подряд гуглокапчу, например.
Вот так выглядит "победа" над ботами, но их % не изменился в сравнении с тем, что было до клауда и остался на уровне 5-10% по метрике и около 30% по факту.
Потому что метрика в целом плохо считает ботов. Часто возюканье мышкой и скролл туда-сюда по одному месту 2 минуты для неё это не бот, а нашедший за 20 секунд нужный ответ реальный человек -- бот.Также бывают случаи, когда счётчик крутится на сохранённых страницах или ещё как-то за пределами сайта, и всё это учитывается в роботов несмотря ни на какие настройки.
Вот ещё интересный пример, как замена неспособного определять роботов древнючего кода метрики на новый привела к росту роботности. Я скорее поверю в то, что метрика +/- от балды рисует этот параметр, чем в случайность или то, что боты как-то там подстраиваются под версию счётчика.
Учёл, при такой низкой посещалке заходов по ссылкам и прямых будет около нуля, ими можно пренебречь.
Масштаб )))
Если ось Y на графике - 60 000 - 80 000 "посетителей" в сутки, то в масштабе в сравнении - 2 000 посетителей превратятся в тонкую полосочку.
2000 посетителей за 10 дней?Потому что при 2000 посетителей в сутки, при учёте, что одна ячейка это "50 часов / 250 чел." график должен быть в среднем в районе 16% от высоты ячейки, т.е. в районе ~25-30% в дневное время из-за спада ночью. На скриншоте такого и близко нет. Скорее это сайт с 200-500 посетителями в день в лучшем случае.
Да, эту сказку я тоже слышал.
Как и твои сказки про успешную настройку для поиска дурачков, желающих за это заплатить.Что я должен увидеть на этом скриншоте? То, что можно заблокировать ботов на сайте с посещаемостью 100 хостов в день? Так я об этом как раз и написал, это не эффективность методики, а лишь подтверждение, что такие сайты ботам не особо и нужны, чтобы подстраиваться под них.