- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте. Решил я закрыть сайт от некоторых особо назойливых ботов, в принципе ничего сложного:
В общем, из всего списка в логах появился только робот ahrefs.com с 301 ответом, хотя должна быть 403 ошибка:
Смотрю дальше и вижу адреса страниц, которых у меня на сайте нет вообще и так же с 301 ответом, страниц много, как будто подбирают/перебирают варианты, например:
Первая мысль, которая пришла в голову, - что что-то не так с htaccess. В Мозиллу через настройку general.useragent.override ввожу юзер агент ahrefs.com, и захожу на свой сайт, все в порядке 403:
Вопросы следующие:
1. Почему сайт отдает роботу ahrefs.com 301 и что сделать, чтобы отдать этому боту 403 ошибку?
2. Откуда и главное, зачем ahrefs.com берет страницы, которых у меня нет?
Первое, что приходит в голову:
на вас ставят линки на несуществующие страницы, чтоб они появились в ПС и поисковики наложили фильтр за дубликат контента.
Второе - ahrefs привлекает клиентов, они рефспамят 🤪 - вебмастера заходят на их сайт и покупают подписки.
1. Почему сайт отдает роботу ahrefs.com 301 и что сделать, чтобы отдать этому боту 403 ошибку?
Чуть выше по коду никаких редиректов нету (с www на без www например)?
2. Откуда и главное, зачем ahrefs.com берет страницы, которых у меня нет?
Чуть выше по коду никаких редиректов нету (с www на без www например)
Выше кода стоит только это:
в базе ahrefs-а есть ссылка.. могла попасть со своего сайта (страница была раньше.. или ошибочная ссылка.. заменяют ? на @ грабберы/парсеры) или с чужого (кто-нибудь ошибся специально или намеренно)
Таких страниц никогда не было, на счет ошибочных страниц и замен никогда не наблюдал, что касается перехода с чужого сайта не знаю..., но, по крайней мере в индексе Я и Г (если проверять через поиск) я не видел ни одной ссылки, хотя конечно сайт (сайты) может и не быть в индексе ПС.
Да и страниц несуществующих много, например:
А если так?
И по несуществующим. У вас система должна отдавать 404 не надеясь на блокировку в .htaccess. Например, что видит Яндекс при заходе на такую несуществующую страницу?
А если так?
Поставил, протестировал (мозилла -> general.useragent.override) работает, подожду прихода ботов.
Мой вариант тоже работает, сегодня ночью приходили боты majestic и SearchBot оба получили 403.
И по несуществующим...
На несуществующие страницы отдается 404
Многие уважающие себя аналогичные сервисы предоставляют возможность вебмастеру запретить посещение его сайта роботом.
Для ahrefs можно почитать здесь (раздел How to turn it off?)
нужно указать, что ваш реврайт последний и прекратить выполнение других реврайтов, т.е. последняя строка должна быть
хотя мне больше нравится вариант приведенный выше. немного дополню его
возможно прокатит и без зведочек, сейчас не могу проверить
возможно прокатит и без зведочек, сейчас не могу проверить
прокатит, одно и тоже по сути...
нужно указать, что ваш реврайт последний и прекратить выполнение других реврайтов, т.е. последняя строка должна быть
Так не последний, ниже у меня идут еще строки реврайтов, например, такие:
Так не последний, ниже у меня идут еще строки реврайтов
я имел ввиду: последняя строка в вашем блоке рерайта.
буковку L добавьте, она прервет выполнение всех оставшихся рерайтов в .htaccess
upd:
кстати, в этом блоке тоже буковка L не помешает: