Робот Яндекса находит сотни тысяч несуществующих url

K7
На сайте с 31.07.2015
Offline
0
2267

Робот Яндекса уже на протяжении месяцев по ссылкам находит сотни тысяч несуществующих url с адресом сайта.

Все они представляют собой вариации существующих url с добавлением комбинации букв и цифр в строке, например:

www.mysite.ru/dvigatel/opisanie?627cd

www.mysite.ru/dvigatel/opisanie?894.mp3

В большинстве случаев комбинации букв и цифр произвольные, похожи на обрезки идентификатора сессии (на сервере в php.ini session.use_trans_sid отключено). Встречаются и куски слов, или, как на примере выше, ".mp3.", хотя на сайте никаких mp3 близко нет и никогда не было, что наводит на подозрения.

Обращение в техподдержку Яндекса плодов не принесло:


По всей видимости, робот где-то в интернете или на Вашем сайте обнаружил ссылки на подобные адреса и поэтому попытался их проиндексировать. Данный процесс организован полностью автоматически: робот узнаёт о страницах, посещая как уже известные страницы Вашего сайта, так и страницы других ресурсов, собирает данные из файлов sitemap и других источников. Однако индексирует робот только те страницы, на которые присутствуют ссылки.

Также в качестве примера сайтов, на которых появились некорректные ссылки привели 2 сайта наших же филиалов. Их полное сканирование через XENU некорректных ссылок не обнаружило.

Картина в веб-мастере выглядит следующим образом:

Количество запросов робота иногда выглядит так (на сайте менее 4000 страниц):

Кто-нибудь сталкивался с чем-либо подобным, каким образом можно попытаться вычислить источник этих ссылок?

A
На сайте с 22.11.2012
Offline
80
#1

Вариантов появления такого несколько:

1. Левые боты переходят по "несуществующим адресам" и Яндекс через метрику видит их и индексирует.

2. Конкуренты, воспользовавшись тем, что 404 ошибка на сайте не настроена должным образом загоняют в выдачу рандомные урлы.

Несуществующие ссылки отдает 200 ответ или 404?

Sterh
На сайте с 15.06.2006
Offline
226
#2

Закройте по маске в robots.txt все, что идет после ? и будет Вам щасте ))

А сейчас получаются дубли страниц, и в скором времени может случиться просадка позиций.

Программа для настройки внутренней перелинковки сайта: купить (http://www.page-weight.ru/) Проверка внешних ссылок на сайт (https://backlink.page-weight.ru) (когда Ахрефс дорого) Возьму на продвижение пару магазинов, & SEO консультации (/ru/forum/987866) для сложных случаев.
Оптимизайка
На сайте с 11.03.2012
Offline
396
#3
Голубая лагуна:
В роботсе позакрывайте такие дубли страниц, если они есть и все. Больше ничего не можете сделать.

Еще можно в страницах http://www.mysite.ru/dvigatel/opisanie прописать canonical url ну или вообще на уровне веб-сервера сделать 301 переадресацию на правильную страницу. Была похожая проблема

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
K7
На сайте с 31.07.2015
Offline
0
#4

Alchemis, Оптимизайка,

Спасибо, природа происхождения проблемы понятна. Действительно, отдается 200-й код, но по техническим причинам поставить 404-й (или 301-й с редиректом) на такие url сейчас проблематично, canonical установлен.

Sterh, Голубая лагуна,

Спасибо, закрыл в robots по маске.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий