Игнорирование директив robots.txt

ДС
На сайте с 05.07.2016
Offline
1
747

Добрый день, коллеги.

В robots.txt прописана директива Disallow: /search и с таких страниц настроен 301 редирект, однако эти страницы все равно в индексе, согласно нетпик спайдеру. Например, https://clumus.com/ru/search/destination/Russia//?page=4

Также страницы загрузки файлов закрыты в роботсе Disallow: /file.php, но страница https://clumus.com/ru/file.php?id=61300&download все равно в индексе.

С чем это может быть связано?

genjnat
На сайте с 08.10.2008
Offline
230
#1
Даниил Сугаков:
Disallow: /search... Например, https://clumus.com/ru/search/destination/Russia//?page=4
https://clumus.com/ru/file.php?id=61300&download все равно в индексе.
С чем это может быть связано?

С /ru/

Сделайте

Либо Disallow: /ru/search

либо Disallow: /*search

И для Яндекса у вас задан отдельный блок правил

https://clumus.com/robots.txt

Который вообще ничего не запрещает

zveroangel
На сайте с 14.04.2011
Offline
174
#2

чтобы убедиться, что страница действительно закрыта от индексации - в Вебмастерах как яндекса, так и гугла можно в окошко Роботса вбивать варианты, а потом вписывать пример урла, который нужно закрыть, в соответствующее поле и кликать "проверить урл".

ДС
На сайте с 05.07.2016
Offline
1
#3

Большое спасибо за полный и быстрый ответ на мой вопрос. Про эксперименты с роботсом в вебмастере я узнал буквально вот час назад. Эксперименты также показали, что конструкция Disallow: */search, работает так же, как и предложенная вами Disallow: /*search. Есть ли между ними какая либо разница?

genjnat
На сайте с 08.10.2008
Offline
230
#4

Без разницы

RT
На сайте с 02.07.2012
Offline
90
#5
Даниил Сугаков:
Эксперименты также показали, что конструкция Disallow: */search, работает так же, как и предложенная вами Disallow: /*search. Есть ли между ними какая либо разница?

разница есть.

Конструкция вида /*search может запретить страницы вида /ilovesearchengines

если они у вас есть на сайте. Поэтому конкретно в вашем случае только */search

А все индексировалось в Яндексе из-за того, что вам выше сказали - для робота Яндекса не было запретов.

ДС
На сайте с 05.07.2016
Offline
1
#6

Ясно. Тогда у меня еще вопрос. ru/ на сайте появилось, потому что он планируется, как мультиязычный. Соответственно на текущий момент у нас контент практически дублируется. Потому что на каждую страницу site.com/category/ приходится своя страница site.com/ru/category/. Считаются ли эти страницы дублями?

[Удален]
#7
RT
На сайте с 02.07.2012
Offline
90
#8
Даниил Сугаков:
Потому что на каждую страницу site.com/category/ приходится своя страница site.com/ru/category/. Считаются ли эти страницы дублями?

если эти страницы отдают одинаковый контент, то это дубли. Я не могу знать что конкретно у вас не видя сайт

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий