Игнорирование директив robots.txt

1

15 июля 2016, 06:06

747

Добрый день, коллеги.

В robots.txt прописана директива Disallow: /search и с таких страниц настроен 301 редирект, однако эти страницы все равно в индексе, согласно нетпик спайдеру. Например, https://clumus.com/ru/search/destination/Russia//?page=4

Также страницы загрузки файлов закрыты в роботсе Disallow: /file.php, но страница https://clumus.com/ru/file.php?id=61300&download все равно в индексе.

С чем это может быть связано?

230

genjnat

15 июля 2016, 06:29

#1

Даниил Сугаков:
Disallow: /search... Например, https://clumus.com/ru/search/destination/Russia//?page=4
https://clumus.com/ru/file.php?id=61300&download все равно в индексе.
С чем это может быть связано?

С /ru/

Сделайте

Либо Disallow: /ru/search

либо Disallow: /*search

И для Яндекса у вас задан отдельный блок правил

https://clumus.com/robots.txt

Который вообще ничего не запрещает

1

174

zveroangel

15 июля 2016, 06:36

#2

чтобы убедиться, что страница действительно закрыта от индексации - в Вебмастерах как яндекса, так и гугла можно в окошко Роботса вбивать варианты, а потом вписывать пример урла, который нужно закрыть, в соответствующее поле и кликать "проверить урл".

ДС

1

Даниил Сугаков

15 июля 2016, 07:36

#3

Большое спасибо за полный и быстрый ответ на мой вопрос. Про эксперименты с роботсом в вебмастере я узнал буквально вот час назад. Эксперименты также показали, что конструкция Disallow: */search, работает так же, как и предложенная вами Disallow: /*search. Есть ли между ними какая либо разница?

Монетизация канала с помощью Как повысить авторитетность автора Джон Мюллер: Google не

230

genjnat

15 июля 2016, 07:45

#4

Без разницы

RT

90

Russian Traveller

15 июля 2016, 08:23

#5

Даниил Сугаков:
Эксперименты также показали, что конструкция Disallow: */search, работает так же, как и предложенная вами Disallow: /*search. Есть ли между ними какая либо разница?

разница есть.

Конструкция вида /*search может запретить страницы вида /ilovesearchengines

если они у вас есть на сайте. Поэтому конкретно в вашем случае только */search

А все индексировалось в Яндексе из-за того, что вам выше сказали - для робота Яндекса не было запретов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

ДС

1

Даниил Сугаков

15 июля 2016, 12:28

#6

Ясно. Тогда у меня еще вопрос. ru/ на сайте появилось, потому что он планируется, как мультиязычный. Соответственно на текущий момент у нас контент практически дублируется. Потому что на каждую страницу site.com/category/ приходится своя страница site.com/ru/category/. Считаются ли эти страницы дублями?

[Удален]

15 июля 2016, 12:38

#7

Даниил Сугаков, http://support.yandex.ru/support/webmaster/yandex-indexing/locale-pages.xml

RT

90

Russian Traveller

15 июля 2016, 13:38

#8

Даниил Сугаков:
Потому что на каждую страницу site.com/category/ приходится своя страница site.com/ru/category/. Считаются ли эти страницы дублями?

если эти страницы отдают одинаковый контент, то это дубли. Я не могу знать что конкретно у вас не видя сайт

Курс биткоина превысил $50 тысяч

Что такое Power BI и зачем это нужно бизнесу