Какие последствия использования недопустимых символов в robots.txt?

de_n
На сайте с 23.06.2008
Offline
32
1659

Здравствуйте, Уважаемые коллеги!

Перед началом хотел бы сразу отметить, что вопрос не про правильное составление robots.txt для DataLife Engine, а про возможные последствия использования недопустимого символа в файле robots.txt.

У меня имеется сайт на движке DataLife Engine (DLE). Как многим известно, в этом движке имеется функция "Версия страницы для печати". И многие понимают, что лучше всего эту страницу запретить для индексации, т.к. в результате ПС может выдавать в выдаче именно эти страницы, а не оригинальные (из-за того, что страницы для печати весят значительно меньше своих оригиналов) или, что еще хуже, в индексе могут остаться страницы с версиями для печати, а оригиналы просто напросто удалены (был один печальный опыт...). Поискав в Google правильный robots для движка DLE везде встречались только robots с параметрами Disallow: /*print - но это совершенно неправильно, т.к. если в названии html-страницы будет присутствовать слово Print (например: принтер, FinePrint и т.д.), то эти страницы так же не будут индексироваться ПС.

Адрес страницы для печати в DLE всегда имеет следующий вид: http://www.ваш_сайт.ру/категория/print:page,1,ID-название-новости.html

И, следуя из этого, я решил поставить для запрета индексации "страниц для печати" следующий параметр:

Disallow: /*print:page

Далее, я зашел в панель вебмастера Google и сделал проверку моего robots.txt - вуаля, страницы для печати не индексируются, а остальные новости, содержащие в своем названии слово Print уже нормально индексируются ПС.

После Веб-панели Гугла я, соответственно, тут же отправился в Я.Вебмастер, чтобы проверить новый robots.txt. НО, при проверке файла Роботса Яндекс выдал мне предупреждение: "Возможно, был использован недопустимый символ". Т.е., получается Яшка матюкнулся на символ двоеточия (":"), который по его мнению "возможно является недопустимым символом". Хотя при проверке набора различных страниц сайта, включая версии для печати, обычные страницы, страницы с названиями, в которых присутствует слово print, Яндекс выдал ожидаемый (желанный) результат:

Страницы для печати - не будут проиндексированы;

Страницы, в названии которых присутствует слово print - будут проиндексированы;

Обычные страницы - будут проиндексированы.

И так, вопрос: Какие могут быть последствия использования в параметрах robots.txt "возможно недопустимых" символов, в данном случае ИМЕННО символа двоеточия?

Disallow: /*print:page

Думаю, что данная тема будет многим интересной и, возможно, актуальной!

Спасибо!

Зарплата вебмастера! (http://www.sape.ru/r.50587d68cb.php)
[Удален]
#1

Тоже только, что задался точно таким же, погуглил и вышел на эту тему :)

Поэкспериментировал с

Disallow: /*print*page

после проверки получается (адреса на шару вбил)

/news/678,print:page,1,3 запрещен правилом /*print*page*

/news/print.html разрешен

синтаксических ошибок нет

Цахес
На сайте с 15.03.2007
Offline
205
#2
de_n:
Яндекс выдал мне предупреждение: "Возможно, был использован недопустимый символ".

Яндекс предполагает, а не утверждает. Смотрите лучше на результат - "запрещен правилом /*print:page*". Всё будет работать.

А по поводу последствий, скорее всего, некорректно заполненная директива Disallow будет проигнорирована.

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).
T
На сайте с 10.08.2009
Offline
0
#3

У меня были недопустимые символы, но последствий никаких не было.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий