Помогите разобраться с robots.txt

Игорь Скляр
На сайте с 17.03.2008
Offline
99
370

Суть:

На сайте есть страницы вида /page.php, которые полностью дублируют страницы /page.html.

Соответственно нужно прописать правило, которое запретит индексировать страницы /page.php.

Я понимаю как запретить какую то конкретную страницу, но как запретить индексировать все страницы, заканчивающиеся на .php так чтобы при этом страницы .html не затронуть?

И возможно нужно что то прописать в .htaccess, чтобы эти дубли не плодились?

The WishMaster
На сайте с 29.09.2005
Offline
2542
#1

Конечно, логичнее, чтобы их вообще не было.

Кому старенького креативного копирайтера? Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
Игорь Скляр
На сайте с 17.03.2008
Offline
99
#2
The WishMaster:
Конечно, логичнее, чтобы их вообще не было.

Конечно логичнее. И для этого нужно создать какое то правило в htaccess.

Я так понимаю должно быть примерно это:

RewriteCond %{REQUEST_FILENAME} !-f

RewriteRule ^([a-zA-Z0-9_-]{1,225}).html$ $1.php [L]

RewriteRule ^([a-zA-Z0-9_-]{1,225}).htm$ $1.php [L]

Но насколько это верно не знаю, надеюсь на помощь знатоков.

[Удален]
#3

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - робот индексирует их наравне с другими документами.

Игорь Скляр
На сайте с 17.03.2008
Offline
99
#4
juliacontent:
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - робот индексирует их наравне с другими документами.

Спасибо за информацию, но я совсем о другом спрашивал

Had
На сайте с 01.04.2014
Offline
596
Had
#5

Игорь Скляр, что мешает сделать так?:

Disallow: /*.php

Это заперт на индексацию всех ссылок которые содержат буквы php.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий