Mod Rewrite и robots.txt

З
На сайте с 01.09.2006
Offline
10
720

Приветствую!

Ситуация следующая:

На сайте есть одинаковые страницы вида www.сайт.ru/страница.htm и www.сайт.ru/директория/страница.html

Все ссылки проставлены на страницы вида www.сайт.ru/страница.htm

Но внезапно появились какие-то проблемы (в Яндексе стали выдаваться совершенно "непрокаченные" страницы вида /директория/страница.html)...

В .htaccess прописано следующим образом:

RewriteEngine On

RewriteBase /

RewriteRule ^страница.htm$ /директория/страница.html

Все ли будет в порядке, если в robots.txt прописать следующее:

User-agent: *

Disallow: /директория/страница.html

Т.е. если закрыть от индексации все ненужные страницы-дубли (в самом движке в основном все пути вида страница.htm, но пути вида /директория/страница.html тоже встречаются) все ли будет нормально?

T
На сайте с 11.08.2005
Offline
181
#1
Заглянул:

Все ли будет в порядке, если в robots.txt прописать следующее:
User-agent: *
Disallow: /директория/страница.html

Т.е. если закрыть от индексации все ненужные страницы-дубли (в самом движке в основном все пути вида страница.htm, но пути вида /директория/страница.html тоже встречаются) все ли будет нормально?

Сложно излагаете...

Если Вы хотите закрыть все страницы, адреса которых начинаются с префиксов /директория/страница.html, тогда все будет в порядке.

Вот ссылка на сервис от Яндекса для проверки robots.txt : http://www.yandex.ru/cgi-bin/test-robots?host=

З
На сайте с 01.09.2006
Offline
10
#2
Timen:
Сложно излагаете...

Если Вы хотите закрыть все страницы, адреса которых начинаются с префиксов /директория/страница.html, тогда все будет в порядке.

Вот ссылка на сервис от Яндекса для проверки robots.txt : http://www.yandex.ru/cgi-bin/test-robots?host=

Сложно излагаю потому что сайт с движка на движок переходил (правда давно это было) и мод реврайт слегка запутан...

Нет, не все, а только некоторые, которые дублируются в виде просто страница.htm...

Ладно, по теории вроде все верно... Будем пробовать... Хуже _уже_ не будет:)

З
На сайте с 01.09.2006
Offline
10
#3

А вообще я не уверен...

Смотрю ресурс http://robotstxt.org.ru/RobotstxtErrors и пока не понимаю можно ли и как именно запретить индексацию отдельных страниц, а не всей директории.

Сделал вида:

Disallow: /директория/страница.html

- Яндекс пишет "Данный файл robots.txt ничего не запрещает"😕

Каширин
На сайте с 03.01.2004
Offline
1018
#4
Заглянул:
Сделал вида:
Disallow: /директория/страница.html
- Яндекс пишет "Данный файл robots.txt ничего не запрещает"😕

А блок

User-Agent: Yandex
- где? ;)
З
На сайте с 01.09.2006
Offline
10
#5
Каширин:
А блок - где? ;)

Спасибо! Работает! А то я уже опух и не учел.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий