Вопрос по robots.txt

BM
На сайте с 09.08.2001
Offline
76
785

В движке своего сайта я использую фишку "searchengines friendly urls"

То бишь мои урлы выглядят примерно так:

http://linuxportal.ru/forums/index.php/t/13106/

То есть движок на лету преобразует урлы с "?", "&" и "=" в урлы со слэшами. Понятно, что физически каталогов /index.php/t/13106/ на серваке не существует

но на форуме есть куча сервисных страниц, таких как "профиль участника", "послать личное сообщение" и т.п. с такими урлами:

http://linuxportal.ru/forums/index.php/u/4/

http://linuxportal.ru/forums/index.php/pmm/toi/4/

Мне не хочется что бы роботы "отвлекались" на эти не важные страницы, а индексили страницы только с темами и постами.

Заключать в тег NOINDEX ссылки на второстепенные страницы во всех шаблонах движка трудоемко и не гарантирует 100%-ного охвата.

Вопрос:

Если я включу в robots.txt строки:

Disallow: /index.php/u/

Disallow: /index.php/pmm/toi/

сработает ли это, несмотря на то, что физически папки "index.php" на диске не существует?

Заранее спасибо :)

Макс

[Удален]
#1

Может я и ошибаюсь, но по-моему так и надо делать. Ведь робот поисковика не знает, что у вас там апач подставляет - он просто не пойдет по ссылкам этого вида.

BM
На сайте с 09.08.2001
Offline
76
#2

Не запретит ли команда

Disallow: /index.php/pmm/toi/

индексацию уровня /index.php/ в том случае, если robots.txt лежит в корне сайта

уж очень боязно запретить то, что необходимо индексировать...

Polite Moose
На сайте с 22.04.2002
Offline
85
#3
Вопрос:
Если я включу в robots.txt строки:

Disallow: /index.php/u/
Disallow: /index.php/pmm/toi/

сработает ли это

Нет не сработает. Следует писать:

Disallow: /forums/index.php/u/

Иначе ты запрещаешь то, что находится (может находиться) в корневом каталоге.

сработает ли это, несмотря на то, что физически папки "index.php" на диске не существует?

А робот об этом знает? Да ему плевать, он по ссылкам ходит а не по дереву каталогов.

Не запретит ли команда
Disallow: /index.php/pmm/toi/
индексацию уровня /index.php/ в том случае, если robots.txt лежит в корне сайта

Нет не запретит. А robots.txt только в корень и кладется.

Удачи, доброго пива (http://www.fifth-ocean.ru/) и настроения! Релевантность определяется не тИЦ, не ВИЦ, не количеством ссылок, не частотой ключевого слова, а соответствием запросу!
BM
На сайте с 09.08.2001
Offline
76
#4

Спасибо огромное :)

Очень помогли :) Всяческих удач :)

AZ
На сайте с 17.07.2003
Offline
106
AAZ
#5

BelMax,

Здравсвуйте.

А что такое "searchengines friendly urls"?

BM
На сайте с 09.08.2001
Offline
76
#6

Существует мнение, что роботы некоторых поисковиков плохо индексирую

Часть современных сайтов построены на основе систем управления контентом, имеющих такой недостаток - они плохо индексируются некоторыми поисковиками из-за сложных адресов страниц, подобных этому:

http://www.yoursite.com/comments.php?id=1_0_1_0_C

Проблема в том, что такой адрес содержит символы ? # & =

Поисковые роботы, которые индексируют сайт не могут "переварить"

такие адреса и страницы не попадают в поисковик.

Но в некоторых из систем, эта проблема решена. Адреса на лету преобразуются в такой формат:

http://www.yoursite.com/comments/1_0_1_0_C/

То есть в нем кроме букв и цифр есть только косая черта, которую

понимает любой поисковый робот и страницы индексируются на "ура".

Вот эта фича и называется "searchengines friendly urls"

У меня форум не индексировался из-за этого около года

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий