Помогите разобраться с robots.txt

12
K
На сайте с 27.08.2007
Offline
15
1011

Мне для обмена предложены две страницы с разных сайтов, не могу понять запрещены эти страницы к индексации или нет, помогите разобраться первая строка адреc страницы вторая строка из robots.txt

1. www.--------.ru/categories/12/?first=0

2. Disallow: /?

1. www.--------.ru/links/index.htm?part=9

2. Disallow: /?

Спасибо.

Только без фанатизма ...
Artlight
На сайте с 15.09.2003
Offline
123
#1

не запрещены

Самый простой способ узнать - сунуть страницу в аддурлку

Обменяю свой вмр на ваш яд курс 1-1
C
На сайте с 08.12.2006
Offline
63
#2
koles:
Мне для обмена предложены две страницы с разных сайтов, не могу понять запрещены эти страницы к индексации или нет, помогите разобраться первая строка адреc страницы вторая строка из robots.txt

1. www.--------.ru/categories/12/?first=0
2. Disallow: /?

1. www.--------.ru/links/index.htm?part=9
2. Disallow: /?

Спасибо.

2. по идее Disallow:/categories/12/?

Гугл понимает, яндекс говорит не верный формат, как сделать правильно, сам не знаю :)

K
На сайте с 27.08.2007
Offline
15
#3
Artlight:
не запрещены

Самый простой способ узнать - сунуть страницу в аддурлку

Выдает, по обеим страницам:

Адрес www.-------.ru/categories/12/?first=0 успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска.

Добавление URL не гарантирует, что он будет проиндексирован, это лишь один из способов сообщить роботу поисковой системы, что появился новый сайт.

Внимание! Сервер не выдает дату документа, поэтому в результатах поиска дата для него показываться не будет.

1. Я это делал дней 10 назад, страница не добавилась

2. Почему она до сих пор не проиндексирована: у сайта тиц 2к с копейками и страница в двух кликах.

3. На запрос у Google - site:www.--- обе страницы отсутствуют.

Anetta
На сайте с 26.01.2007
Offline
33
#4

koles, проверьте тут как Яндекс видит файл robots.txt сайта www.-------.ru

http://www.yandex.ru/cgi-bin/test-robots

а здесь все о файле robots.txt (в частности - о запрете к индексации страниц)

http://robotstxt.org.ru/RobotsExclusion/spec#h87-7

Чтобы оставаться на месте, нужно очень быстро бежать...
K
На сайте с 27.08.2007
Offline
15
#5
Anetta:
koles, проверьте тут как Яндекс видит файл robots.txt сайта www.-------.ru
http://www.yandex.ru/cgi-bin/test-robots

а здесь все о файле robots.txt (в частности - о запрете к индексации страниц)
http://robotstxt.org.ru/RobotsExclusion/spec#h87-7

Спасибо, результат:

1. Запрещена индексация всех URL, начинающихся с указанных префиксов: /?

2. По этой ситуации ничего нет.

AVV
На сайте с 31.07.2006
Offline
84
AVV
#6
Disallow: /?

означает, что запрещены к индексации все URL, начинающиеся с ? от корня сайта.

Т.е. запрещено:

www.site.ru/?

если нужно запретить www.site.ru/categories/12/?first=0

напишите так:

Disallow: /categories/12/?first=0

или так:

Disallow: /categories/12/?

или так:

Disallow: /categories/12/
Artlight
На сайте с 15.09.2003
Offline
123
#7
koles:
Выдает, по обеим страницам:
Адрес www.-------.ru/categories/12/?first=0 успешно добавлен

Это и значит, что НЕ запрещен, для запрещенных говорит что-то типа "страница запрещена к индексации"

K
На сайте с 27.08.2007
Offline
15
#8
AVV:
означает, что запрещены к индексации все URL, начинающиеся с ? от корня сайта.
Т.е. запрещено:
www.site.ru/?

Я тоже так посчитал и ответные ссылки поставил, но при очередной проверке ответных ссылок Semonitor 3 выдал, что сайты запрещены robots.txt к индексации, я, полагаясь на программу, удалил соответствующие ссылки. Через пару дней решил проанализировать и не смог понять кто прав.

Сейчас Semonitor 3 показывает:

1. --------.ru/categories/12/?first=0 - запрещен

2. Disallow: /?

1. --------.ru/links/index.htm?part=9 - разрешен

2. Disallow: /?

Возможно, второй сайт был отредактирован и теперь стал разрешенным, но первый по прежнему запрещен. Кому верить?

P.S. Других "Disallow:" в robots.txt нет.

K
На сайте с 27.08.2007
Offline
15
#9

Проверил свою запрещенную директорию, получил:

Адрес http:// --------/--- .html не был внесен в базу Яндекса, так как он запрещен к индексации в файле robots.txt, или при обращении к robots.txt сервер вернул ошибку 5xx.

Получается, что оба разрешены. Смущает, что это первые страницы в каталоге ссылок, которые ссылаются на десяток последующих, а в индексе Я и G отсутствуют. Спрашивается почему?

Вопрос? Сайт не мой, будет ли этично указать адрес сайта по которому вопрос?

PS
На сайте с 12.12.2007
Offline
22
#10

ввёл урл своего сайта в http://www.yandex.ru/cgi-bin/test-robots

вот что он мне написал: "Сервер вернул код ошибки 301"

Что это значит?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий