robots.txt проконсультируйте

L
На сайте с 09.12.2008
Offline
47
551

Есть партнерский сайт. Там в роботе, по умолчанию, записано следующее:


User-agent: *
Disallow: /files/
Disallow: /profile.php?mode=sendpassword
Disallow: /russian/
Disallow: /english/
Disallow: /static/i/
Disallow: /cache/
Disallow: /texts/
Disallow: /functions/
Disallow: /vote/
Disallow: /complain.php

Я не могу изменить эти записи, а только добавить ниже свои.

Мне нужно запретить все страницы к индексации, кроме главной и кроме страниц которые имеют урлы вида: http://site.ru/abc_nazvanie-stranitsi.html

то есть abc_ присутствует везде.

Если я в роботе допишу ниже, следующее:


User-agent: *
Disallow: /files/
Disallow: /profile.php?mode=sendpassword
Disallow: /russian/
Disallow: /english/
Disallow: /static/i/
Disallow: /cache/
Disallow: /texts/
Disallow: /functions/
Disallow: /vote/
Disallow: /complain.php

Allow: site.ru
Allow: /abc_*
Disallow: /

Это будет правильно?

Сверху идущие Disallow мешать не будут?

* звездочка по инструкции означает любые символы, в том числе и отсутствие их, она применима в конструкции http://site.ru/abc_nazvanie-stranitsi.html, просто вот так http://site.ru/abc_* или она работает только для подкаталогов разделенным слэшем / ?

PS Блин, заказал контент, и только сейчас этот робот увидел. Там много однотипных страниц, которые сразу вывалятся из индекса и весь сайт потянут. Нужно закрыть все, кроме главной и статей - http://site.ru/abc_nazvanie-stranitsi.html

S
На сайте с 28.10.2005
Offline
296
#1

User-agent: *

Disallow: /files/

Disallow: /profile.php?mode=sendpassword

Disallow: /russian/

Disallow: /english/

Disallow: /static/i/

Disallow: /cache/

Disallow: /texts/

Disallow: /functions/

Disallow: /vote/

Disallow: /complain.php

Allow: /abc_

Disallow: /

L
На сайте с 09.12.2008
Offline
47
#2

Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры:

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# запрещает скачивать все, кроме страниц

# начинающихся с '/cgi-bin'

Запрещает скачивать ВСЁ, кроме страниц начинающихся с '/cgi-bin'

ТО есть и главную? вот тут непоняточки... Или главная по умолчанию главная?

gormarket
На сайте с 29.12.2010
Offline
47
#3

Langly, учтите, что если Вы добавите

User-agent: Yandex

то все что было в robots.txt для

User-agent: *

Яндекс будет игнорировать (то же касается и для гугла при добавлении его User-agent)

чтобы этого не произошло, нужно будет после "User-agent: Yandex" продублировать все строки,написанные для "User-agent: *"

А вообще заходите на

http://webmaster.yandex.ru/robots.xml

и вставив содержимое robots.txt добавляете URL которые хотите проверить (будут ли они индексироваться) и проверяйте.

И будет у Вас информация из первых рук, от Яндекса.

Товары и цены в магазинах Вашего города: Городской рынок (http://gormarket.ru/)
siv1987
На сайте с 02.04.2009
Offline
427
#4
Langly:
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'

Запрещает скачивать ВСЁ, кроме страниц начинающихся с '/cgi-bin'
ТО есть и главную?

То есть да - Disallow: / -запрет всего

Чтобы разрешать и главную

Allow: /$

Естественно добавить перед всеобще закрывающим disallow. Бот читает инструкции построчно, и на первой совпавшей останавливается.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий