robots.txt проконсультируйте

47

Langly

6 декабря 2011, 09:22

551

Есть партнерский сайт. Там в роботе, по умолчанию, записано следующее:

User-agent: *
Disallow: /files/
Disallow: /profile.php?mode=sendpassword
Disallow: /russian/
Disallow: /english/
Disallow: /static/i/
Disallow: /cache/
Disallow: /texts/
Disallow: /functions/
Disallow: /vote/
Disallow: /complain.php

Я не могу изменить эти записи, а только добавить ниже свои.

Мне нужно запретить все страницы к индексации, кроме главной и кроме страниц которые имеют урлы вида: http://site.ru/abc_nazvanie-stranitsi.html

то есть abc_ присутствует везде.

Если я в роботе допишу ниже, следующее:

User-agent: *
Disallow: /files/
Disallow: /profile.php?mode=sendpassword
Disallow: /russian/
Disallow: /english/
Disallow: /static/i/
Disallow: /cache/
Disallow: /texts/
Disallow: /functions/
Disallow: /vote/
Disallow: /complain.php

Allow: site.ru
Allow: /abc_*
Disallow: /

Это будет правильно?

Сверху идущие Disallow мешать не будут?

* звездочка по инструкции означает любые символы, в том числе и отсутствие их, она применима в конструкции http://site.ru/abc_nazvanie-stranitsi.html, просто вот так http://site.ru/abc_* или она работает только для подкаталогов разделенным слэшем / ?

PS Блин, заказал контент, и только сейчас этот робот увидел. Там много однотипных страниц, которые сразу вывалятся из индекса и весь сайт потянут. Нужно закрыть все, кроме главной и статей - http://site.ru/abc_nazvanie-stranitsi.html

S

296

semenov

6 декабря 2011, 09:26

#1

User-agent: *

Disallow: /files/

Disallow: /profile.php?mode=sendpassword

Disallow: /russian/

Disallow: /english/

Disallow: /static/i/

Disallow: /cache/

Disallow: /texts/

Disallow: /functions/

Disallow: /vote/

Disallow: /complain.php

Allow: /abc_

Disallow: /

L

47

Langly

6 декабря 2011, 09:38

#2

Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры:

User-agent: Yandex

Allow: /cgi-bin

Disallow: /

# запрещает скачивать все, кроме страниц

# начинающихся с '/cgi-bin'

Запрещает скачивать ВСЁ, кроме страниц начинающихся с '/cgi-bin'

ТО есть и главную? вот тут непоняточки... Или главная по умолчанию главная?

47

gormarket

6 декабря 2011, 10:06

#3

Langly, учтите, что если Вы добавите

User-agent: Yandex

то все что было в robots.txt для

User-agent: *

Яндекс будет игнорировать (то же касается и для гугла при добавлении его User-agent)

чтобы этого не произошло, нужно будет после "User-agent: Yandex" продублировать все строки,написанные для "User-agent: *"

А вообще заходите на

http://webmaster.yandex.ru/robots.xml

и вставив содержимое robots.txt добавляете URL которые хотите проверить (будут ли они индексироваться) и проверяйте.

И будет у Вас информация из первых рук, от Яндекса.

Товары и цены в магазинах Вашего города: Городской рынок (http://gormarket.ru/)

427

siv1987

6 декабря 2011, 10:34

#4

Langly:
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'

Запрещает скачивать ВСЁ, кроме страниц начинающихся с '/cgi-bin'
ТО есть и главную?

То есть да - Disallow: / -запрет всего

Чтобы разрешать и главную

Allow: /$

Естественно добавить перед всеобще закрывающим disallow. Бот читает инструкции построчно, и на первой совпавшей останавливается.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Все что нужно знать о DDоS-атаках грамотному менеджеру