robots.txt: закрыть конкретный каталог на n-ом уровне вложенности

123
kimberlit
На сайте с 13.03.2007
Offline
370
#11
Liberus:
Disallow: /films/fantasy/torrent/*

Ну-ну, а если категорий 100500?

И звёздочка зачем?

R
На сайте с 22.06.2007
Offline
174
#12
Yapy:
Индексируются новые страницы с уже новыми правилами роботс.тхт?

Да, именно так.

Yapy:
Вообще-то, это неправда. Google о robots.txt

Ну вообще-то, даже там

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Так что все правда - индексируются, и гугл это не отрицает.

Другой вопрос как с этим бороться...

Yapy:
Покажите на всякий случай ваш роботс

Сейчас такой:

User-agent: Yandex
Disallow: /user/
Disallow: /engine/
Disallow: /click/
Disallow: /click2/
Disallow: /reklama.html
Disallow: /engine/go.php
Disallow: /favorites/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /tags/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /*action=mobile$
Disallow: /do=*
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /bc/
Disallow: /load/
Disallow: /sp/
Disallow: /qc/
Disallow: /photo*
Disallow: /torrent.php*
Disallow: /*/torrent/*
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

User-agent: Googlebot
Disallow: /user/
Disallow: /engine/
Disallow: /click/
Disallow: /click2/
Disallow: /reklama.html
Disallow: /engine/go.php
Disallow: /favorites/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /tags/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /*action=mobile$
Disallow: /do=*
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /bc/
Disallow: /load/
Disallow: /sp/
Disallow: /qc/
Disallow: /photo*
Disallow: /torrent.php*
Disallow: /*/torrent/*
Sitemap: http://site.ru/sitemap.xml

User-agent: *
Disallow: /user/
Disallow: /engine/
Disallow: /click/
Disallow: /click2/
Disallow: /reklama.html
Disallow: /engine/go.php
Disallow: /favorites/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /tags/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /*action=mobile$
Disallow: /do=*
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /bc/
Disallow: /load/
Disallow: /sp/
Disallow: /qc/
Disallow: /photo*
Disallow: /torrent.php*
Disallow: /*/torrent/*
Sitemap: http://site.ru/sitemap.xml



---------- Добавлено 01.02.2012 в 22:50 ----------

Liberus:
Disallow: /films/fantasy/torrent/*

естественно не подходит, потому что

kimberlit:
Ну-ну, а если категорий 100500?
kimberlit:
И звёздочка зачем?

ну вообще-то как всегда - любые символы, не разве?

Если ее не надо (не знаю даже кто такое придумал :)), то как отличить скажем /films/fantasy/torrent/ от /films/fantasy/torrent/123-avatar.html?

siv1987
На сайте с 02.04.2009
Offline
427
#13
Reise:
Если ее не надо (не знаю даже кто такое придумал ), то как отличить скажем /films/fantasy/torrent/ от /films/fantasy/torrent/123-avatar.html?

ТС, зачем отличать? Стандарт роботс-а читали? /films/fantasy/torrent/ по умолчанию запрещает все его содержимое включая файлы. Это еще с основа основ. Звездочка придумана для динамичных ссылок, где нужно было закрыть по параметрам ссылок, часть которой была динамичной и не позволяла прописать абсолютный ури.

/showthread.php?t=*&page=

/*&page=

R
На сайте с 22.06.2007
Offline
174
#14
siv1987:
ТС, зачем отличать? Стандарт роботс-а читали? /films/fantasy/torrent/ по умолчанию запрещает все его содержимое включая файлы.

Вы правы, но лишь отчасти.

Если припустить что /films/fantasy/torrent/ физический каталог на диске, в котором находятся файлы, то да - его закрывать нету смысла, так как индексируется не каталог, а файлы.

Но есть одно НО: в современной тенденции правил реврайтов для веб-серверов /films/fantasy/torrent/ - это может быть не классический каталог (физически его нет, он формируется виртуально движком сайта), а раздел сайта, который показывается как отдельная страница, то есть является документом. Поэтому может иметь место необходимость закрыть от индексации именно этот документ, не закрывая остальные, путь которых начинается так же.

Тем не менее вопрос остается открытым. Я пока заинтересовался метатегом: <meta name="robots" content="noindex" />. Попробую его заюзать - посмотрим что это даст.

kimberlit
На сайте с 13.03.2007
Offline
370
#15
Reise:
Но есть одно НО: в современной тенденции правил реврайтов для веб-серверов /films/fantasy/torrent/ - это может быть не классический каталог (физически его нет, он формируется виртуально движком сайта), а раздел сайта, который показывается как отдельная страница, то есть является документом. Поэтому может иметь место необходимость закрыть от индексации именно этот документ, не закрывая остальные, путь которых начинается так же.

Нет никаких НО. Есть кусок адреса, который содержит определённые знаки, включая и слеши. Директория это или страница - фиолетово.

Если нужно закрыть только этот документ (директорию), но оставить другие с тем же началом адреса, то существует знак $.

РТФМ, короче. Хотя бы раз.

Disallow: /films/fantasy/torrent/$

Yapy
На сайте с 30.01.2012
Offline
2
#16
Reise:
Да, именно так.
Reise:
, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс.

Ну тогда вам нужно разбираться с теми нехорошими людими, которые ставят ссылки на ваш ресурс. Как вариант - попросить их смотреть сначала роботс :D

siv1987
На сайте с 02.04.2009
Offline
427
#17
Reise:
Если припустить что /films/fantasy/torrent/ физический каталог на диске, в котором находятся файлы, то да - его закрывать нету смысла, так как индексируется не каталог, а файлы.

Индексируется не каталог и не файлы, индексируется урл. Вот этот урл, по маске или полностью, и запрещается к индексации. И не важно, результат он реврайтов сервера или реально физический файл (каталог) на диске.

Reise:
Поэтому может иметь место необходимость закрыть от индексации именно этот документ, не закрывая остальные, путь которых начинается так же.

Вы отклоняетесь от первоначальной задачи.

/films/fantasy/torrent/ это тоже самое что и /films/fantasy/torrent/*

Reise, действительно, поизучайте RTFM.

R
На сайте с 22.06.2007
Offline
174
#18
Yapy:
Ну тогда вам нужно разбираться с теми нехорошими людими, которые ставят ссылки на ваш ресурс. Как вариант - попросить их смотреть сначала роботс

Нет никаких ссылок извне - есть только ссылки изнутри сайта - служебные страницы с дублями контента, которые не нужно индексировать. Только не надо сейчас говорить - не ставьте таких ссылок. К примеру раздел галерея изображений - это полезно пользователям, но с точки зрения ПС это все частичные дубли, причем в громадном количестве и их не нужно индексировать.

siv1987:
Индексируется не каталог и не файлы, индексируется урл.

Вообще-то если быть точным, индексируется документ, а урл - это всего лишь его адрес.

siv1987:
Вы отклоняетесь от первоначальной задачи.
/films/fantasy/torrent/ это тоже самое что и /films/fantasy/torrent/*

Reise, действительно, поизучайте RTFM.

Да, действительно, отклоняюсь... Но вопрос не в "изучать" - вопрос в другом - гугл игнорирует robots.txt и непонятно как с этим бороться.

siv1987
На сайте с 02.04.2009
Offline
427
#19
Reise:
Да, действительно, отклоняюсь... Но вопрос не в "изучать" - вопрос в другом - гугл игнорирует robots.txt и непонятно как с этим бороться.

Где игнорирует?

/+inurl:newreply.php&sourceid=opera&ie=utf-8&oe=utf-8

Но по правилам гугла, адреса закрытые роботсом если на них стоят много ссылок, особенно внешних, могут появится в серпе без сниппета и кэша. Но этого ничего не значит.

R
На сайте с 22.06.2007
Offline
174
#20
siv1987:
Где игнорирует?

Ну в приведенном примере не игнорирует, в моем случае игнорирует.

siv1987:
могут появится в серпе без сниппета и кэша

У меня все они и со сниппетами и с кешами. Индексируются как обычный страницы не смотря на запреты в роботсе.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий