Файл robots.txt как правильно запретить индексировать

12
P
На сайте с 18.07.2010
Offline
8
3546

Речь идет о файле robots.txt и как правильно запретить индексировать определенные ссылки в струкуре сайта. Возможно я неравильно пишу, но догнать никак не могу, везде пишут об этом, но видно мне это тяжело дается )

Задача в следующем: есть сайт и его структура.

Есть «левые ссылки» то есть дубли страниц, в панели вебмастер они видны. Мне надо сделать так, чтобы эти дубли не учитывали поисковой системой Я.

По структуре, дубли начинаются с:

  • component/
  • content/
  • jcomments/task=rss&
  • mailto/tmpl=component&
  • rafcloud/ordering=newest&searchphrase=any&
  • search/ — поиск по сайту под вопросом. То есть стоит ли его закрывать от поисковика или нет.
  • index.php?
  • option=com_content&
  • view=article&

  • view=category&

  • view=section&

Выше приведена структура, которую надо исключить из поиска, то есть указать поисковику что не надо индексировать.

Подскажите пожалуйста, как правильно прописать в файле robots.txt для данной структуре.

Учиться никогда не поздно
C
На сайте с 23.07.2008
Offline
18
#1

Так в чём проблема? Disallow: /component и иже с ними. А ещё есть тэг nofollow

P
На сайте с 18.07.2010
Offline
8
#2
Chaotic:
Так в чём проблема?

Эту тему будут читать много людей, чем подробнее, тем меньше людей будут сталкиваться с возникшимися трудностями.

То есть пишем следующее:

Disallow: /component

Правильно?

А стоит ли указывать Disallow: /content и так далее по структуре. Ведь content исходит из component и я думаю не стоит так прописывать. Или я чего не понял?

Далее, можно прописать только: Disallow: /index.php? и все что идет после index.php? по структуре, думаю прописывать не надо?

А будут ли без проблем индексироваться sef ссылки, то есть оптимизированные под ПС.

Так как правильно сделать?

P.s. Один полный, развернутый ответ, отбросит множество вопросов.

А ещё есть тэг nofollow

При чем тут nofollow? Он для Я нужен?

H
На сайте с 04.10.2010
Offline
2
#3
premium.:
Так как правильно сделать?

Если я правильно понял структуру Вашего сайта, то роботс.тхт для Яндекса должен выглядеть примерно так:

User-agent: Yandex

Disallow: /component/

Disallow: /content/

Disallow: /jcomments/

Disallow: /mailto/

Disallow: /rafcloud/

Disallow: /search/

Disallow: /index.php?option*

Disallow: /index.php?view*

Host: www.site.ru

Если в чем-то сомневаетесь (например, будут ли открыты нужные страницы для индексации), то загружаете этот роботс в корень сайта и идете в панель вебмастера. Там есть функционал для проверки разрешения индексации конкретных страниц.

premium.:
При чем тут nofollow? Он для Я нужен?

Да, Яндекс тоже научился понимать этот тег

Я за ручное (/ru/forum/457039) продвижение сайтов :)
P
На сайте с 18.07.2010
Offline
8
#4
Hristofor:
Если в чем-то сомневаетесь (например, будут ли открыты нужные страницы для индексации), то загружаете этот роботс в корень сайта и идете в панель вебмастера. Там есть функционал для проверки разрешения индексации конкретных страниц.

Вот тут смотрю на два ответа и вижу два расхождения и конкретно, прям указывая конкретно на правильный ответ я не вижу. Извините конечно, но я вот не вижу.

Первый ответ от Chaotic, указывал что вот так будет правильно: Disallow: /component

Второй ответ от Hristofor, указывал что вот так будет правильно: Disallow: /component/

Различие кто-нибудь видет? Я прекрасно вижу — это слэш.

Риторический вопрос, так как правильно запретить индексировать? Чей ответ правильный?

Прям как в школе, при доказательстве теоремы.

[Удален]
#5

У себя такие делаю роботсы для Джумла, без форума, социальной сети и комментариев. Обязательно включен ЧПУ. Все отлично индексируется, все страницы нужные в индексе. Дублей практически нет.

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Disallow: /component/

Disallow: /index.php

essey добавил 12.10.2010 в 00:10

Где стоит слеш там закрывается директория, там где беза слеша там закрывается просто страница начинающаяся например с index.php или search.php, send.php

index.php или send.php к примеру, это не директории, это страницы с командами и данными. Надеюсь понятно выразился.

_han_
На сайте с 17.08.2006
Offline
247
#6

самый правильный вариант

User agent: *

Disallow: /

Host: site.ru

и вообще не париться, фильтры, апы, недоапы и т.д.

зы: сколько тем было, сколько есть инфы в сети.. а поиском так и не научились пользоваться.. обидно однако.

Важно: GoGetLinks - размещение вечных ссылок | Достойный доход для вебмастера (http://gogetlinks.net/?inv=cf45iq) доход от 1К руб. в день. (http://trustlink.ru/registration/117003)
albion
На сайте с 07.10.2005
Offline
247
#7
premium.:
Первый ответ от Chaotic, указывал что вот так будет правильно: Disallow: /component
Второй ответ от Hristofor, указывал что вот так будет правильно: Disallow: /component/
Различие кто-нибудь видет? Я прекрасно вижу — это слэш.

Риторический вопрос, так как правильно запретить индексировать? Чей ответ правильный?

Оба правильные. Первый запрещает, как файл /component.html, так и деррикторию, а второй только деррикторию.

ARepik
На сайте с 27.03.2009
Offline
58
#8
_han_:
самый правильный вариант

User agent: *
Disallow: /
Host: site.ru

Совсем не правильный вариант, кроме яндекса Host никому не нужен, поэтому правильно будет:

User agent: Yandex

Disallow: /

Host: site.ru

User agent: *

Disallow: /

Talisman13
На сайте с 20.01.2007
Offline
211
#9

ARepik, жгешь, с "Disallow: /" сайт вообще никому не нужен будет.

И кстати в анализаторе Яндекса такой блок обрабатывается нормально.

Научитесь сами составлять robots.txt, а потом советуйте.

_han_, у тебя кстати тоже ошибочка есть. :)

_han_
На сайте с 17.08.2006
Offline
247
#10

для одаренных

самый правильный вариант

User agent: *
Disallow: /
Host: site.ru

и вообще не париться, фильтры, апы, недоапы и т.д.

да 10 смайликов нужно было поставить?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий