Помощь по robots.txt на новом сайте

themizzz
На сайте с 05.07.2012
Offline
87
533

Помогите, пожалуйста. Следующая ситуация.

Есть новый сайт на Wordpress. Добавляются материалы.

Справку яндекса и прочее читали, все равно, ответов точных нет.

Дабы, в индексе не оказалось лишнего, было решено закрыть от поисковиков ряд страниц:

Архивы:

http://site.ru/2012/10/21/ - где 2012 год, 10 октябрь, 21 число.

Параметры в robots.txt: Disallow: /2012/*/*

Может это неправильно? Было еще 4 варианта:

1. Disallow: /201*

2. Disallow: /2012/*/*/*

3. Disallow: /2012/

4. Disallow: /2012

Рубрики:

http://site.ru/category/remont/

Параметры в robots.txt: Disallow: /category/*/*

Если неправильно, еще было 3 варианта:

1. Disallow: /category/*

2. Disallow: /category/

2. Disallow: /category

Метки:

http://site.ru/tag/remont/

Параметры в robots.txt: Disallow: /tag/*/*

Если неправильно, еще было 3 варианта:

1. Disallow: /tag/*

2. Disallow: /tag/

3. Disallow: /tag

Также, возникло желание закрыть возможность индексирования страниц вида:

http://site.ru/?474hg

Поскольку такие страницы не перенаправляют на страницу 404 ошибки, а оставляют на сайте.

Для этого, прописали правила в robots.txt:

Disallow: */?

Disallow: /?*

Возможно, тоже, есть в чем-то косяк.

На данный момент, ситуация с сайтом такая:

Яндекс - в индексе только главная страница

Гугл - в индексе оказались страницы вида:

http://site.ru/tag/profi/

http://site.ru/category/sovety/

Хотя они вроде как запрещены.

Возможно, яндекс еще просто не дошел до сайта, хотя уже прошло 2 недели, но как заставить гугл понимать robots.txt?

Сейчас, он выглядит следующим образом:

User-agent: Yandex

Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /*.txt
Disallow: /*.html
Disallow: /*.php
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/*/*
Disallow: /tag/*/*
Disallow: /2012/*/*
Disallow: /2013/*/*
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Disallow: */?
Disallow: /?*
Host: site.ru

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /*.txt
Disallow: /*.html
Disallow: /*.php
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/*/*
Disallow: /tag/*/*
Disallow: /2012/*/*
Disallow: /2013/*/*
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Disallow: */?
Disallow: /?*

Sitemap: http://site.ru/sitemap.xml

Помогите, с этим, пожалуйста. Нужно составить правильный robots.txt закрывающий указанные выше страницы.

denden11
На сайте с 29.06.2005
Offline
94
#1

правильно так

Disallow: /2012/ закрывает все что есть в каталоге

Disallow: /category/ тоже

Disallow: /tag/ тоже

Disallow: *?* закрывает все что содержит ?

остальное не правильно

а это вообще убрать

убрать

Disallow: /*.txt

Disallow: /*.html

Disallow: /*.php

в панеле вебмастера гугла и яндекса есть сервис проверки правильности роботс

themizzz
На сайте с 05.07.2012
Offline
87
#2

denden11,

Благодарю за отклик. То есть, такой файл будет правильнее?

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /tag/
Disallow: /2012/
Disallow: /2013/
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Disallow: *?*
Host: site.ru

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /tag/
Disallow: /2012/
Disallow: /2013/
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Disallow: *?*

Sitemap: http://site.ru/sitemap.xml
denden11:
в панеле вебмастера гугла и яндекса есть сервис проверки правильности роботс

Да, но что я бы туда не вставил, им все нравится.

denden11
На сайте с 29.06.2005
Offline
94
#3

это противоречит друг другу

Disallow: */trackback

Disallow: /trackback

Disallow: */feed

Disallow: /feed

Disallow: */comments

Disallow: /comments

правильно

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/

host внизу обычно ставят

themizzz
На сайте с 05.07.2012
Offline
87
#4

denden11, То есть, окончательно правильно будет так?


User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /tag/
Disallow: /2012/
Disallow: /2013/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: *?*
Host: site.ru

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /tag/
Disallow: /2012/
Disallow: /2013/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: *?*

Sitemap: http://site.ru/sitemap.xml
denden11:
host внизу обычно ставят

Это для яндекса. Другие ПС это не понимают.

R
На сайте с 16.02.2012
Offline
58
ryz
#5
themizzz:
Это для яндекса. Другие ПС это не понимают.

яндекс самый умный поисковик? тогда и sitemap для него вверх поставьте...

Contact Form Z - бесплатный плагин контактных форм для WordPress (https://ru.wordpress.org/plugins/contact-form-z/)
themizzz
На сайте с 05.07.2012
Offline
87
#6

А это точно, что:

Disallow: /category/

Закроет страницы подобного типа?

http://site.ru/category/remont/

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий