Гугл не слушается инструкций в роботс.тхт

12
G
На сайте с 01.04.2008
Offline
109
795

Есть сайт на вордпрессе. Статьи заливаются непосредственно в категории. Дабы избежать дублирования контента закрыл от индексирования архив, категории. Кроме того, закрыл комментирование. Яндекс индексирует то, что нужно - сами статьи. А вот гугл при тех же условиях есть все подряд :( В яндексе проиндексировано 89 страниц (при том, что их реально чуть больше 90), а в гугле 357.

Трафик из яндекса составляет около 300 уников в сутки. Из гугла - 2-4. Подозреваю что именно из-за дублирования контента, хотя сайту около 3 месяцев, возможно в песочнице еще.

Вот текст роботса:

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /xmlrpc.php

Disallow: /?feed=comments-rss2

Disallow: /?m #

Disallow: /?cat=$

Disallow: /?cat= #

Disallow: /?feed=rss2&p= #

Host: www.мойсайт.ru

Sitemap: http://www.мойсайт.ru/sitemap.xml

User-agent: Google

Disallow: /wp-login.php

Disallow: /xmlrpc.php

Disallow: /?feed=comments-rss2

Disallow: /?m #

Disallow: /?cat=$

Disallow: /?cat= #

Disallow: /?feed=rss2&p= #

Host: www.мойсайт.ru

Sitemap: http://www.мойсайт.ru/sitemap.xml

User-agent: *

Disallow: /wp-login.php

Disallow: /xmlrpc.php

Disallow: /?feed=comments-rss2

Disallow: /?m #

Disallow: /?cat=$

Disallow: /?cat= #

Disallow: /?feed=rss2&p= #

Host: www.мойсайт.ru

Sitemap: http://www.мойсайт.ru/sitemap.xml

Подскажите, пожалуйста, в чем может быть проблема.

mgarkunov
На сайте с 23.03.2009
Offline
130
#1

robots.txt создан не правильно.

Поисковые работы изначально не поддерживали адреса через "?", сейчас их поддерживает Гугл и Яндекс, но у каждого из них свои правила исключения.

Рекомендую поставить плагин Platinum SEO и настроить noindex для категорий и т.д. или читать правила настройки

Talisman13
На сайте с 20.01.2007
Offline
211
#2
Globusnik:
User-agent: Google

Disallow: /wp-login.php

Host: www.мойсайт.ru

Хост для гугла??? Это круто!!! :D

Насколько я помню пустой строки не должно быть между агентом и тем что запрещается.

G
На сайте с 01.04.2008
Offline
109
#3

Для гугла не нужно хост указывать?

Talisman13
На сайте с 20.01.2007
Offline
211
#4
Globusnik:
Для гугла не нужно хост указывать?

Нет, не нужно. Он его не понимает. Это можно указать в вебмастере гугла.

G
На сайте с 01.04.2008
Offline
109
#5

Ок, убрал хост и пустую строчку между агентом и тем, что запрещается. Посмотрим, что получится. Самое интересное, что на другом аналогичном сайте гугл индексирует только то, что нужно. А на этом вот такой вот нонсенс.

palmal
На сайте с 27.03.2009
Offline
118
#6

А у меня сат на джумле, стандартный роботс, в панеле вебмастера в гугле показаны разделы, которые запрещены для индексации, но гугл все равно индексирует и в выдачу включает. По определенному запросу даже ссыль появляется в выдаче на вход в админпанель:(

vituson
На сайте с 10.12.2008
Offline
38
#7

Для WP с включенным ЧПУ вида /%postname%

User-agent: Yandex

Crawl-delay: 5

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: */feed

Disallow: */comments

Disallow: /index.php?s=

Disallow: /category/*

Disallow: */trackback

Disallow: /tag/*

Disallow: /*?*

Disallow: /*?

Disallow: /2009/*

Disallow: /author

Disallow: /page/

Host: .............................

User-agent: YandexBlog

Disallow:

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: */feed

Disallow: */comments

Disallow: /index.php?s=

Disallow: /category/*

Disallow: */trackback

Disallow: /tag/*

Disallow: /*?*

Disallow: /*?

Disallow: /2009/*

Disallow: /author

Disallow: /page/

User-agent: Googlebot-Image

Disallow:

Allow: /*

User-agent: Mediapartners-Google

Disallow:

Sitemap: http:........../sitemap.xml

Sitemap: http:........../sitemap.xml.gz

Вообще же в панели гугла вебмастер есть раздел, посвящённый созданию файла роботс тхт и его проверке самим гуглом и дружественными сервисами в плане доступности ссылок к индексации. После закрытия ненужных разделов кеш гугла нужно удалить через панель веб-мастера (не весь, конечно, а "левые" ссылки).

YD
На сайте с 03.06.2008
Offline
363
#8

После слеша не ? а *

Цахес
На сайте с 15.03.2007
Offline
205
#9
Globusnik:
User-agent: Google

Его Googlebot зовут.

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).
G
На сайте с 01.04.2008
Offline
109
#10
vituson:

Вообще же в панели гугла вебмастер есть раздел, посвящённый созданию файла роботс тхт и его проверке самим гуглом и дружественными сервисами в плане доступности ссылок к индексации. После закрытия ненужных разделов кеш гугла нужно удалить через панель веб-мастера (не весь, конечно, а "левые" ссылки).

В той панели проверяю:

http://www.мойсайт.ru/?cat=9 Заблокировано строкой 33: Disallow: /?cat= #

Я все категории закрыл от индексирования и это подтверждается. Но в индексе они присутствуют.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий