Помогите настроить robots.txt для Гугла

Dervish
На сайте с 11.05.2005
Offline
186
1091

Умаялся уже )

Сайт - обычный Вордпресс сайт, каких-то наворотов нет.

Вот кусок кода из robots.txt

User-agent: *

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /tag

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Однако при этом страницы такого типа все равно в индексе!

Просто Гугл для них пишет "Описание веб-страницы недоступно из-за ограничений в файле robots.txt. "

Как убрать их из индекса вообще?

Пингвин под микроскопом. (http://ac-u.ru/arts/pingvin-pod-mikroskopom/) Особенности продвижения Интернет-магазинов. (http://ac-u.ru/arts/osobennosti-prodvizhenija-internet-magazinov-bytovojj-ili-kompjuternojj-tekhniki-s-interesnymi-primerami-i-zabavnymi-kartinkami/) Копирайтинг. Качественно. (/ru/forum/725909)
DiAksID
На сайте с 02.08.2008
Offline
218
#1
Dervish:
... Вот кусок кода из robots.txt ...

- куска как бе мало, светите уж всё;

- в панели вебмастера гугла есть анализ robots.txt и проверка на доступность страниц для индексирования. что пишет для этих страниц?

- в панели вебмастера гугла есть фича для ручного удаления страниц(ы) из индекса. можно удалять по маске;

show must go on !!!...
siv1987
На сайте с 02.04.2009
Offline
427
#2
Dervish:
Однако при этом страницы такого типа все равно в индексе!
Просто Гугл для них пишет "Описание веб-страницы недоступно из-за ограничений в файле robots.txt. "

Все правильно. Но это бывает только на значимых страницах, всякий хлам все выдаваться не будет.

Dervish:
Как убрать их из индекса вообще?

Попробуйте добавить на этих страницах метатег robots= noindex

ME
На сайте с 11.07.2011
Offline
71
#3
Dervish:
Умаялся уже )

Просто Гугл для них пишет "Описание веб-страницы недоступно из-за ограничений в файле robots.txt. "

Как убрать их из индекса вообще?

Давно в robots.txt их закрыл?

Если не ошибаюсь, он подобное только с новым аппом закроет в своей выдаче

Dervish
На сайте с 11.05.2005
Offline
186
#4

User-agent: *

Allow: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /tag

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Disallow: /25

Disallow: /23

Disallow: /2008/06

Disallow: /2012/05

Disallow: */page/

Disallow: /page

Disallow: /author

- в панели вебмастера гугла есть анализ robots.txt и проверка на доступность страниц для индексирования. что пишет для этих страниц?

Что страницы недоступны. Но они, тем не менее, есть. Просто без сниппета.

- в панели вебмастера гугла есть фича для ручного удаления страниц(ы) из индекса. можно удалять по маске;

Да, но для этого необходимо либо удалить страницу физически (чтобы возвращало 404), либо поставить тэг noindex.

Как это сделать для страниц с урлом вида */page/* я не знаю

S3
На сайте с 18.04.2011
Offline
109
#5

тут со слов обратите внимание смотрите - http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=93710 и общее http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=93708&topic=2370588&ctx=topic

мой роботс для wp

User-agent: Googlebot

Disallow: /xmlrpc.php

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: /*attachment

+ установлен плаг http://wordpress.org/extend/plugins/ultimate-noindex-nofollow-tool/

в рез - в индексе столько же стр сколько и в яндексе и только те стр которые нужны

Dervish
На сайте с 11.05.2005
Offline
186
#6

sok3535, да, но у меня много страниц, которые ваш файл не затронет. Всякие там ****.ru/?cat=1

Дело, видимо, в том, что сайт очень старый (более 5 лет) и Вордпресс на него ставился чуть ли не самой первой версии. При обновлении все заглючило, было куча битых урлов и т.д. Все почистили, но в индексе Гугла осталось много мусора.

Огромное спасибо за подсказку с удалением страниц из индекса в панели WMT. Вроде как помогает - несколько страниц пропали.

S3
На сайте с 18.04.2011
Offline
109
#7
Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс.

и

<meta name="googlebot" content="noindex">

При наличии на странице метатега noindex Google полностью исключает эту страницу из результатов поиска, даже если на нее ссылаются другие страницы.

плаг добавляет метатег на все нежелательные стр

Dervish
На сайте с 11.05.2005
Offline
186
#8

sok3535, там нет урлов с trackback-ом. У меня их сейчас десятки. Гугл даже после запроса на удаление их не удаляет. Как быть?

Функцию трекбэков отключил, но страницы по прежнему доступны (301 редирект на статью)

Пример:

в индексе урл site.ru/postname/trackback/

его сниппет: Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее...

при переходе нас редиректит на site.ru/postname/

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий