DaHuJIka

Рейтинг
28
Регистрация
20.10.2010
Kost:
И как они выглядят в выдаче? Тайтл, сниппет, что там?

Страницы типа /feed не выглядят вообще никак. То есть в результате выдачи там, где title должен быть, просто ссылка. Сниппета нет. Только ссылка.

Страницы категорий выглядят, как обычные страницы. В качестве title имя категории, в качестве сниппета - первые слова на странице.

Решил апнуть тему, так как не все проблемы решились.

Вырезка из Robots.txt для user-agent:

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /category

Disallow: /wp-content/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

Как, объясните мне, Google умудрился проиндексировать страницы типа

/category/espresso/feed

или

/category/istoriya-kofe

если все это явно запрещено.

В инструментах для вм от Goggle robots.txt загружен и, более того, пишет, что доступ к страницам запрещен в строках 11 и 12, то есть именно в тех, где и должен. Более того, у страниц категорий я поставил noindex, чтоб наверняка.

Сразу отмечу, что если часть страниц категорий проиндексировалась до того, как был составлен грамотный robots.txt, то все же остальная часть категорий и страницы типа feed попала в индекс уже после.

Кстати, аналогичные инструкции прописаны для User-agent: Yandex и он проиндексировал и добавил в поиск страницы именно те страницы, что нужно.

Вопроса два:

Почему так вышло? Не хотелось бы повторять этих ошибок в будущем.

Что сделать теперь, что гугл выкинул на хрен страницы с индекса?

amph:
Сами. Но для чего Вам нофоллов на страницах категорий, я не догоняю.

Так я и не поставил nofollow. Мне хватило только noindex.

Просто сайт имеет структуру такую, что на все внутренние страницы (их 20 сейчас, будет около 40) идут ссылки с главной. Категории вообще для красоты нужны, не для навигации, но для исключения дублей поставить им noindex будет уместным. Как вы считаете?

amph:
Вам нужно в форум для новичков: Вы пока не в состоянии ничего понимать:))

На форуме для новичков люди не в состоянии ничего помогать 8)

Я немного напряг извилины и понял, что вы имели в виду. Закрыть страницы категорий, прописав сверху метатеги:

<meta name="robots" content="nofollow" />

<meta name="robots" content="noindex" />

или даже <meta name="robots" content="none" />

есть такой вариант?

shtorm23:
Установите плагин All in One SEO , и в его настройках поставьте галочку "Use noindex for Categories"

Вот это достойный совет. Закрыл. Посмотрим, что будет дальше.

DaHuJIka добавил 11.10.2011 в 09:51

Замечательно, страницы категорий получили себе noindex.

как страницы сайт/категория/имя_категории, так и сайт/имя_категории

Platinum Seo Pack сработал.

теперь еще вопрос есть.

Страницы в индексе google, которые раньше были index,follow теперь стали noindex,follow сами вылетят при следующем проходе робота? Или удалять вручную через центр вебмастеров?

amph:
А почему не хотите закрыть метатегом noindex, follow?

Вы предлагаете закрыть ссылки на рубрики ? А noindex только для яндекса вроде, или уже нет? Проблема же с Гуглом.

YmersY:
17 это разве много? зато для верности.

Я потому и завел тему, что не хочу заниматься подобными делами. Если у меня сайтов 50? И на каждом 20 рубрик? Необходим универсальный способ, который подойдет для любого сайта.

Жду еще варианты.

Затерялся еще один вопрос.

Почему запрещенные директивой Disallow: /category для User-agent: * категории все же проиндексировались Гошей? Google плюет на robots.txt, так как их бесчисленные сервера позволяют хранить огромные объемы ненужной информации?

victor222:
Перепутал слово! :) Было 3 часа ночи, с про сони глупости написал! Нужно было спать лучше

Вы имеете в виду

Disallow: /*/espresso ?

У меня 17 таких категорий, и каждую нужно закрывать таким образом?

La5:
Посмотрите какой robots (в броузере: http://site.ru/robots.txt) отдает WP, потому как он отдает его, даже если файл физически не создан в корневой директории.

Я просто не хочу писать адрес настоящего сайта. Сам сайт отдает robots.txt без проблем.

Кстати, вот robots.txt:

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

La5:

И проверьте свой robots в панельке вебмастера гугла. Там можно задать путь и посмотреть как гугл его обрабатывает.

Гугл считал robots.txt. И Он указан в панели вебмастера. Подскажите, как узнать, как гугл обрабатывает.

ZhorikDepp:
поставьте карту сайта хмл и добавьте ее в вебмастерскую, ускорит значительно.

Да, вы правы. Карту сайта я сделал, но не скормил ее Гоше. Займусь этим. Спасибо.

Я не совсем правильно представил ситуацию. Страницы мои уже в индексе. Меня сейчас интересует, как скоро вылетят из поиска те страницы, которые были на старом сайте и которых уже не существует? Чтоб остались только те, что написаны новым владельцем, то есть мной.

Natasha_tash:
Да, не без этого. Но все реально. Можно обратиться к специалистам с опытом выведения сайтов из бана Яндекса. Либо попробовать самостоятельно, что полезнее будет вам же. Списываться придется с Платоном точно, но отвечает он давно не шаблонами.
В любом случае, удачи вам!

Обращаться к специалистам по поводу выведения из-под бана сайта с одной страницей, где нет ничего, кроме движка, будет забавно =) . Новый домен и перенос базы данных решают все проблемы на "ура".

123
Всего: 24