Все вопросы по robots.txt

ZoomY
На сайте с 07.11.2008
Offline
165
#161
Estelle:
Уважаемые знатоки, подскажите, пожалуйста, ответ на эту "загадку".

Внимание, правильный ответ:

Estelle:
онлайн анализатор показывает что и в этом случае к урлам site.com/category/subcategory/article_name/ доступ разрешен. В чем тут загвоздка не пойму.

Загвоздка в онлайн-анализаторе. Какой вы использовали? Если использовать встроенный анализатор Яндекса, то он как раз покажет, что всё от индексации закрыто.

Сама по себе структура "Disallow: /category/*/*" лишена смысла, поскольку работает так же, как и "Disallow: /category/" (звёздочка и отсутствие звёздочки равносильны любой последовательности символов в урле), соответственно идёт запрет на индексацию /category/ и всех вложенных статей и категорий. Боты Яндекса всё правильно сделали.

Вы напишите, что вы хотите закрыть, а что открыть, и знатоки помогут вам сформировать правильный роботс.

Размещу ваши статьи на сайтах с тИЦ до 1400 по 5$ (/ru/forum/846111) Сейчас многие ищут хостинг за пределами России. Ukrnames - один из лучших вариантов: (http://ukrnames.com/?ref_id=114) и лидер рынка, и привычно, и по-русски, и вне юрисдикции РФ.
E
На сайте с 30.10.2012
Offline
50
#162
ZoomY:
Внимание, правильный ответ:

Загвоздка в онлайн-анализаторе. Какой вы использовали? Если использовать встроенный анализатор Яндекса, то он как раз покажет, что всё от индексации закрыто.

Сама по себе структура "Disallow: /category/*/*" лишена смысла, поскольку работает так же, как и "Disallow: /category/" (звёздочка и отсутствие звёздочки равносильны любой последовательности символов в урле), соответственно идёт запрет на индексацию /category/ и всех вложенных статей и категорий. Боты Яндекса всё правильно сделали.

Если это анализатор от самого Яндекса, то кому тогда верить?

Тут еще дело в том, что сайт мой на Вордпресс, а роботс в таком виде, как сейчас у меня, рекомендован самими разработчиками этого движка. Рекомендуют закрывать категории, метки и архивы во избежание дублей

Во-вторых, урлы реально выглядят все же не совсем так, как я описала я в виде site_name/category_name/subcategory_name/article_name т.е. самого слова category в урлах от Вордпресс вообще нет

В-третьих, почему они не могли просканировать html карту сайта, ведь она не принадлежит ни к какой категории и через нее можно просмотреть все страницы сайта?

И в-четвертых, самое главное: почему быстрый бот сумел таки захватить 1 страничку из категории, но это не смог сделать основной робот?

ЗЫ Я получила все же ответ от Платона, но такое ощущение, что я там разговариваю с глухими да к тому же еще и не совсем живыми:) Я им одно - они мне другое:)))

Да, и еще вспомнила: есть страница site.ru/blog где, естественно, все анонсы статей с "Читайте далее", на нее есть ссылка с главной и она, разумеется, не закрыта от индексации. Почему яшины боты ее не просканировали?

Нет, это п..ец этот яша:) Даже в Бинге уже мой сайт есть!)))

ZoomY
На сайте с 07.11.2008
Offline
165
#163
Estelle:
Если это анализатор от самого Яндекса, то кому тогда верить?

Верить исключительно ему. То, что вы написали в предыдущем сообщении:

Estelle:
В роботс для Яши есть указание Disallow: /category/*/*, но онлайн анализатор показывает что и в этом случае к урлам site.com/category/subcategory/article_name/ доступ разрешен.

- при таком синтаксисе доступ как раз запрещён, и анализатор Яндекса это тоже показывает. Так что вы или выкладывайте оригиналы урлов, или "правильно" их скрывайте, чтобы было понятно, о чём речь.

"Быстрый бот" не всегда сразу кидает материал в индекс (он и не должен это делать). То есть, материал может попасть сразу, если Яндекс хорошо относится к сайту, но для новых сайтов надо ждать обновления поисковой базы как правило. Кроме того, меня не покидает ощущение что вы всё же что-то напортачили с роботс.

Estelle:
Я получила все же ответ от Платона, но такое ощущение, что я там разговариваю с глухими да к тому же еще и не совсем живыми Я им одно - они мне другое))

Ну это ощущение более чем правильное, welcome to the club. :)

E
На сайте с 30.10.2012
Offline
50
#164
ZoomY:
Так что вы или выкладывайте оригиналы урлов, или "правильно" их скрывайте, чтобы было понятно, о чём речь.

Урлы выглядят как http://site.com/moda-i-stil/stili-v-odezhde/stil-xippi-v-odezhde/

Для яши в роботс:

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /webstat/

Disallow: /feed/

Disallow: */feed

Disallow: /trackback

Disallow: */trackback

Disallow: /comments

Disallow: */comments

Disallow: /wp-comments

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /cgi-bin

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-content/cache

Disallow: /wp-admin/

Disallow: /wp-includes/

Host: site.com

Sitemap: http://site.com/sitemap_index.xml

Но такой вариант, как утверждают разработчики Ворпресс, подходит в большинстве случаев. И кто тогда прав?

ZoomY
На сайте с 07.11.2008
Offline
165
#165
Estelle:
Disallow: /category/*/*

Вы же говорите, что нет урлов, начинающихся на category?

---------- Добавлено 25.04.2014 в 03:15 ----------

Estelle:
самого слова category в урлах от Вордпресс вообще нет
E
На сайте с 30.10.2012
Offline
50
#166
ZoomY:
Вы же говорите, что нет урлов, начинающихся на category?

Так ведь нет же слова Category там, и в самом деле. Что-то я уже совсем запуталась, честное слово.:( Category не Category:( Рекомендуют таким образом закрывать рубрики во избежание дублей, а я просто этому следую. Уж разработчикам Вордпресс то, наверное, можно верить?

Ох, уж этот Яша, будь он неладен! Почему у Гугла все как у людей, а у русского Вани... полный п...ец! Даже на то, что в роботс было написано вначале как Sitemap: http://site.com/sitemap.xml Яндекс начал ворчать, хотя Гугл прекрасно понял, что в данном случае просто происходит редирект на Sitemap: http://site.com/sitemap_index.xml - всего и делов то!

Для чего тогда нужна вообще html карта сайта, если она расположена на самом видном месте, а яша ее не видит?! Полный п...ец!

ZoomY
На сайте с 07.11.2008
Offline
165
#167

Господи, собери мой мозг обратно!

E
На сайте с 30.10.2012
Offline
50
#168
ZoomY:
Господи, собери мой мозг обратно!

И я про тоже!:) И мой тоже!:)

Я так понимаю уже, что Disallow: /category/*/* здесь вообще не при чем?

Я вообще уже думаю, что это совершенно не при чем! Самый верный вариант из моих догадок - первый: "Яшины боты тормоза и лентяи. Снова второпях была захвачена одна страничка и жди теперь следующего раза". Потому как Гугл тоже при загрузке роботса в его Вебмастер предупредил, что рубрики запрещены к индексации, что, тем не менее, не помещало ему проиндексировать весь сайт! Все верно сделано, так и должно быть!

Просто яша не спешит знакомится с моим молодым сайтом, только и всего:) Одна страничка из рубрики быстророботом уже проиндексирована, так? Да, так. Главная со ссылкой на все посты уже в индексе? Да. Просто основной бот не поспешил перейти по этой ссылке - всего лишь! Теперь надо ждать следующего визита. Мне, возможно, еще везет, т.к. знаю, что некоторые вообще месяцами ждут яшиных ботов:)

B4
На сайте с 27.04.2012
Offline
94
#169
kurvi:
Уважаемые форумчане разъясните следующую ситуацию, кто знает: Заметил недавно что сайт выходит в поисковиках без описания страницы, т.е yandex выдаёт адрес сайта и внизу надпись найден по ссылке, гугл пишет описание страницы недоступно из-за проблем с файлом robots.txt.
Покопавшись немного в корневых папках сайта нашел сей файл где было следующее содержание:
User-Agent: *
Disallow: / (где символ / я так понимаю запрещал полную индексацию сайта)
Вопрос как он там появился, это глюк или..? Сайт работает на базе MODX.
Сейчас файл robots.txt выглядит так
User-Agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: www.мой сайт.ru
Правильное ли это содержание? Хотелось бы более грамотно составить robots.txt но не хватает знаний. Посоветуйте варианты пожалуйста кому не сложно. Хотел бы создать файл что бы в в первом пункте было обращение ко всем поисковым роботам а во втором конкретно к яндексу.

Посмотрите мой прошлый пост - есть анализатор, в нем можно проверить видимость сайта для robots.txt, а вообще смысл в роботс для нового сайта это закрыть системные разделы.

например:

Disallow: /manager/

Вы можете посмотреть стандартный robots.txt для modx и смотреть чтобы страниц дублей, пагинации и тд не было в выдаче. И уже их закрывать.

например:

Disallow: /*?id=

E
На сайте с 30.10.2012
Offline
50
#170

Сегодня обнаружилось, что та самая проиндексированная быстророботом страница вообще выпала из индекса, хотя до этого по практически целевому запросу побывала в среднем аж на 6 позиции. В итоге в Яндексе осталась только "морда" моего сайта. Вижу, что бот Яндекса теперь заходит на мой сайт примерно через день, но ничего не добавляет в индекс.

Вчера опубликовала новую статью, Гугл ее сразу скушал. При добавлении этого нового урла в аддурилку Яндекса он сообщил: "Адрес успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска". Т.е. вроде все нормально, бана нет?

Неужели и в самом деле Яндекс так не любит молодые сайты?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий