Все вопросы по robots.txt

А3
На сайте с 13.02.2015
Offline
5
#351
bulatbulat48:
Гугл говорит это — клоакинг

Извините за назойливость, но если я правильно понял что Вы имеете ввиду,

то гугл может расценить закрытие папки "themes" как нечестный приемом раскрутки??

Если так, тогда получается что папку с темой, в Вордпресс, в которой находятся css файлы, нужно открывать не желательно, а даже обязательно!?

Я изначально ее прописал в роботс, потому как прочитал, что в целях безопасности, эту папку лучше скрывать..Но хоть я и новичок совсем, но мне кажется на безопасность эта папка не должна влиять..

Может еще кто-нибудь подскажет, что кроме themes, еще следует убрать из robots.txt?

А, что, может быть добавить, для той же "безопасности"?

Вот:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Disallow: /xmlrpc.php

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Disallow: /xmlrpc.php
B4
На сайте с 27.04.2012
Offline
94
#352
Алекс35:
Извините за назойливость, но если я правильно понял что Вы имеете ввиду,
то гугл может расценить закрытие папки "themes" как нечестный приемом раскрутки??
Если так, тогда получается что папку с темой, в Вордпресс, в которой находятся css файлы, нужно открывать не желательно, а даже обязательно!?
Я изначально ее прописал в роботс, потому как прочитал, что в целях безопасности, эту папку лучше скрывать..Но хоть я и новичок совсем, но мне кажется на безопасность эта папка не должна влиять..

Может еще кто-нибудь подскажет, что кроме themes, еще следует убрать из robots.txt?
А, что, может быть добавить, для той же "безопасности"?

Вот:

Проверьте тут - открыть рекомендую все что попросит, в рамках разумного.

Советы от google:

Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.

Рекомендуемые действия:

Убедитесь, что Googlebot может сканировать JavaScript, CSS и графические файлы. Для этого в Инструментах Google для веб-мастеров есть функция Просмотреть как Googlebot. Эта функция моделирует процесс сканирования и отображения страниц. С ее помощью можно найти и исправить ошибки индексирования сайта.

Проверьте свой файл robots.txt в Инструментах Google для веб-мастеров.

O
На сайте с 15.03.2015
Offline
14
#353

1. Если в robots.txt страница закрыта, и на самой странице стоит мета-тег с "noindex", может ли эта страница попасть в индекс гугла/яндекса ?

2. Если главная страница открыта в robots.txt, на этой странице есть картинки src=/bla/bla/bla.jpg , и вот это /bla/... закрыто в robots.txt, значит ли это, что эта картинка не попадет в индекс картинок гугла/яндекса?

A7
На сайте с 06.04.2014
Offline
21
#354

Всем хорошего вечера!

У меня тоже возник вопрос по robots.txt. Движок - Joomla, установлены комменты jcomments. Я вроде для гугла открыла доступ ко всем нужным ему скриптам, css и папкам с картинками в роботсе, но у меня в отчете о заблокированных ресурсах упорно день за днем выдается куча ошибок.

Начинаю проверять ручками через панель вебмастера доступ бота к этим якобы заблокированным картинкам (смайлы, например), в самой же панели отображается, что все ок и доступ для сканирования разрешен.

Подскажите, пожалуйста, как быть в данной ситуации.

B4
На сайте с 27.04.2012
Offline
94
#355
olpiaz:
1. Если в robots.txt страница закрыта, и на самой странице стоит мета-тег с "noindex", может ли эта страница попасть в индекс гугла/яндекса ?

2. Если главная страница открыта в robots.txt, на этой странице есть картинки src=/bla/bla/bla.jpg , и вот это /bla/... закрыто в robots.txt, значит ли это, что эта картинка не попадет в индекс картинок гугла/яндекса?

1) для Google лучше убрать директиву из robot.txt, т.к содержимое самого файла блокируется и он может не увидеть мета-тег. Пруф.

Из яндекса очень быстро удаляются страницы с метатегом noindex. Был случай, что сайт с 50000 страницами за пару дней вылетел из выдачи. Через вебмастер проверить url, можно увидеть что страница заблокирована метатегом.

2) Если присутствует директива Disallow: /bla/ то src=/bla/bla/bla.jpg - будет запрещен для индексации поисковыми системами.

---------- Добавлено 07.04.2015 в 11:58 ----------

Anechka78:
Всем хорошего вечера!
У меня тоже возник вопрос по robots.txt. Движок - Joomla, установлены комменты jcomments. Я вроде для гугла открыла доступ ко всем нужным ему скриптам, css и папкам с картинками в роботсе, но у меня в отчете о заблокированных ресурсах упорно день за днем выдается куча ошибок.
Начинаю проверять ручками через панель вебмастера доступ бота к этим якобы заблокированным картинкам (смайлы, например), в самой же панели отображается, что все ок и доступ для сканирования разрешен.
Подскажите, пожалуйста, как быть в данной ситуации.

в отчете каким числом датировано, до или после снятия запрета?

A7
На сайте с 06.04.2014
Offline
21
#356

bulatbulat48 в отчете каким числом датировано, до или после снятия запрета?

После снятия запрета, бот скачал свежий роботс и прошла новая аналитика по заблокированным ресурсам. Это-то и странно.

B4
На сайте с 27.04.2012
Offline
94
#357
Anechka78:
bulatbulat48 в отчете каким числом датировано, до или после снятия запрета?

После снятия запрета, бот скачал свежий роботс и прошла новая аналитика по заблокированным ресурсам. Это-то и странно.

Что-то пошло не так 😂 ждите тогда, если все верно делаете ошибки исчезнут

O
На сайте с 15.03.2015
Offline
14
#358
bulatbulat48:
1) для Google лучше убрать директиву из robot.txt, т.к содержимое самого файла блокируется и он может не увидеть мета-тег. Пруф.

Да, этод документ я читал, поэтому и возникают такие вот вопросы %). Т.к. вообще не понятно, каким образом запрет в robots.txt может помешать работе мета-тегу "noindex" в случае попадания бота на страницу, при переходе на нее по ссылке, скажем. Если не мешает, то каким тогда образом страница вообще может попасть в индекс?.. Предполагаю, что это касается уже только страниц ПОПАВШИХ в индекс. В этом случае, ПОСЛЕ добавления мета-тега, конечно, НУЖНО позволить боту обходить сайт по измененным страницам, чтобы он прочитал этот новодобавленный тег и удалил страницу из индекса. Но если изначально посавить запрет и там и там, то по идее ж страница никак не может пролезть в индекс ?..

Или все же лучше в robots.txt вообще никаких запретов не делать, и работать только с мета-тегом, для надежности?

M
На сайте с 02.07.2014
Offline
6
#359

Дабы не создавать новую тему, спрошу здесь.

Сегодня чисто случайно заметил, что в выдаче Гугла присутствуют страницы, которых в теории быть не должно. Сайт на DLE.

Дело в том, что там находятся страницы материалов за 1668, 1785, 1914, 1325 и т.д. года!!!

Выглядит так: сайт.ру/1668/11/ (ну и по аналогии).

Образовалась ситуация, когда из 6,340 страниц сайта (всего на ресурсе 100 материалов!) не под фильтрами только 3%.

Какие могут быть варианты исправления?

Все что приходит на ум (не судите строго) - это пропись в Robots.txt

Disallow: /*11
Disallow: /*12
Disallow: /*1
Disallow: /*2

Но на сайте есть урлы типа сайт.ру/12-название-статьи... - такие статье ведь тогда тоже выпадут из индекса... Очень важно не потерять в выдаче нужные странички...

Также в выдаче полно страниц вида сайт.ру/lastnews/page/8/ и сайт.ру/page/...

Думаю это убирать через

Disallow: /page/
Disallow: /lastnews/

Буду очень признателен за экспертное мнение! Заранее спасибо!

B4
На сайте с 27.04.2012
Offline
94
#360
olpiaz:
Да, этод документ я читал, поэтому и возникают такие вот вопросы %). Т.к. вообще не понятно, каким образом запрет в robots.txt может помешать работе мета-тегу "noindex" в случае попадания бота на страницу, при переходе на нее по ссылке, скажем. Если не мешает, то каким тогда образом страница вообще может попасть в индекс?.. Предполагаю, что это касается уже только страниц ПОПАВШИХ в индекс. В этом случае, ПОСЛЕ добавления мета-тега, конечно, НУЖНО позволить боту обходить сайт по измененным страницам, чтобы он прочитал этот новодобавленный тег и удалил страницу из индекса. Но если изначально посавить запрет и там и там, то по идее ж страница никак не может пролезть в индекс ?..

Или все же лучше в robots.txt вообще никаких запретов не делать, и работать только с мета-тегом, для надежности?

Дело в том, что в поисковой системе Яндекс использование запрета в robots.txt и мета тега name="robots" со значением content="noindex" или content="none" приводят к одинаковому результату: к неиндексированию контента страницы и в большинстве случаев её отсутствию в поиске. Как приоритет я бы рекомендовал использовать метатег, но с ним легче ошибиться, и как по мне он более надежен. У robots.txt есть большой плюс - работать удобнее.

С Google аналогично, для него robots.txt рекомендационный файл. Все зависит от ваших условий.

---------- Добавлено 08.04.2015 в 10:51 ----------

Mambaman:
Дабы не создавать новую тему, спрошу здесь.
Сегодня чисто случайно заметил, что в выдаче Гугла присутствуют страницы, которых в теории быть не должно. Сайт на DLE.
Дело в том, что там находятся страницы материалов за 1668, 1785, 1914, 1325 и т.д. года!!!
Выглядит так: сайт.ру/1668/11/ (ну и по аналогии).
Образовалась ситуация, когда из 6,340 страниц сайта (всего на ресурсе 100 материалов!) не под фильтрами только 3%.
Какие могут быть варианты исправления?
Все что приходит на ум (не судите строго) - это пропись в Robots.txt


Но на сайте есть урлы типа сайт.ру/12-название-статьи... - такие статье ведь тогда тоже выпадут из индекса... Очень важно не потерять в выдаче нужные странички...

Также в выдаче полно страниц вида сайт.ру/lastnews/page/8/ и сайт.ру/page/...
Думаю это убирать через



Буду очень признателен за экспертное мнение! Заранее спасибо!

Disallow: /*1

такие метатеги нужно использовать ооочень аккуратно, это закрытие всей файлов *1*

вы закроете им:

/0001.html

/1000.html

/текст1текст.html

и другие страницы с единицей..

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий