Все вопросы по robots.txt

Андрей
На сайте с 21.01.2009
Offline
96
#151
sni:
Disallow: /*print=
Но в гугле могут оставаться в индексе, если на них есть ссылки

Интересует именно яндекс, при попытке удалить страницу через сервис Яндекса пишет: "Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex." Попробую предложенный вариант. Спасибо.

Крупная биржа баннерной рекламы ( https://falconsender.ru/?alksprin)
AZ
На сайте с 02.07.2013
Offline
8
#152

Воспользуйтесь директивой Clean-param

http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#clean-param

Должно выглядеть примерно так:

User-agent: Yandex

Disallow:

Clean-param: print /catalog/

Пускай гуру поправят

B4
На сайте с 27.04.2012
Offline
94
#153
alex-zzx:
Воспользуйтесь директивой Clean-param
http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#clean-param

Должно выглядеть примерно так:
User-agent: Yandex
Disallow:
Clean-param: print /catalog/

Пускай гуру поправят

clean-param - для Яндекса, Google проигнорирует.

Чтобы не гадать, в Вебмастере яндекс есть проверка robots.txt и в google/webmasters тоже.. Загружаете robots и вписываете несколько url для примера, и сервис показывает результат.

http://webmaster.yandex.ru/robots.xml#results

Андрей
На сайте с 21.01.2009
Offline
96
#154
bulatbulat48:
clean-param - для Яндекса, Google проигнорирует.

Чтобы не гадать, в Вебмастере яндекс есть проверка robots.txt и в google/webmasters тоже.. Загружаете robots и вписываете несколько url для примера, и сервис показывает результат.

http://webmaster.yandex.ru/robots.xml#results

Да, спасибо, все гениальное просто ☝ закрывается с помощью Disallow: /*print=

B4
На сайте с 27.04.2012
Offline
94
#155
Alksprin:
Да, спасибо, все гениальное просто ☝ закрывается с помощью Disallow: /*print=

На здоровье🚬

B4
На сайте с 27.04.2012
Offline
94
#156
Alksprin:
Да, спасибо, все гениальное просто ☝ закрывается с помощью Disallow: /*print=

Чтобы всем облегчить жизнь - можно в первое сообщение топика прикрепить.. если Cell одобрит..

---------- Добавлено 16.04.2014 в 21:12 ----------

Cell:
Вопросы по файлу robots.txt

как считаете?

Cell
На сайте с 09.10.2007
Offline
552
#157
bulatbulat48:
Чтобы всем облегчить жизнь - можно в первое сообщение топика прикрепить.. если Cell одобрит..

Дописал в первое сообщение.

The Piper at the Gates of Dawn.
B4
На сайте с 27.04.2012
Offline
94
#158
Cell:
Дописал в первое сообщение.

спасибо!

Продолжим.. для Google:

Проверить результат обхода страницы, после обработки файлом robots.tx можно, вписав список url в форму проверки.

Google WMT -> Левая панель -> Сканирование -> Заблокированные URL

либо:

https://www.google.com/webmasters/tools/robots-analysis?hl=ru&siteUrl=

K
На сайте с 16.04.2014
Offline
0
#159

Уважаемые форумчане разъясните следующую ситуацию, кто знает: Заметил недавно что сайт выходит в поисковиках без описания страницы, т.е yandex выдаёт адрес сайта и внизу надпись найден по ссылке, гугл пишет описание страницы недоступно из-за проблем с файлом robots.txt.

Покопавшись немного в корневых папках сайта нашел сей файл где было следующее содержание:

User-Agent: *

Disallow: / (где символ / я так понимаю запрещал полную индексацию сайта)

Вопрос как он там появился, это глюк или..? Сайт работает на базе MODX.

Сейчас файл robots.txt выглядит так

User-Agent: *

Disallow:

User-agent: Yandex

Disallow:

Host: www.мой сайт.ru

Правильное ли это содержание? Хотелось бы более грамотно составить robots.txt но не хватает знаний. Посоветуйте варианты пожалуйста кому не сложно. Хотел бы создать файл что бы в в первом пункте было обращение ко всем поисковым роботам а во втором конкретно к яндексу.

E
На сайте с 30.10.2012
Offline
50
#160

что-то я не пойму Яндекс((( Сайт у меня совсем новенький, он для меня первый вообще. Гугл весь мой сайт проиндексировал уже на следующий день после регистрации в Вебмастере. Быстрый робот Яши с неделю назад захватил 1 страничку (урл выглядит как site.com/category/subcategory/article_name/). На днях побывал основной бот, я это поняла по тому что стали доступны Оригинальные тексты. В Вебмастере написано: Загружено 5 страниц, исключено -4. Проиндексирована всего 1 страница - главная, статичная. Причины исключения других - доступ запрещен в роботс. Страницы эти вида /category/subcategory/ - у меня всего 2 категории сейчас, а в каждой из них еще по разделу. В роботс для Яши есть указание Disallow: /category/*/*, но онлайн анализатор показывает что и в этом случае к урлам site.com/category/subcategory/article_name/ доступ разрешен. В чем тут загвоздка не пойму. Вот сижу и гадаю, а варианты моих догадок такие:

1. Яшины боты тормоза и лентяи:) Снова второпях была захвачена одна страничка и жди теперь следующего раза

2. Основной бот сканирует страницы как то не так, как быстрый

3. все мои статьи, за исключением одной-единственной Яша счел недостойным его индекса:) Верится с трудом, т.к. статьи уникальные, качественные, выстраданные пОтом и к тому же ВСЕ в Гугле.

Вчера написала в техподдержку, но теперь понимаю что обьяснила им суть проблемы скорее всего неверно. Ответа нет. Ничего понять не могу. Восемь страниц сейчас всего на сайте, включая главную. Всего 8!

Уважаемые знатоки, подскажите, пожалуйста, ответ на эту "загадку".

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий