Вопрос по robots.txt

1 2345 6
A
На сайте с 15.08.2006
Offline
27
#31

Спасибки за ответы =)

Если стрнаица уже запрещена для индексации в роботс нужно ли её заключат в тег ноиндекс или это уже масо масляное?

не надо поправлять орфографически и пунктуационные абшибки, они СПЕЦИАЛЬНО вписываются для придания интернет общению более не формальной обстановки 8)
FlyAway
На сайте с 01.06.2005
Offline
439
#32

Android, не надо заключать.

Сердюченко Андрей (http://www.serdyuchenko.ru/) Масонская ложа — SЕ-Team.ru (http://goo.gl/YIjV6h) :)
AVV
На сайте с 31.07.2006
Offline
84
AVV
#33
FlyAway:
AVV, можно ещё короче ;)

Спасибо. Я знаю. Это я написал, как общий шаблон. Вдруг Android потребуется закрыть разные страницы для разных user_agent и дописать их в эти правила конкретно для Гугля, Яндекса и др. роботов. То есть - общие правила для всех, плюс какие-то еще отдельные страницы для Яндекса, а какие-то для Гугля.

В любом случае, любая подсказка или совет не отменяет необходимости думать самостоятельно. :)

andrej-ilin
На сайте с 28.03.2005
Offline
42
#34

Директива

Disallow: /abc

Запрещает индексацию всех директорий и файлов, имена которых начинаются на "abc".

Если об этом помнить в тот момент, когда вы придумываете вид своих URL, то можно с помощью нескольких строк в robots.txt управлять индексацией больших сайтов.

Директива Host придумана в Яндексе и для большинства роботов неизвестна, поэтому лучше, от греха подальше, использовать ее так как вам предлагает FlyAway. Ибо в официальной спецификации ее нет как нет и надежды на то, что она там когда-нибудь появится.

andrej-ilin@yandex.ru
A
На сайте с 15.08.2006
Offline
27
#35
FlyAway:
AVV, можно ещё короче ;)

User-agent: Yandex
Disallow: /forum/topic.php?forum=5&topic=71&v=#1155832652
Disallow: /bad
Disallow: /bad2
Host: www.my.ru

User-agent: *
Disallow: /forum/topic.php?forum=5&topic=71&v=#1155832652
Disallow: /bad
Disallow: /bad2

гугль не нужно писать отдельно, для него работает юзер-агент для всех - *

Толькошто заметил, получается что .html и .php писать не надо?

AVV
На сайте с 31.07.2006
Offline
84
AVV
#36

Если на сайте только файлы bad.php и bad2.php

и нет файлов c таким же именем, и другим расширением, например, bad.html и bad2.html, которые нужно открыть для роботов, то не надо.

Disallow: /bad

Disallow: /bad2

закрывает для индексации все файлы, начинающиеся с /bad и /bad2, в том числе и /bad.php и /bad2.php

AiK
На сайте с 27.10.2000
Offline
257
AiK
#37

Пара замечаний без цитирования

1) Нельзя совмещать User-Agent: * с непустыми директивами Disallow и директивой Host - в частности гугль игнорирует всю запись как не верную

2) Найдя свои имя в User-Agent роботы игнорируют другие записи. Халява не прокатывает. Если нужно запретить, скажем, для Гугля всё тоже самое, что и для всех остальных поисковиков, но для него сделана отдельная запись, то придётся продублировать все запрещающие директивы персонально для Гугля.

andrej-ilin
На сайте с 28.03.2005
Offline
42
#38
AVV:

Disallow: /bad
Disallow: /bad2

Вторая запись в этом примере лишняя, так как первая запрещает индексацию всех документов, адреса которых начинаются на /bad

AVV
На сайте с 31.07.2006
Offline
84
AVV
#39
andrej-ilin:
Вторая запись в этом примере лишняя, так как первая запрещает индексацию всех документов, адреса которых начинаются на /bad

В данном случае, да, лишняя.

S
На сайте с 23.06.2006
Offline
37
#40

andrej-ilin,

Оцените пожалуйста, правильно ли я понимаю -

Для сайтов на русском языке.

Для правильной склейки сайтов на бесплатных хостах, у которых нет доступа к

файлу .htaccess , нужно все ссылки прописать абсолютным путем. Ссылки

должны быть вида :

<a href="http://www.site.ru/page1.html">...</a>

A в файл robots.txt введите директиву Host и укажите главным именно

зеркало www.site.ru

Если сайт новый , не надо его регистрировать в поисковиках. На 11-20 бесплатных досках, пробиваемых по Гуглу и Яндексу поместить обьявления с сылкой вида

<a href="http://www.site.ru">Название сайта</a>

Также можно зарегистрироваться в 11-20 белых каталогах , но не с самыми

высокими PR и тИЦ . Перед регистрацией обязательно проверьте, какие ссылки обычно там ставят.

Через пол года внутренние ссылки можно укоротить до вида

<a href="/page1.html">...</a>

Но ссылки "На Главную" лучше оставить с абсолютным путем.

Встречаются утверждения, якобы для Google обязательно нужно ставить 301 редирект.

Однако я считаю, что и без него можно прекрасно обойтись, у всех роботов есть свои механизмы склейки зеркал.

Робота Yandex "зовут" Yandex

Робота Рамблера "зовут" StackRambler

Робота Aport "зовут" Aport

Робота Google "зовут" Googlebot

Робота AltaVista "зовут" Scooter

HotBot и MSN используют поисковый робот Inktomi, он называется Slurp

Другие поисковики менее популярны.

Может быть данный пример robots.txt можно урезать, но в таком

виде у вас гарантированно не будет проблемм.

User-agent: Googlebot

Disallow: /

User-agent: Scooter

Disallow: /fale/

Disallow: /fale2

User-agent: Slurp

Disallow: /fale/

Disallow: /fale2

User-agent: StackRambler

Disallow: /fale/

Disallow: /fale2

User-agent: Aport

Disallow: /fale/

Disallow: /fale2

User-agent: Yandex

Disallow: /fale/

Disallow: /fale2

Host: www.site_url.ru

User-agent: *

Disallow: /fale/

Disallow: /fale2

А проблемы могут возникнуть из за месторасположения секции со звездой.

Не все роботы прваильно поддерживают стандарт.

Есть еще один способ склейки , - для Аппача можно написать маленикий SSI скрипт.

Подскажите, как этот метод работает? Универсален ли он?

Заранее благодарю за ответ.

Плодоносящий лимон (http://www.limon-room.narod.ru)
1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий