Все также о robots.txt

G
На сайте с 21.09.2007
Offline
16
727

Прошу ответить на несколько вопросов:

1 - В поддомене куда девать файл? Просто только недавно читал, что роботсы читаются только в корневой директории домена, но никак не поддомена - развейте сомнения:)

2 - Как расценят поисковики блокировку исходящих ссылок и как это лучше оформить в robots.txt?

3 - Как описывать несколько роботов одной поисковой системы и имеет ли это смысл?

4 - Не могли бы вы предоставить IP и имена роботов ВСЕХ ПС в Рунете и наиболее важных в Internet-е в целом?

Заранее благодарю!

Набор в команду (http://forum.roycom.ru/showthread.php?t=21)
T
На сайте с 11.08.2005
Offline
181
#1
Goddy:
1 - В поддомене куда девать файл? Просто только недавно читал, что роботсы читаются только в корневой директории домена, но никак не поддомена - развейте сомнения:)

http://sub.domain.ru/robots.txt

Goddy:
2 - Как расценят поисковики блокировку исходящих ссылок и как это лучше оформить в robots.txt?

Оформить ссылки через редирект, например http://site.ru/redir.php?url=http://site2.ru/

и запретить /redir.php в robots.txt

Goddy:
3 - Как описывать несколько роботов одной поисковой системы и имеет ли это смысл?

В 99% случаев смысла в подобном не вижу... 1% - это когда нужно запретить индексацию сайта основному боту Яндекса, но разрешить его проверять простукивалке Я.Каталога. (навеяно недавним топиком)

Goddy:
4 - Не могли бы вы предоставить IP и имена роботов ВСЕХ ПС в Рунете и наиболее важных в Internet-е в целом?

Хм... если такая база у кого-нибудь и есть, то она стоит денег...

Web-Silver
На сайте с 02.05.2007
Offline
256
#2

1. В корень поддомена, все ок будет.

2. Никак, уж тем более в robots.txt Если я правильно понял, то нужно запретить индексацию внешних ссылок на странице, делается так: <noindex><a href="http://site.ru" rel="nofollow">Текст ссылки</a></noindex>

3. А зачем там их описывать? Если только использовать директиву host.

4. Тут + поиск в Яндексе или Гугле по запросу "список поисковых роботов" или "search bot list"

Sadie
На сайте с 11.04.2005
Offline
64
#3

Во-первых - http://robotstxt.org.ru/

А теперь во-вторых:

1. В корневую поддомена. Не надо путать поддомены и папки.

2. Простите? Блокировать ссылки при помощи robots.txt, конечно, можно, но зачем? Не проще ли использовать сочетание <noindex> и <a href... rel="nofollow">?

Пояснение. Если уж очень хочется закрыть ссылки роботом, надо найти скрипт, делающий редирект по ссылке, принимаемой в параметрах. Таких скриптов в интернете навалом. Потом положить скрипт в отдельную директорию и закрыть ее роботсом.

3. Строкой User-agent: в пресловутом robots.txt. Смысл зависит от того, чего Вы хотите добиться. Возможно, имеет смысл сделать отдельную секцию для Яндекса, где добавить директиву Host:

4. http://robotstxt.org.ru/rurobots

Новости без комплексов (http://www.kompleksov.net/) | ЖЖ (http://sad-sadie.livejournal.com/)
G
На сайте с 21.09.2007
Offline
16
#4

всем спасибо:)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий