Файл robots.txt

111

cman

25 октября 2010, 21:21

841

Уважаемые дамы и господа,

Я нашёл по поиску огромное количество тем по этому загадочному файлу:

Однако, просмотрев несколько из них, и не найдя ответа, я всё-таки решил внести и свою лепту (уж, извините) в разработку этого направления. И позволил себе, таким образом, создать новую тему. Я, естественно, втайне надеюсь, что тут наконец мне помогут разобраться с этим, очень важным для меня вопросом.

Собственно, у меня даже не вопрос. Нужно Ваше профессиональное заключение (насколько это возможно).

Итак, коротко. Существует некий фотосервис, предоставляющий на платной основе услуги по хранению фотографий. Адреса сайтов выглядят следующим образом:

http://mysite1.anyfotohost1.com ,

http://mysite2.anyfotohost1.com ,

http://mysite3.anyfotohost1.com и т.д.

Непосредственно файл robots.txt, естественно, одинаковый для всех сайтов, размещённых на этом сервисе, выглядит так:

User-agent: archive.org_bot

Disallow: /admin/

Disallow: /cart/

Disallow: /test/

Disallow: /VIP/

Disallow: /vip/

Disallow: /search/

User-agent: baiduspider

Disallow: /admin/

Disallow: /cart/

Disallow: /test/

Disallow: /VIP/

Disallow: /vip/

Disallow: /search/

............................................

дальше едёт перечисление всемирно известных роботов, точно с такими же одинаковыми ограничениями

............................................

User-agent: *

Disallow: /

Вот, собственно, две последние строки этого файла, а именно;

User-agent: *

Disallow: /

и вызвали во мне волну непонимания. В связи с чем, между мной и поддержкой этого сервиса завязалась переписка.

Мои доказательства сводятся к следующему

1. "The "User-agent: *" means this section applies to all robots. The "Disallow: /" tells the robot that it should not visit any pages on the site." - http://www.robotstxt.org/robotstxt.html

2. Что все до единой ссылки абсолютно любого сайта этого сервиса, если его проверить тут - http://www.xml-sitemaps.com/se-bot-simulator.html - ! Restricted with robots.txt

На что мне, поддержка фотосервиса довольно толково, хотя и монотонно, разъясняет, что эти две строки предназначены именно для всех остальных роботов, которых существует великое множество, и которые не перечислены в этом файле. А что касается поисковиков Google, Yahoo, MSN, то они как раз и не будут обращать внимание на эти две строки, так как запрещающие директивы для них прописаны выше. И, соответственно, препятствий для индексации страниц у них не будет.

Так кто же из нас прав?

И, в заключении, прошу заметить, что речь на данном этапе ни в коем случае не идёт о правильной, корректной, быстрой, медленной и т.д. индексации сайта (-ов), а лишь о правильном составлении файла robots.txt.

Спасибо за внимание.

Остаюсь в ожидании Ваших профессиональных советов и рекомендаций по этому вопросу.

185

Z-Style

25 октября 2010, 21:47

#1

Правильно:

User-agent: *

Disallow: /admin/

Disallow: /cart/

Disallow: /test/

Disallow: /VIP/

Disallow: /vip/

Disallow: /search/

B

161

bober

25 октября 2010, 22:14

#2

cman, если приведены инструкции для конкретных ботов, то все нижеследующие запрещения их не касаются - паук, найдя директивы для себя, дальше файл не читает. Т.е. с точки зрения правильности составления robots.txt в Вашем файле все ОК.

Но какой практический смысл прописывать отдельную - одинаковую - инструкцию для кучи ботов, а потом запрещать индексацию всем оставшимся? Чтоб было что почитать перед сном в robots.txt?

301 редирект заменит директиву Настройка индексирования нового сайта Яндекс внес изменения в

174

Trafikgon

26 октября 2010, 08:56

#3

Зачем делать велосипед cman? всё проще гляньте гиганта google.com/robots.txt ))

и делайте также.

. (#)

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Все что нужно знать о DDоS-атаках грамотному менеджеру