Yahoo! расширяет возможности файла robots.txt

328

K. Ermakov

3 ноября 2006, 06:41

3816

http://www.ysearchblog.com/archives/000372.html

Добавлена поддержка * и $.

* означает любой набор символов

$ используется как знак конца URL

Пример 1

User-Agent: Yahoo! Slurp

Allow: /public*/

Disallow: /*_print*.html

Disallow: /*?sessionid

1) Разрешает индексацию всех каталогов, начинающихся с 'public', например, '/public_html/' или '/public_graphs/'.

2) Запрещает индексацию всех файлов и каталогов, содержащих html-документы и строку '_print' в URL, например, '/card_print.html' или '/store_print/product.html'.

3) Запрещает индексацию URL, содержащих '?sessionid'

Пример 2

User-Agent: Yahoo! Slurp

Disallow: /*.gif$

Запрещает индексацию всех файлов, URL которых заканчивается на .gif

С уважением, Константин Ермаков, absite.ru: онлайн кроссворды (http://absite.ru/); searchsuggest.ru: поисковые подсказки доставляют (http://searchsuggest.ru/).

120

СКОРПИОН

3 ноября 2006, 06:47

#1

Интересно!

Плюсомёт не работает, жаль... :(

Вот только один вопрос возникает, почему бы всем этим новаторам не ввести вместо robots.txt, например, yahoo.txt или yandex.txt. И себе жизнь облегчат и стандарты нарушать не будут. А то в сложных проектах robots уже на несколько страниц тянет, из-за отдельного описания под каждый бот...

• Контекстные ссылки с внутренних страниц навсегда (/ru/forum/370882) • Качественные сайты для заработка на контекстной рекламе и ссылках

328

K. Ermakov

3 ноября 2006, 06:59

#2

СКОРПИОН:
А то в сложных проектах robots уже на несколько страниц тянет, из-за отдельного описания под каждый бот...

А такой robots видели? :)

http://www.webmasterworld.com/robots.txt

(впрочем, баян баянистый)

141

organic

3 ноября 2006, 10:37

#3

K. Ermakov:
А такой robots видели?
http://www.webmasterworld.com/robots.txt

фигасе... т.е понятно, что роботам они вот это дают http://www.webmasterworld.com/robots2

K. Ermakov, а зачем такая хитромудрость? Я имею в виду не сами манипуляции с robots.txt а именно то что они с ним сделали - какая то группа новостей прямо

Yeah, well, I'm gonna go build my own theme park, with blackjack and hookers. In fact, forget the park!

1018

Каширин

3 ноября 2006, 10:39

#4

K. Ermakov, Костя, введение Яндексом директивы Host привело к тому, что блок с такой директивой игнорируется Googlebot. Будет ли аналогичная ситуация в данном случае?

328

K. Ermakov

3 ноября 2006, 11:20

#5

organic:
т.е понятно, что роботам они вот это дают http://www.webmasterworld.com/robots2

А если зайдёте с User-Agentом, например, Slurp, то и по адресу http://www.webmasterworld.com/robots.txt получите другой файл. Клоачат они бессовестно! :)

***

Каширин, с учётом поддержки Гуглом директивы Allow: и * с $, думаю, проблем не будет.

68

Bloody dude

3 ноября 2006, 12:31

#6

Это все, конечно, хорошо, но кооперативное движение начинает утомлять. Роботс.тхт уже каждая приличная машина читает как хочет, предлагая добавлять туда то, что она хочет. Мета-тэги у каждой со своими особенностями. Редиректы хотим понимаем, не хотим - не понимаем...

Конечно, не велика проблема для каждого бота писать отдельный блочок в роботс.тхт. Получится всего-то навсего

UA's:

Yandex

Rambler

Google

Yahoo

MSN (а на Live передадутся ВСЕ особенности?)

И для каждого знаков эдак по 500...

И толпа всяческой мелочевки. Если человек сравнительно в рынке, то нет вопросов. А толпа веб-мастеров тупо напишут роботс.тхт по стандартам, на которые, оказывается, давным давно забили все, кому не лень.

Кто-нибудь вообще обновит стандарты хоть когда-нибудь? Тем более, что если искалки устроили всю эту пионэрию, значит, проблема действительно существует...

А народ на вебмастерворлде просто стебется со всего этого безобразия. Они ж там еще и тэг google pray когда-то лепили:)

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что делать, если ваша email-рассылка попала в спам