Яндекс накосячил с соблюдением стандарта файла robots.txt

1 2345 6
M
На сайте с 21.11.2004
Offline
230
#31

хех, а не проще ли пустой robots в директорию закинуть раз такие проблемы?

Продвигаю домены руками (http://roke.ru)
А
На сайте с 14.11.2003
Offline
150
#32
maximumx:
хех, а не проще ли пустой robots в директорию закинуть раз такие проблемы?

Тогда уж еще проще - вообще ничего никуда не запихивать.;)

The end
На сайте с 23.11.2004
Offline
138
#33

Что за *****?!?!?!

robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: about.html

Сегодня обнаруживаю, что яндекс проиндексировал about.html и выдает его при поиске! Пытаюсь удалить из индекса - пишет: страничка не может быть удалена, т.к. не запрещена в роботсе!

Ну скажите, я что - чего-то не знаю? Что-то сделал неправильно???

Страничка about.html была создана после запрета в роботс.тхт

Что за маразм?

Singular Advertising (http://www.singular.by/).
HK
На сайте с 29.06.2005
Offline
4
#34

В посте у тебя опечатка, наверное ты хотел сказать

Disallow: /about.html

Cам то я недавно начал заниматься с роботсами и проверяю их корректность по адресу (прошу не обзывать меня занудой ;) )

www.yandex.ru/cgi-bin/test-robots?host=www.site.ru

особенно бывает когда надо удалить много динамических страниц дорвеев и проконтролировать правильно ли меня понял яндекс.

The end
На сайте с 23.11.2004
Offline
138
#35
В посте у тебя опечатка, наверное ты хотел сказать
Disallow: /about.html

Да, это я здесь очепятался. В роботсе этой ошибки нет. Стал вникать в проблему. Страничка выдавалась только в беклинках сайта статистики - на about.html стоит счетчик. По уникальному тексту Яндекс её не выдавал. Фокусы эти были пока шел расколбас с апдейтом. Сейчас её уже не выдает вообще никак.

M
На сайте с 25.01.2001
Offline
57
#36

wolf,

Т.е. запись без директивы Disallow некорректна и должна игнорироваться и, следовательно, запись

User-Agent: *
Host: www.myhost.ru

ничего не должна запрещать.

Яндекс реагирует так, как написано в help'е.

Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.

Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/

Случаев неправильной интерпретации зеркальщиком содержимого robots.txt пока не было.

К сожалению, периодически выясняется, что http://webmaster.yandex.ru/ использует заметно устаревшую базу зеркал ;)

uacommerce,

Ваши проблемы не имеют отношения к robots.txt и зеркалам.

Slc,

Служба поддержки тоже иногда ошибается. Вариант с пустым Disallow идентичен варианту без него.

Вообще, не требуйте особенно много от службы поддержки, там ведь тоже люди.

Cherny,

Известно ведь, что Googlebot полагает секцию с директивой Host: неправильно оформленной и игнорирует ее.

Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.

Seliger,

http://cards.yandex.ru/robots.txt тоже люди писали.

Гуглю запрещает индексировать swf, Яндексу - нет (т.к. для Яндекса работает только *.swf без слэша, т.е.

Disallow: *.swf

).

AiK
На сайте с 27.10.2000
Offline
257
AiK
#37

Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.

Подтверждаю. Гугль игнорирует запись. В протоколе не написано, что есть headers. Зато там написано, что

The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Вы считаете что header используется как синоним line. В гугле считают, что header есть синоним record.

Поскольку запись явно не подразумевает наличия строчек отличных от User-agent и Disallow, то использование директивы Host: в сочетании с User-agent: * является более очевидным нарушением правил составления robots.txt, чем игнорирование любым поисковиком подобной записи - нарушением протокола :)


Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.

Трактовка-то может и не нарушает, а вот запись нарушает как приведённую мной цитату, так и цитату приведённую Сергеем:

At least one Disallow field needs to be present in a record.

Т.е. любителем пропускать строку Disallow дважды указали на неправомочность их действий :)

M
На сайте с 25.01.2001
Offline
57
#38

AiK, с Гуглом меня беспокоит случай, когда есть и Disallow, и Host.

Что касается секции без Disallow, но с Host, хорошо, согласен, она неправильная :). Но, как я уже писал, никаких проблем от нее возникнуть не может.

wolf
На сайте с 13.03.2001
Offline
1183
#39
К сожалению, периодически выясняется, что http://webmaster.yandex.ru/ использует заметно устаревшую базу зеркал

Ах, вот где собака зарыта. :)

Ребят, ну не помогаете - ладно, понимаем, но так хотя б не мешали бы. :D

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
AiK
На сайте с 27.10.2000
Offline
257
AiK
#40

melkov, чтобы не беспокоило :), нужно создавать для робота Яндекса отдельную запись. Я об этом писал ещё когда Вы своё расширение протокола на обсуждение выкладывали. IMHO, было бы для всех лучше, если бы Вы в своих инструкциях не советовали ставить Host: для User-Agent:*.

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий