Для робота, не использующего директиву Host, необходимо создавать отдельную запись - Яндекс

M

230

maximumx

4 июля 2005, 17:03

#31

хех, а не проще ли пустой robots в директорию закинуть раз такие проблемы?

Продвигаю домены руками (http://roke.ru)

А

150

Анар

4 июля 2005, 17:12

#32

maximumx:
хех, а не проще ли пустой robots в директорию закинуть раз такие проблемы?

Тогда уж еще проще - вообще ничего никуда не запихивать.;)

138

The end

6 июля 2005, 20:52

#33

Что за *****?!?!?!

robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: about.html

Сегодня обнаруживаю, что яндекс проиндексировал about.html и выдает его при поиске! Пытаюсь удалить из индекса - пишет: страничка не может быть удалена, т.к. не запрещена в роботсе!

Ну скажите, я что - чего-то не знаю? Что-то сделал неправильно???

Страничка about.html была создана после запрета в роботс.тхт

Что за маразм?

Singular Advertising (http://www.singular.by/).

Если разрешить индексацию всего Страница просканирована, но пока Ispmanager 6 при отключении

HK

4

help-kenny

7 июля 2005, 02:08

#34

В посте у тебя опечатка, наверное ты хотел сказать

Disallow: /about.html

Cам то я недавно начал заниматься с роботсами и проверяю их корректность по адресу (прошу не обзывать меня занудой ;) )

www.yandex.ru/cgi-bin/test-robots?host=www.site.ru

особенно бывает когда надо удалить много динамических страниц дорвеев и проконтролировать правильно ли меня понял яндекс.

РКН заблокирует сайт, если Резкий всплеск прямых заходов. Чем массово проверить ИКС

138

The end

8 июля 2005, 18:01

#35

В посте у тебя опечатка, наверное ты хотел сказать
Disallow: /about.html

Да, это я здесь очепятался. В роботсе этой ошибки нет. Стал вникать в проблему. Страничка выдавалась только в беклинках сайта статистики - на about.html стоит счетчик. По уникальному тексту Яндекс её не выдавал. Фокусы эти были пока шел расколбас с апдейтом. Сейчас её уже не выдает вообще никак.

M

57

melkov

9 июля 2005, 07:08

#36

wolf,

Т.е. запись без директивы Disallow некорректна и должна игнорироваться и, следовательно, запись

User-Agent: *
Host: www.myhost.ru

ничего не должна запрещать.

Яндекс реагирует так, как написано в help'е.

Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.

Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/

Случаев неправильной интерпретации зеркальщиком содержимого robots.txt пока не было.

К сожалению, периодически выясняется, что http://webmaster.yandex.ru/ использует заметно устаревшую базу зеркал ;)

uacommerce,

Ваши проблемы не имеют отношения к robots.txt и зеркалам.

Slc,

Служба поддержки тоже иногда ошибается. Вариант с пустым Disallow идентичен варианту без него.

Вообще, не требуйте особенно много от службы поддержки, там ведь тоже люди.

Cherny,

Известно ведь, что Googlebot полагает секцию с директивой Host: неправильно оформленной и игнорирует ее.

Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.

Seliger,

http://cards.yandex.ru/robots.txt тоже люди писали.

Гуглю запрещает индексировать swf, Яндексу - нет (т.к. для Яндекса работает только *.swf без слэша, т.е.

Disallow: *.swf

).

257

AiK

10 июля 2005, 23:56

#37

Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.

Подтверждаю. Гугль игнорирует запись. В протоколе не написано, что есть headers. Зато там написано, что

The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Вы считаете что header используется как синоним line. В гугле считают, что header есть синоним record.

Поскольку запись явно не подразумевает наличия строчек отличных от User-agent и Disallow, то использование директивы Host: в сочетании с User-agent: * является более очевидным нарушением правил составления robots.txt, чем игнорирование любым поисковиком подобной записи - нарушением протокола :)

Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.

Трактовка-то может и не нарушает, а вот запись нарушает как приведённую мной цитату, так и цитату приведённую Сергеем:

At least one Disallow field needs to be present in a record.

Т.е. любителем пропускать строку Disallow дважды указали на неправомочность их действий :)

M

57

melkov

11 июля 2005, 13:02

#38

AiK, с Гуглом меня беспокоит случай, когда есть и Disallow, и Host.

Что касается секции без Disallow, но с Host, хорошо, согласен, она неправильная :). Но, как я уже писал, никаких проблем от нее возникнуть не может.

1183

wolf

11 июля 2005, 13:11

#39

К сожалению, периодически выясняется, что http://webmaster.yandex.ru/ использует заметно устаревшую базу зеркал

Ах, вот где собака зарыта. :)

Ребят, ну не помогаете - ладно, понимаем, но так хотя б не мешали бы. :D

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

257

AiK

11 июля 2005, 14:02

#40

melkov, чтобы не беспокоило :), нужно создавать для робота Яндекса отдельную запись. Я об этом писал ещё когда Вы своё расширение протокола на обсуждение выкладывали. IMHO, было бы для всех лучше, если бы Вы в своих инструкциях не советовали ставить Host: для User-Agent:*.

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что делать, если ваша email-рассылка попала в спам

Яндекс накосячил с соблюдением стандарта файла robots.txt