вопрос про robots.txt

M
На сайте с 22.11.2002
Offline
9
#11
Как писал wolf


Яндексоиды не всех своих роботов за роботов считают. Поэтому некоторые из них robots.txt игнорируют.

Ну вот, сейчас опять начнется флейм про различия между GET и HEAD.

Не надо, может быть?

N
На сайте с 21.11.2001
Offline
152
#12
Как писал NULL
В справке Яндекса рекомендуют статью на CITForum посвященную robots.txt.

Дык и я о том. Чай раздел форума-то о Яндексе etc. Я тут флэйм развел с уклоном на евоных роботов.

Как писал Cherny
Подождем Артема (aka AiK), он нас и разнимет.

wolf
На сайте с 13.03.2001
Offline
1183
#13

Я думаю, правильное запрещение индексации только Рамблеру и Яндексу будет выглядеть так:

User-agent: StackRambler

Disallow: /

User-agent: Yandex

Disallow: /

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
wolf
На сайте с 13.03.2001
Offline
1183
#14
Ну вот, сейчас опять начнется флейм про различия между GET и HEAD.
Не надо, может быть?

Конечно не надо. Только вот роботы Яндекса с литерой D и M вроде бы делают запрос GET, а не HEAD

M
На сайте с 25.01.2001
Offline
57
#15

NULL, "Примечания переводчика", вообще говоря, не совсем корректны, но видимо, на них не обратили внимания. В принципе, с роботами, следующими совету "A case insensitive substring match of the name without version information is recommended", это может и пройти.

Nicon, Вы, конечно же, вправе руководствоваться и комментариями переводчика, и немного неудачно отформатированным текстом перевода.

Тут есть одна простая вещь: если вы нарушите общепринятый стандарт, т.е. http://www.robotstxt.org/wc/norobots.html (никакие другие его расширения и изменения общепринятыми не являются), то, весьма вероятно, большинство роботов Ваш robots.txt обработает правильно, но вы очень рискуете.

User-agent
The value of this field is the name of the robot...

Disallow
The value of this field specifies a partial URL that is not to be visited...

Обратите внимание, в обоих случаях - в единственном числе.

Если вы последуете советам некомпетентных личностей, статьями которых усеян интернет, можете получить самые неожиданные эффекты.

То, что предлагает Cherny, гарантированно соответствует стандарту и, следовательно, должно работать (хотя если сделать так, как предлагает wolf, это будет работать и с роботами, которые не вполне соблюдают стандарт).

> Директиву Host как правильно указывать. После каждого User-Agent`a или в конце всего файла достаточно?

Поле Host может находиться там, и только там, где и disallow, т.е. внутри записи. Кроме того, роботы, авторы которых имеют трудности с восприятием текста "Unrecognised headers are ignored" (авторская орфография сохранена :)), скорее всего, существуют. Помня о них, можно, поскольку это не составляет никакого труда, писать "Host" в конце записи (а не файла, конечно же).

NL
На сайте с 29.01.2003
Offline
212
#16
Как писал melkov
хотя если сделать так, как предлагает wolf, это будет работать и с роботами, которые не вполне соблюдают стандарт

А почему вариант wolf`а не соответствует стандарту? Где несоответствие?

N
На сайте с 21.11.2001
Offline
152
#17
Как писал melkov
Вы, конечно же, вправе руководствоваться и комментариями переводчика, и немного неудачно отформатированным текстом перевода...

...Если вы последуете советам некомпетентных личностей, статьями которых усеян интернет...

Странно, я-то, как раз, в споре с Cherny, ссылался на статью с citforum.ru, зная, что ее рекомендует Яндекс. Т.е. мне казалось, что если поддерживает, значит не противоречит. 😕

В любом случае, спасибо за профессиональный комментарий. Но Вы не ответили на главный вопрос. Собственно ради него я тут флэйм развел. Как робот Яндекса отреагирует на такую запись:

User-Agent: *

Disallow: /scripts/

Disallow: /admin/

Disallow: /quesions/

Host: www.domain.ru

User-Agent: yandex stackrambler

Disallow: /scripts/

Disallow: /admin/

Disallow: /quesions/

Disallow: /goaway

Host: www.domain.ru

??

Зачем мне это? IIS не поддерживает SSI, и мне приходится генерить robots.txt налету.

Cherny - признаю свое поражение 🍻

M
На сайте с 22.11.2002
Offline
9
#18
Как писал wolf


Конечно не надо. Только вот роботы Яндекса с литерой D и M вроде бы делают запрос GET, а не HEAD

Прошу прощения, наехал не по делу, перепутал с историей с закладками/каталогом.

Еще раз извиняюсь.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#19
Как писал melkov

эх как жаль, что так много не всегда пишется по более интересным темам ...

C
На сайте с 19.09.2001
Offline
120
#20
Как писал Nicon
Cherny - признаю свое поражение 🍻

🚬 🍻

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий