melkov

Рейтинг
57
Регистрация
25.01.2001
Должность
postgraduate student (DMMC), yandex.ru programmer
Интересы
search engine(s), 3d engines

Gray,
> абрикосово-яблочный сок
http://www.yandex.ru/yandsearch?text=%E0%E1%F0%E8%EA%EE%F1%EE%E2%EE-%FF%E1%EB%EE%F7%ED%FB%E9+%F1%EE%EA

... Для оффтопика явно не хватает тега [off] и какой-нибудь иконки.

Денис, 😎

Вообще-то наш user-agent обязательно содержит слово yandex в качестве case-insensitive подстроки.

> Чего тут ругать-то?

Ну вот, скажем,

Disallow: klmn.html

можно поругать. Да Вы и сами можете поругать, после RTFM :).

> Вы под каким юзер-агентом проверяете, если не секрет? :)

Вместо того, чтобы задавать глупые вопросы :), лучше бы привели свой robots.txt, а я бы его обругал.

добавил смайлик

Nicon:

> Как робот Яндекса отреагирует на такую запись?

Согласно стандарту + директива Host.

Кстати, Вам еще следует поинтересоваться по поводу того, как на такой файл отреагирует Рамблер.

Следующий скрипт пока официально не существует, и дизайн к нему не приделан, но в форуме Яндекса я про него уже упоминал:

http://kako.yandex.ru/cgi-bin/test-robots

В дальнейшем должен отвечать по адресу www.

NULL, "Примечания переводчика", вообще говоря, не совсем корректны, но видимо, на них не обратили внимания. В принципе, с роботами, следующими совету "A case insensitive substring match of the name without version information is recommended", это может и пройти.

Nicon, Вы, конечно же, вправе руководствоваться и комментариями переводчика, и немного неудачно отформатированным текстом перевода.

Тут есть одна простая вещь: если вы нарушите общепринятый стандарт, т.е. http://www.robotstxt.org/wc/norobots.html (никакие другие его расширения и изменения общепринятыми не являются), то, весьма вероятно, большинство роботов Ваш robots.txt обработает правильно, но вы очень рискуете.

User-agent
The value of this field is the name of the robot...

Disallow
The value of this field specifies a partial URL that is not to be visited...

Обратите внимание, в обоих случаях - в единственном числе.

Если вы последуете советам некомпетентных личностей, статьями которых усеян интернет, можете получить самые неожиданные эффекты.

То, что предлагает Cherny, гарантированно соответствует стандарту и, следовательно, должно работать (хотя если сделать так, как предлагает wolf, это будет работать и с роботами, которые не вполне соблюдают стандарт).

> Директиву Host как правильно указывать. После каждого User-Agent`a или в конце всего файла достаточно?

Поле Host может находиться там, и только там, где и disallow, т.е. внутри записи. Кроме того, роботы, авторы которых имеют трудности с восприятием текста "Unrecognised headers are ignored" (авторская орфография сохранена :)), скорее всего, существуют. Помня о них, можно, поскольку это не составляет никакого труда, писать "Host" в конце записи (а не файла, конечно же).

euhenio:

> Вон как-то Мельков говорил, что при расчете тИЦ учитывается и ВИЦ ссылающейся страницы.

А вот и не говорил.

euhenio, так оно и в ящик играть может. Теоретически.

А вообще - http://www.yandex.ru/yandsearch?text=bill+gates

mnt - отвечено на форуме http://forum.yandex.ru/?id_note_forum=1047435

reagan:

> А вот интересно, как же он все-таки определяется автоматически. В смысле, на основе чего.

Все критерии для выбора не раскрываются. Но некоторые (robots.txt; только абсолютные ссылки на главной странице; noindex,nofollow на главной странице) явно опубликованы. Как говорится, RTFM.

> то перейдет ли к нему описание

да

> Играет ссылочное ранжирование по внутренним ссылкам с головы

euhenio, Вам бы сценарии для фильмов ужасов писать :)

funsad:

> <original href="...">.

Тогда уж лучше <LINK rel=original ...>

См. процитированный ответ от Martijn Koster в .

(Хотя не обязательно "original", можно и другое слово).

Всего: 142