- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Яндексоиды не всех своих роботов за роботов считают. Поэтому некоторые из них robots.txt игнорируют.
Ну вот, сейчас опять начнется флейм про различия между GET и HEAD.
Не надо, может быть?
В справке Яндекса рекомендуют статью на CITForum посвященную robots.txt.
Дык и я о том. Чай раздел форума-то о Яндексе etc. Я тут флэйм развел с уклоном на евоных роботов.
Подождем Артема (aka AiK), он нас и разнимет.
☝
Я думаю, правильное запрещение индексации только Рамблеру и Яндексу будет выглядеть так:
User-agent: StackRambler
Disallow: /
User-agent: Yandex
Disallow: /
Не надо, может быть?
Конечно не надо. Только вот роботы Яндекса с литерой D и M вроде бы делают запрос GET, а не HEAD
NULL, "Примечания переводчика", вообще говоря, не совсем корректны, но видимо, на них не обратили внимания. В принципе, с роботами, следующими совету "A case insensitive substring match of the name without version information is recommended", это может и пройти.
Nicon, Вы, конечно же, вправе руководствоваться и комментариями переводчика, и немного неудачно отформатированным текстом перевода.
Тут есть одна простая вещь: если вы нарушите общепринятый стандарт, т.е. http://www.robotstxt.org/wc/norobots.html (никакие другие его расширения и изменения общепринятыми не являются), то, весьма вероятно, большинство роботов Ваш robots.txt обработает правильно, но вы очень рискуете.
User-agent
The value of this field is the name of the robot...
Disallow
The value of this field specifies a partial URL that is not to be visited...
Обратите внимание, в обоих случаях - в единственном числе.
Если вы последуете советам некомпетентных личностей, статьями которых усеян интернет, можете получить самые неожиданные эффекты.
То, что предлагает Cherny, гарантированно соответствует стандарту и, следовательно, должно работать (хотя если сделать так, как предлагает wolf, это будет работать и с роботами, которые не вполне соблюдают стандарт).
> Директиву Host как правильно указывать. После каждого User-Agent`a или в конце всего файла достаточно?
Поле Host может находиться там, и только там, где и disallow, т.е. внутри записи. Кроме того, роботы, авторы которых имеют трудности с восприятием текста "Unrecognised headers are ignored" (авторская орфография сохранена :)), скорее всего, существуют. Помня о них, можно, поскольку это не составляет никакого труда, писать "Host" в конце записи (а не файла, конечно же).
хотя если сделать так, как предлагает wolf, это будет работать и с роботами, которые не вполне соблюдают стандарт
А почему вариант wolf`а не соответствует стандарту? Где несоответствие?
Вы, конечно же, вправе руководствоваться и комментариями переводчика, и немного неудачно отформатированным текстом перевода...
...Если вы последуете советам некомпетентных личностей, статьями которых усеян интернет...
Странно, я-то, как раз, в споре с Cherny, ссылался на статью с citforum.ru, зная, что ее рекомендует Яндекс. Т.е. мне казалось, что если поддерживает, значит не противоречит. 😕
В любом случае, спасибо за профессиональный комментарий. Но Вы не ответили на главный вопрос. Собственно ради него я тут флэйм развел. Как робот Яндекса отреагирует на такую запись:
User-Agent: *
Disallow: /scripts/
Disallow: /admin/
Disallow: /quesions/
Host: www.domain.ru
User-Agent: yandex stackrambler
Disallow: /scripts/
Disallow: /admin/
Disallow: /quesions/
Disallow: /goaway
Host: www.domain.ru
??
Зачем мне это? IIS не поддерживает SSI, и мне приходится генерить robots.txt налету.
Cherny - признаю свое поражение 🍻
Конечно не надо. Только вот роботы Яндекса с литерой D и M вроде бы делают запрос GET, а не HEAD
Прошу прощения, наехал не по делу, перепутал с историей с закладками/каталогом.
Еще раз извиняюсь.
эх как жаль, что так много не всегда пишется по более интересным темам ...
Cherny - признаю свое поражение 🍻
🚬 🍻