Чего добивается вебмастер вам неведомо.
Ибо этого добивается он, а не вы.
И додумывать за него это, а точнее говорить от этого
человека как минимум неприлично.
Вежливого инструмента, говорящего о том, что это
брать нельзя отличного от robots.txt в Яндексе нет.
Поэтому используется стандартный инструмент.
Если Яндекс отказывается от его использования, то
разумно было-бы предложить другой.
Однако этого сделано не было.
Повторю в который раз, в чём выражается ущерб и
его объём здесь не обсуждается.
Имеет место сбор роботом яндекса той информации,
которую он собирать не должен.
По поводу сравнений.
Всё, что вы говорите напоминает человека, который утверждает свою
невиновность, на основании того, что он читать не умеет и читать
не хочет, а дверь на замок заперта не была, поэтому он спокойно
вошёл в частную квартиру, помыл руки и вышел.
Как вы отнесётесь к такому человеку, если он придёт к вам, когда вы не
закрыли дверь, выходя чтобы вынести мусор?
Суть ответа состоит в том, что этот вид робота с нашей точки зрения не подпадает под понятие автоматический сборщик ссылок.
А кто его таким называет?
Ссылками его снабжают пользователи. Попытка ограничить их в выборе ссылок более чем ограничивает сайт мне видится неестественной.
Побойтесь бога, никто его в этом не ограничивает.
Пусть себе выбирают.
Но вот идти на сайт и проверять ссылку робот должен только в том случае,
если сайт не возражает.
Аппеляция к рекомендации, которая изначально не предназначена для описания ситуации не подходит.
Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.
Зачем вы пытаетесь придумать, что рекомендация не предназначена для
данной ситуации?
Робот "Яндекс.Закладки" подпадает под данное выше определение?
Подпадает.
Поясните, что вы продразумевали под тем, что ситуация не подходит?
Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.
Важным является то, что робот приходит с машины Яндекса, а не
машины клиента, поэтому претензия в данном случае к Яндексу.
И поскольку считается приличным то, что робот соблюдает правила
описанные в robots.txt, а данный робот их не выполняет, то остаётся либо
закрыть доступ для этого робота, что является "Грубым способом",
либо попытаться повлиять на его поведение (Safe Method).
В данном случае это создание топика и обращение к Илье Сегаловичу.
(2 iseg)
Если немножко полистать, там можно найти фразу, что файл является опцией, которую роботы не обязаны использовать.
Не обязаны. Однако считается приличным использовать.
Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.
Это лишь ваше мнение. Лично я склонен считать, что данная информация
(Статус существования документа) навредил сайту.
Однако претензия заключается не в оценке приченённого ущерба,
а в том, что этого можно было избежать, если-бы робот соблюдал правила.
А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.
Почему обязательно применять топор или ядерную бомбу,
если достаточно написать: Частная территория, доступ запрещён?
Именно собирает.
Приходит на срвер и говорит HEAD, собирая информацию
о том есть такой документ или нет.
Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение фэйворит-чекера согласно дисциплине robots.txt. Что и требовалось доказать.
Если это будем делать мы, то нет. Если это будет делать Yandex,
то да. Тоесть Yandex может модифицировать своего робота в
соответствии с общепринятыми нормами.
Нормы описаны тут:
http://www.robotstxt.org/wc/robots.html
Посмотрите список роботов и откройте для себя то,
что большинство роботов сбора статистики соблюдают robots.txt.
Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?
Какой модуль подкачек IE?
Это робот Yandex'а и выполняется он на их сервере, а не в IE.
Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок .
Определение робота дано достаточно чёткое:
"Web Robots are programs that traverse the Web automatically."
Более широкое толкование его предназначения IMHO не более чем спорно.
Так не толкуйте. =)
Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.
Процесс не мешает, пусть себе обновляет, но только там, где владельцы
сайтов не против. О чём они чётко говорят в robots.txt
О заголовках.
Дело в том, что есть 2 разных ресурса.
Один живёт на сервере выдающем в HTTP чарсет, другой не выдающем.
Charset выдаётся корректно.
Объём контента и тематика близкие.
Срок жизни тоже, оба сайта живут в зоне .com.
В Dmoz'е прописаны оба.
Текст не оптимизировался, спам не применялся.
Внешних ссылок много и у того и у другого, однако вес ссылающихся примерно равный.
Page Rank одинаковый.
Однако на тот, у которого в заголовке не выдаётся чарсет очень много
заходов с Гугла и Альтависты. Причём речь идёт о разнице в несколько
порядков. Вот пытаюсь понять почему такое происходит.
Однако видимо дело всётаки в чём-то ещё.
Разберусь =)
Спасибо за алгоритм, весьма интересно.
Честно говоря я это делаю более громоздко, по усечёному словарю.
Замечу, что индексирует не робот, а индексатор внутри поисковика.
Робот лишь ПОЛУЧАЕТ информацию об объекте.
В данном случае говорит HEAD, и проверяет жива ссылка или нет.
Как она в дальнейшем используется эта иформация, попадает в
индексную базу поисковика, или в базу состояния закладок совершенно не важно.
Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.
Другого способа "Вежливо" донести подобную информацию роботу нет.
Можно "Грубо" взять и внести его в фаэрвол.
Но мне хочется быть вежливым, как и хочется чтобы вежливо поступали со мною.
Нет абсолютно никакой разницы.
Приходит робот.
А для всех роботов, что-бы они не делали правила одни.
robots.txt
Робот игнорирующий их поступает как минимум не вежливо.
2 spark
Ваши данные вполне укладываются в то, что говорил г-н из рамблера.
Робот просто не индексирует "лишних" страниц =)