Робот Yandex.Закладки не соблюдает robots.txt !?

O
На сайте с 08.01.2002
Offline
157
og
#11
Как писал savel
Поясните пожалуйста, что подразумевается под словом "робот".
Вопрос м.б. глупый, но все же.
Мне нужно взять информацию из области закрытой в robots.txt
Броузером я залезть могу спокойно.
Скриптом, настроенным по таймеру - нельзя.
А вот тот же скрипт запущенный вручную будет считаться роботом?

http://www.robotstxt.org/wc/robots.html

"Web Robots are programs that traverse the Web automatically."

Пока мы живы, смерти нет. Когда придёт она, не будет нас.
O
На сайте с 08.01.2002
Offline
157
og
#12

Замечу, что индексирует не робот, а индексатор внутри поисковика.

Робот лишь ПОЛУЧАЕТ информацию об объекте.

В данном случае говорит HEAD, и проверяет жива ссылка или нет.

Как она в дальнейшем используется эта иформация, попадает в

индексную базу поисковика, или в базу состояния закладок совершенно не важно.

Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.

Другого способа "Вежливо" донести подобную информацию роботу нет.

Можно "Грубо" взять и внести его в фаэрвол.

Но мне хочется быть вежливым, как и хочется чтобы вежливо поступали со мною.

W
На сайте с 10.03.2001
Offline
61
#13

Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение

фэйворит-чекера согласно дисциплине robots.txt.

Что и требовалось доказать.

Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?

Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок . Более широкое толкование его предназначения IMHO не более чем спорно. Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.

С Уважением,

В.Иванов

O
На сайте с 08.01.2002
Offline
157
og
#14


Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение
фэйворит-чекера согласно дисциплине robots.txt.
Что и требовалось доказать.

Если это будем делать мы, то нет. Если это будет делать Yandex,

то да. Тоесть Yandex может модифицировать своего робота в

соответствии с общепринятыми нормами.

Нормы описаны тут:

http://www.robotstxt.org/wc/robots.html

Посмотрите список роботов и откройте для себя то,

что большинство роботов сбора статистики соблюдают robots.txt.


Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?

Какой модуль подкачек IE?

Это робот Yandex'а и выполняется он на их сервере, а не в IE.


Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок .

Определение робота дано достаточно чёткое:

"Web Robots are programs that traverse the Web automatically."


Более широкое толкование его предназначения IMHO не более чем спорно.

Так не толкуйте. =)


Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.

Процесс не мешает, пусть себе обновляет, но только там, где владельцы

сайтов не против. О чём они чётко говорят в robots.txt

W
На сайте с 10.03.2001
Offline
61
#15
Как писал og

Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.

Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.

O
На сайте с 08.01.2002
Offline
157
og
#16
Как писал wawa


Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.

Именно собирает.

Приходит на срвер и говорит HEAD, собирая информацию

о том есть такой документ или нет.

W
На сайте с 10.03.2001
Offline
61
#17
Как писал og
Какой модуль подкачек IE?
Это робот Yandex'а и выполняется он на их сервере, а не в IE.

Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.



Определение робота дано достаточно чёткое:
"Web Robots are programs that traverse the Web automatically."

Если немножко полистать, там можно найти

фразу, что файл является опцией, которую роботы не обязаны использовать.



Процесс не мешает, пусть себе обновляет, но только там, где владельцы
сайтов не против. О чём они чётко говорят в robots.txt

Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.

А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.

С Уважением,

В.Иванов

W
На сайте с 10.03.2001
Offline
61
#18
Как писал og


Именно собирает.
Приходит на срвер и говорит HEAD, собирая информацию
о том есть такой документ или нет.

Методы борьбы я перечислил.

Угрызений совести по поводу этого HEAD не испытываю. Но коли он вас так сердит, забаньте. Или пожалуйтесь в abuse@yandex и Яндекс может быть разорвет связность с этим хостом, чтобы Вас не смущать :-)

С Уважением,

В.Иванов

O
На сайте с 08.01.2002
Offline
157
og
#19


Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.

Важным является то, что робот приходит с машины Яндекса, а не

машины клиента, поэтому претензия в данном случае к Яндексу.

И поскольку считается приличным то, что робот соблюдает правила

описанные в robots.txt, а данный робот их не выполняет, то остаётся либо

закрыть доступ для этого робота, что является "Грубым способом",

либо попытаться повлиять на его поведение (Safe Method).

В данном случае это создание топика и обращение к Илье Сегаловичу.

(2 iseg)


Если немножко полистать, там можно найти
фразу, что файл является опцией, которую роботы не обязаны использовать.

Не обязаны. Однако считается приличным использовать.


Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.

Это лишь ваше мнение. Лично я склонен считать, что данная информация

(Статус существования документа) навредил сайту.

Однако претензия заключается не в оценке приченённого ущерба,

а в том, что этого можно было избежать, если-бы робот соблюдал правила.


А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.

Почему обязательно применять топор или ядерную бомбу,

если достаточно написать: Частная территория, доступ запрещён?

W
На сайте с 10.03.2001
Offline
61
#20
Как писал og

Это лишь ваше мнение. Лично я склонен считать, что данная информация
(Статус существования документа) навредил сайту.
Однако претензия заключается не в оценке приченённого ущерба,
а в том, что этого можно было избежать, если-бы робот соблюдал правила.

Суть ответа состоит в том, что этот вид робота с нашей точки зрения не подпадает под понятие автоматический сборщик ссылок. Ссылками его снабжают пользователи. Попытка ограничить их в выборе ссылок более чем ограничивает сайт мне видится неестественной. Аппеляция к рекомендации, которая изначально не предназначена для описания ситуации не подходит.

С Уважением,

В.Иванов

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий