Если это будем делать мы, то нет - Яндекс

157

og

8 августа 2002, 15:05

#11

Как писал savel
Поясните пожалуйста, что подразумевается под словом "робот".
Вопрос м.б. глупый, но все же.
Мне нужно взять информацию из области закрытой в robots.txt
Броузером я залезть могу спокойно.
Скриптом, настроенным по таймеру - нельзя.
А вот тот же скрипт запущенный вручную будет считаться роботом?

http://www.robotstxt.org/wc/robots.html

"Web Robots are programs that traverse the Web automatically."

Пока мы живы, смерти нет. Когда придёт она, не будет нас.

O

157

og

8 августа 2002, 15:13

#12

Замечу, что индексирует не робот, а индексатор внутри поисковика.

Робот лишь ПОЛУЧАЕТ информацию об объекте.

В данном случае говорит HEAD, и проверяет жива ссылка или нет.

Как она в дальнейшем используется эта иформация, попадает в

индексную базу поисковика, или в базу состояния закладок совершенно не важно.

Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.

Другого способа "Вежливо" донести подобную информацию роботу нет.

Можно "Грубо" взять и внести его в фаэрвол.

Но мне хочется быть вежливым, как и хочется чтобы вежливо поступали со мною.

W

61

wawa

8 августа 2002, 16:14

#13

Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение

фэйворит-чекера согласно дисциплине robots.txt.

Что и требовалось доказать.

Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?

Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок . Более широкое толкование его предназначения IMHO не более чем спорно. Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.

С Уважением,

В.Иванов

O

157

og

8 августа 2002, 16:35

#14

Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение
фэйворит-чекера согласно дисциплине robots.txt.
Что и требовалось доказать.

Если это будем делать мы, то нет. Если это будет делать Yandex,

то да. Тоесть Yandex может модифицировать своего робота в

соответствии с общепринятыми нормами.

Нормы описаны тут:

http://www.robotstxt.org/wc/robots.html

Посмотрите список роботов и откройте для себя то,

что большинство роботов сбора статистики соблюдают robots.txt.

Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?

Какой модуль подкачек IE?

Это робот Yandex'а и выполняется он на их сервере, а не в IE.

Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок .

Определение робота дано достаточно чёткое:

"Web Robots are programs that traverse the Web automatically."

Более широкое толкование его предназначения IMHO не более чем спорно.

Так не толкуйте. =)

Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.

Процесс не мешает, пусть себе обновляет, но только там, где владельцы

сайтов не против. О чём они чётко говорят в robots.txt

W

61

wawa

8 августа 2002, 16:36

#15

Как писал og

Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.

Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.

O

157

og

8 августа 2002, 16:41

#16

Как писал wawa

Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.

Именно собирает.

Приходит на срвер и говорит HEAD, собирая информацию

о том есть такой документ или нет.

W

61

wawa

8 августа 2002, 17:21

#17

Как писал og
Какой модуль подкачек IE?
Это робот Yandex'а и выполняется он на их сервере, а не в IE.

Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.

Определение робота дано достаточно чёткое:
"Web Robots are programs that traverse the Web automatically."

Если немножко полистать, там можно найти

фразу, что файл является опцией, которую роботы не обязаны использовать.

Процесс не мешает, пусть себе обновляет, но только там, где владельцы
сайтов не против. О чём они чётко говорят в robots.txt

Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.

А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.

С Уважением,

В.Иванов

W

61

wawa

8 августа 2002, 17:30

#18

Как писал og

Именно собирает.
Приходит на срвер и говорит HEAD, собирая информацию
о том есть такой документ или нет.

Методы борьбы я перечислил.

Угрызений совести по поводу этого HEAD не испытываю. Но коли он вас так сердит, забаньте. Или пожалуйтесь в abuse@yandex и Яндекс может быть разорвет связность с этим хостом, чтобы Вас не смущать :-)

С Уважением,

В.Иванов

Как правильно сделать title Как ускорить индексацию сайта Контекстные ссылки из товара

O

157

og

8 августа 2002, 17:44

#19

Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.

Важным является то, что робот приходит с машины Яндекса, а не

машины клиента, поэтому претензия в данном случае к Яндексу.

И поскольку считается приличным то, что робот соблюдает правила

описанные в robots.txt, а данный робот их не выполняет, то остаётся либо

закрыть доступ для этого робота, что является "Грубым способом",

либо попытаться повлиять на его поведение (Safe Method).

В данном случае это создание топика и обращение к Илье Сегаловичу.

(2 iseg)

Если немножко полистать, там можно найти
фразу, что файл является опцией, которую роботы не обязаны использовать.

Не обязаны. Однако считается приличным использовать.

Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.

Это лишь ваше мнение. Лично я склонен считать, что данная информация

(Статус существования документа) навредил сайту.

Однако претензия заключается не в оценке приченённого ущерба,

а в том, что этого можно было избежать, если-бы робот соблюдал правила.

А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.

Почему обязательно применять топор или ядерную бомбу,

если достаточно написать: Частная территория, доступ запрещён?

W

61

wawa

8 августа 2002, 18:05

#20

Как писал og

Это лишь ваше мнение. Лично я склонен считать, что данная информация
(Статус существования документа) навредил сайту.
Однако претензия заключается не в оценке приченённого ущерба,
а в том, что этого можно было избежать, если-бы робот соблюдал правила.

Суть ответа состоит в том, что этот вид робота с нашей точки зрения не подпадает под понятие автоматический сборщик ссылок. Ссылками его снабжают пользователи. Попытка ограничить их в выборе ссылок более чем ограничивает сайт мне видится неестественной. Аппеляция к рекомендации, которая изначально не предназначена для описания ситуации не подходит.

С Уважением,

В.Иванов

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Open AI тестирует память для ChatGPT

Робот Yandex.Закладки не соблюдает robots.txt !?