Робот Yandex.Закладки не соблюдает robots.txt !?

og · 2002-08-07T19:21:45.0000000Z

В robots.txt стоит User-agent: Yandex Disallow: / Однако нечто приходит с IP 213.180.193.35 Mozilla/4.0 (compatible; MSIE 5.0; YANDEX) И дергает HEAD. Не подскажете, что это может быть? Если робот, то почему ему плевать на robots.txt? Если это человек, то почему он делает лишь HEAD, да и как он это может делать с помощью браузера?

[Удален]

14 августа 2002, 15:10

#91

М-да, не любят тут Яндекс...

Ну почему же так... Отдельные участники форума любят его многократно и разными способами. Яндекс отвечает им тем же.

I

80

iseg

14 августа 2002, 20:40

#92

Главный по этому сервису все равно Дима Завалишин. Так что считайте мои рассуждения мыслями вслух.

Для меня лично вопрос соблюдения "прозванивалкой" правил для роботов не совсем ясен. Я, например, не знаю, как ведет себя самый старый и известный сайт хранитель закладок - hotlinks.com. По идее, его поведение можно считать модельным.

поиск "hotlinks robots.txt" ничего не дал.

на сайте ничего на эту тему не написано.

Про аналогии и "двойные стандарты".

Аналогия с поисковым роботом неверна здесь по следующим причинам:

Очевидно, что пользователь сам, явным выраженным образом, попросил нас хранить и прозванивать свои закладки. В отличии от индексирующего робота, который автоматически находит ссылки, автоматически их скачивает и т.д. и т.п.

Чем поведение Я-Закладок в моральном смысле отличается от установленного локального модуля менеджмента и прозвона закладок (таких с десяток можно найти на 2cows)?

То, что техническое действие прозвона для вас выполняет Яндекс?

Это все?

Кстати у меня долго стоял автоматический нотификатор об изменениях любимой страницы на сайте w3c. Не помню название этого сервиса, но смысл его действий отчетливо себе представляю. И уверен, что наличие на сайте файла robots.txt, с моей, пользовательской, точки зрения, не должен был влиять на его работоспособность.

Думаю также, что аналогии с метапоиском (search parasite) явно неуместны. Метапоиск нарушал отчетливо выраженную нами просьбу _не_ использовать нашу Базу Данных для дальнейшего перепродажи. Эта просьба называется "лицензией". robots.txt был в той ситуации просто первым пришедшим в голову поводом для претензии.

В данном же случае речь идет о сервисе персонального использования с персональными же данными (список закладок). Ничья конкретно база данных для дальнейщего коммерческого использования не выкачивается.

Все что делает наш робот - верифицирует персональную БД пользователя.

То есть "не буква, но дух" правил про robots.txt не нарушается

IMHO,

Илья

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

O

157

og

14 августа 2002, 20:58

#93

Всё выделенное жирным шрифтом написал iseg

Главный по этому сервису все равно Дима Завалишин. Так что считайте мои рассуждения мыслями вслух.

Для меня лично вопрос соблюдения "прозванивалкой" правил для роботов не совсем ясен. Я, например, не знаю, как ведет себя самый старый и известный сайт хранитель закладок - hotlinks.com. По идее, его поведение можно считать модельным.

поиск "hotlinks robots.txt" ничего не дал.
на сайте ничего на эту тему не написано.

А как вы смогли на него зайти?

>host www.hotlinks.com

www.hotlinks.com is a nickname for hotlinks.com

hotlinks.com mail is handled (pri=0) by hotmail002.hotlinks.com

> host hotlinks.com

hotlinks.com mail is handled (pri=0) by hotmail002.hotlinks.com

Нету у него IN A =)

Про аналогии и "двойные стандарты".

Это к wolf'у.

Теперь по делу.

Простите Илья, но вы мои сообщения читали?

В результате общения я чётко сформулировал задачу.

Валидного решения её так и не нашлось ни у одного представителя Яndex'а.

Пусть робот не читает robots.txt, провайдер уже внёс в фаэрвол

запросы из сети комптека, вы и так не получите стандартным путём

никакой информации о состоянии документа.

Суть в том, что ваш робот будет стучаться, и посетитель Яandex.Закладки

увидит череп с костями вместо реальной информации о том, что

он не смог получить документ.

Согласитесь, что определения "НЕ МОГУ ПОЛУЧИТЬ ДОКУМЕНТ",

"ДОСТУП К ДОКУМЕНТУ ЗАПРЕЩЁН" и "ДОКУМЕНТ ОТСУТСТВУЕТ" не идентичны, как и код ошибки 403 <> 404 !

Пока мы живы, смерти нет. Когда придёт она, не будет нас.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ