Робот Yandex.Закладки не соблюдает robots.txt !?

wolf
На сайте с 13.03.2001
Offline
1183
#51
Понимаю, конечно понимаю.

2melkov
Пойдем отсюда, Саша.

С Уважением,
В.Иванов

Я бы очень хотел верить в то, что они пройдут отсюда учить своего закладочного робота вежливости, но что-то мне подсказывает, что этого не случится. ;)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
M
На сайте с 25.01.2001
Offline
57
#52

wolf

> Ну и аргументы - детский сад

Прошу не хамить. Очень жду _конструктивную_ дискуссию.

;

Определение robots.txt достаточно четкое в той части, которая касается настоящих роботов.

> А если я начну Яндекс парсить роботом, который прикидывается Мозиллой

Это замечание не по существу. К тому же User-Agent: *.

> А если робот-анализатор позиций... Он что, перестанет быть роботом???

Он продолжает анализировать большинство ссылок на странице, кроме того, в его алгоритм заложено скачивание следующей страницы (если нужный сайт не найден на первой). Так что под "What is a WWW robot?" вполне подпадает. К тому же, если бы анализатор позиций всегда скачивал 1 страницу, он, подозреваю, остался бы наземеченным :).

> Кем трактуется??? Вами же в вашу пользу и трактуется.

Презумпция невиновности, понимаете ли. Под основное определение закладки не подпадают, хотя и написано, что www-роботы могут заниматься тем, чем занимаются закладки.

Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt, причем без эмоций, поскольку это все-таки главный вопрос нашего обсуждения. Желательно затронуть максимум деталей. Вы должны понимать, что для Вас это основа доказательства наличия двойного стандарта Яндекса при работе с robots.txt.

O
На сайте с 08.01.2002
Offline
157
og
#53

Как писал wawa

Из этого следует что, закладки - не робот. Я бы поправил определение - "не совсем робот".

из этого следует, что Закладки - не "нормальный браузер". Согласен. В качестве компенсации за уступку в предыдущем пункте сформулируем это так: "не совсем браузер".

Понимаю, конечно понимаю.

Называйте это как хотите, хоть роботом, хоть "ненормальным агентом" :)

Но пожалуйста поясните, как решить поставленную задачу?

Задача:

Есть серия страничек, но нет доступа к .htaccess,

нет доступа к фаэрволам и так далее.

Но я могу выложить файл robots.txt.

И я не хочу чтобы сторонний сайт выдавал информацию о

состоянии этих страниц. Живы они или нет.

Хочет человек это узнать, пусть на них зайдет.

Как кроме через robots.txt я могу известить вашего

и всех других роботов об этом своём желании?

Замечу, что проверялок типа Яндекс.Закладки множество,

и писать админу каждой о необходимости вынести

адреса из их баз у меня просто нет времени.

Что посоветуете?

Пока мы живы, смерти нет. Когда придёт она, не будет нас.
O
На сайте с 08.01.2002
Offline
157
og
#54


Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt, причем без эмоций, поскольку это все-таки главный вопрос нашего обсуждения.

Обижаете. Я это я.

Задача указана чуть выше.

Покажите валидное решение отличное от robots.txt.

Это единственный способ. Друхих просто нету.

Вот это и есть причина.

M
На сайте с 25.01.2001
Offline
57
#55

og

> Normal Web browsers are not robots ... срабатывает автоматом

Тут написано, что web-браузеры не являются роботами. Это все и так знают. Но это вообще вне контекста обсуждения:

Идет дождь, следовательно на улице мокро.

Но из того, что на улице мокро, не следует то, что идет дождь, уж извините за банальный пример.

> И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этой страницы.

Информацию о "живости" Вашей страницы Вы все равно никогда не сможете скрыть от тех, кому она интересна. И robots.txt тут не поможет. Как говорится, "The real answer is that /robots.txt is not intended for access control, so don't try to use it as such."

Поставьте туда пароль, как рекомендуется в faq, и будет Вам счастье.

M
На сайте с 25.01.2001
Offline
57
#56

og

В общем, нету, похоже, такого средства. Не знаю, хорошо это или плохо. Если что-то в Инет выложили - значит, предназначено для чьих-то глаз.

Кстати, можно настроить сервер так, чтобы он для text/html всегда 404 выдавал вместо 200. Браузеры это, вроде бы, нормально воспримут.

Что касается Закладок - даже если доступ будет закрыт, ссылка останется в базе (хотя и с несвежим значком), если пользователь ее сам не считает нужным удалить.

O
На сайте с 08.01.2002
Offline
157
og
#57


> И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этой страницы.

Информацию о "живости" Вашей страницы Вы все равно никогда не сможете скрыть от тех, кому она интересна. И robots.txt тут не поможет. Как говорится, "The real answer is that /robots.txt is not intended for access control, so don't try to use it as such."

Я не хочу её скрывать.

Я не хочу чтобы об этом информацию получали со стороны.

В данном случае через Яндекс.Закладки.

А люди пусть заходят. Welcome!


Поставьте туда пароль, как рекомендуется в faq, и будет Вам счастье.

Какой пароль?

Не отклоняемся.

Доступа к .htaccess нету.

O
На сайте с 08.01.2002
Offline
157
og
#58


В общем, нету, похоже, такого средства. Не знаю, хорошо это или плохо. Если что-то в Инет выложили - значит, предназначено для чьих-то глаз.

Конечно. Но пусть человек сам зайдёт и посмотрит.


Кстати, можно настроить сервер так, чтобы он для text/html всегда 404 выдавал вместо 200. Браузеры это, вроде бы, нормально воспримут.

Зато в Яндекс.Закладки получим Череп с Костями.


Что касается Закладок - даже если доступ будет закрыт, ссылка останется в базе (хотя и с несвежим значком), если пользователь ее сам не считает нужным удалить.

А кто против того, чтобы ссылка осталась?

wolf
На сайте с 13.03.2001
Offline
1183
#59
Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt

Потому что программа, проверяюшая сайты, находящиеся в Закладках, является роботом

Читаем http://www.robotstxt.org/wc/faq.html

A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

Note that "recursive" here doesn't limit the definition to any specific traversal algorithm; even if a robot applies some heuristic to the selection and order of documents to visit and spaces out requests over a long space of time, it is still a robot.

Эта программа целиком попадает под это определение.

wolf
На сайте с 13.03.2001
Offline
1183
#60

И еще одно определение робота от Webopedia:

A program that runs automatically without human intervention. Typically, a robot is endowed with some artificial intelligence so that it can react to different situations it may encounter. Two common types of robots are agents and spiders.

И опять же программа, проверяюшая сайты, находящиеся в Закладках, попадает под этто определение.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий