og

Рейтинг
157
Регистрация
08.01.2002
Должность
Администратор


🙄
ЭКО (C) Иван Сусанин.
Ну Вы завернули.
А зеркало поставить ? Загонять микробы внутрь - очень плохая привычка.
Да и потом, если Вы его запретите, оно ж тогда все Ваши закладки черепами наградит, потенциальных убытков зеркал на N хватит.

На сайте инфа по классу продукции ряда фирм.

Это не сайт компании. Сайт получает % от партнёрской программы.

А тут было вот такое.

Кстати, зачем награждать черепами то, что запрещено?

Можно рисовать картинку в виде замка или не выдавать вовсе.

Кто мешает быть адекватным реалиям?


В случае неприемлимости (денег, скажем, жаль), я бы посоветовал забыть эту накладку как чудовищное стечение неприятностей. А решение по Яндексу отменить как принятое в состоянии аффекта. 😎

Да там не только по яндексу.

В общем-то по всем чикерам.


Речь шла про обеспечение максимального ощущения безопасности.
Там еще и про стены поминали.

Речь шла о несоблюдении robots.txt

Да и логики в целом.

По идее кости надо бы рисовать только в случае 404.

В остальных писать правду, что сайт не доступен,

или на сайте запрещен доступ к роботу яндекса.

Или что нельзя найти домен.

Как писал wawa


Тогда я совсем не понимаю как можно в таких условиях пострадать от команды HEAD.

А кто говорл, что это было от команды HEAD?

Пострадал исполнительный директор одной из компании

поскольку увидев череп с костями напротив закладки на корень сайта

решил снять один важный заказ.

Собственно не важно,что у него было в голове.

Важно то, что он это увидел этов Яндекс.Закладках.

И было принято решение не давать никаким роботам Яндекса

никакой информации.

Теперь вы говорите, что никак, кроме как фаэрволом от этого не отделаешься.

Точнее сначала говорите, а потом отказываетесь.


Вы с ума сошли ! Где я это говорил ? :)

Чуть выше по топику:

08-08- 2002 18:21

..А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль...

Пароль поставить не получится, нет такого пункта на этом тарифе.

Да и провайдер преемлет только глобальные решения. Сделал и забыл.


Зачеркните немедленно !!!

Вы как нибудь определитесь =)


В тексте предагались типичные скриптовые решения. Чем Вам не нравится идея запрещать нулевой реферер ? А более жесткая проверка на "правильный список" рефереров ?

Хостинг простых страничек. $15 в год. Никаких CGI, никакого .htaccess.

Зато размер сайта до 150 мег.

Собственно занято мег 135 под html & немного image ..

Как писал melkov
(кстати, меня несколько мутит вообще от форм заказа без https).

Однако Яндекс.Деньги на Озоне продаются без всяких https =)

Чтож не повлияли?

Кстати вы к сожалению так и не ответили по сути задачи.

Дело в том, что у многих хостеров как в России, так и на западе в

экономных планах просто нет возможности разместить свой .htaccess.

Тоесть вы рекомендуете подобным провайдерам забанить заходы

роботов Яндекса через фаэрвол?

Могу ли я ссылаться на данную вашу рекомендацию, как позицию Яндекса

по данному вопросу?


В общем, нету, похоже, такого средства. Не знаю, хорошо это или плохо. Если что-то в Инет выложили - значит, предназначено для чьих-то глаз.

Конечно. Но пусть человек сам зайдёт и посмотрит.


Кстати, можно настроить сервер так, чтобы он для text/html всегда 404 выдавал вместо 200. Браузеры это, вроде бы, нормально воспримут.

Зато в Яндекс.Закладки получим Череп с Костями.


Что касается Закладок - даже если доступ будет закрыт, ссылка останется в базе (хотя и с несвежим значком), если пользователь ее сам не считает нужным удалить.

А кто против того, чтобы ссылка осталась?


> И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этой страницы.

Информацию о "живости" Вашей страницы Вы все равно никогда не сможете скрыть от тех, кому она интересна. И robots.txt тут не поможет. Как говорится, "The real answer is that /robots.txt is not intended for access control, so don't try to use it as such."

Я не хочу её скрывать.

Я не хочу чтобы об этом информацию получали со стороны.

В данном случае через Яндекс.Закладки.

А люди пусть заходят. Welcome!


Поставьте туда пароль, как рекомендуется в faq, и будет Вам счастье.

Какой пароль?

Не отклоняемся.

Доступа к .htaccess нету.


Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt, причем без эмоций, поскольку это все-таки главный вопрос нашего обсуждения.

Обижаете. Я это я.

Задача указана чуть выше.

Покажите валидное решение отличное от robots.txt.

Это единственный способ. Друхих просто нету.

Вот это и есть причина.


Как писал wawa

Из этого следует что, закладки - не робот. Я бы поправил определение - "не совсем робот".

из этого следует, что Закладки - не "нормальный браузер". Согласен. В качестве компенсации за уступку в предыдущем пункте сформулируем это так: "не совсем браузер".

Понимаю, конечно понимаю.

Называйте это как хотите, хоть роботом, хоть "ненормальным агентом" :)

Но пожалуйста поясните, как решить поставленную задачу?

Задача:

Есть серия страничек, но нет доступа к .htaccess,

нет доступа к фаэрволам и так далее.

Но я могу выложить файл robots.txt.

И я не хочу чтобы сторонний сайт выдавал информацию о

состоянии этих страниц. Живы они или нет.

Хочет человек это узнать, пусть на них зайдет.

Как кроме через robots.txt я могу известить вашего

и всех других роботов об этом своём желании?

Замечу, что проверялок типа Яндекс.Закладки множество,

и писать админу каждой о необходимости вынести

адреса из их баз у меня просто нет времени.

Что посоветуете?

2 melkov:


> вошёл в частную квартиру, помыл руки и вышел
Скорее можно говорить лишь о заглядывании в отрытую дверь, а не в входе в квартиру...

Тоесть заглядывать в чужую квартиру, смотреть что там есть,

и рассказывать всем по первой просьбе, это прилично?


Ну так ведь как раз утверждается, что поскольку robots.txt не является адекватным для Закладок - не для них написано "нельзя" (кстати, и User-Agent у них в основной части - Mozilla :)), и они равноправны с обычным браузером. Соответственно, нету у вебмастера других стредств борьбы с закладками, кроме специальной настройки web-сервера, скриптов или firewall'а.

Так напишите в описании системы, что вот для такого-то нашего робота

надо держать отдельный robots.txt или пусть он представляется

не Mozill'ой а самим собой, и пусть тоже использует robots.txt

с правилами относящимися к своему имени.


Ну да ладно, попробую зайти с другой стороны:
> Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.

http://www.robotstxt.org/wc/faq.html#what
What is a WWW robot?
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced

Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы :) ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).

Вы выдернули часть текста.

Читаем дальше:


Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).

Понимаете? Потому, что работает не автоматически вызывая ссылающиеся линки. В данном случае он срабатывает автоматом.


Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, однако, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу :)

Он трактуется вами.

Вы трактовать можете это как пожелаете необходимым.

Однако ваша трактовка не отражает истины.

Допустим у меня есть страничка, но нет доступа к .htaccess,

нет доступа к фаэрволам и так далее.

Но я могу выложить файл robots.txt.

И я не хочу чтобы сторонний сайт выдавал информацию о

состоянии этой страницы. Жива она или нет.

Хочет человек это узнать, пусть на неё зайдет.

Как кроме через robots.txt я могу известить вашего и всех других

роботов о этом своём желании?

Замечу, что проверялок типа Яндекс.Закладки множество,

и писать админу каждой о необходимости вынести этот и другие

адреса из их баз у меня просто нет времени.

Что посоветуете?

Как писал wawa

Методы борьбы я перечислил.
Угрызений совести по поводу этого HEAD не испытываю. Но коли он вас так сердит, забаньте. Или пожалуйтесь в abuse@yandex и Яндекс может быть разорвет связность с этим хостом, чтобы Вас не смущать :-)

Шикарный подход.

Может быть стоит вовсе перестать принимать анонсы с AS13238?

Всего: 328