og

Рейтинг
157
Регистрация
08.01.2002
Должность
Администратор
Как писал melkov
Господа, давайте же посмотрим фактам в лицо.

2) Чего добивается вебмастер, запрещая заходы робота на свой сайт при помощи robots.txt?
a) Снизить нагрузку на свой сервер.
b) Скрыть от чужих глаз какие-то свои url'ы.
c) Возможно, предотвратить последствия от запроса какого-либо url'а лишний раз (типа заказа в электронном магазине без кук, хотя не совсем понятно, может ли эл. магазин, подверженный такой проблеме, вообще нормально функционировать).

..skip..

Полагаю, что с двойными стандартами в данной ветке форума разобрались.

Чего добивается вебмастер вам неведомо.

Ибо этого добивается он, а не вы.

И додумывать за него это, а точнее говорить от этого

человека как минимум неприлично.

Вежливого инструмента, говорящего о том, что это

брать нельзя отличного от robots.txt в Яндексе нет.

Поэтому используется стандартный инструмент.

Если Яндекс отказывается от его использования, то

разумно было-бы предложить другой.

Однако этого сделано не было.

Повторю в который раз, в чём выражается ущерб и

его объём здесь не обсуждается.

Имеет место сбор роботом яндекса той информации,

которую он собирать не должен.

По поводу сравнений.

Всё, что вы говорите напоминает человека, который утверждает свою

невиновность, на основании того, что он читать не умеет и читать

не хочет, а дверь на замок заперта не была, поэтому он спокойно

вошёл в частную квартиру, помыл руки и вышел.

Как вы отнесётесь к такому человеку, если он придёт к вам, когда вы не

закрыли дверь, выходя чтобы вынести мусор?


Суть ответа состоит в том, что этот вид робота с нашей точки зрения не подпадает под понятие автоматический сборщик ссылок.

А кто его таким называет?


Ссылками его снабжают пользователи. Попытка ограничить их в выборе ссылок более чем ограничивает сайт мне видится неестественной.

Побойтесь бога, никто его в этом не ограничивает.

Пусть себе выбирают.

Но вот идти на сайт и проверять ссылку робот должен только в том случае,

если сайт не возражает.


Аппеляция к рекомендации, которая изначально не предназначена для описания ситуации не подходит.

Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.

Зачем вы пытаетесь придумать, что рекомендация не предназначена для

данной ситуации?

Робот "Яндекс.Закладки" подпадает под данное выше определение?

Подпадает.

Поясните, что вы продразумевали под тем, что ситуация не подходит?


Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.

Важным является то, что робот приходит с машины Яндекса, а не

машины клиента, поэтому претензия в данном случае к Яндексу.

И поскольку считается приличным то, что робот соблюдает правила

описанные в robots.txt, а данный робот их не выполняет, то остаётся либо

закрыть доступ для этого робота, что является "Грубым способом",

либо попытаться повлиять на его поведение (Safe Method).

В данном случае это создание топика и обращение к Илье Сегаловичу.

(2 iseg)


Если немножко полистать, там можно найти
фразу, что файл является опцией, которую роботы не обязаны использовать.

Не обязаны. Однако считается приличным использовать.


Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.

Это лишь ваше мнение. Лично я склонен считать, что данная информация

(Статус существования документа) навредил сайту.

Однако претензия заключается не в оценке приченённого ущерба,

а в том, что этого можно было избежать, если-бы робот соблюдал правила.


А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.

Почему обязательно применять топор или ядерную бомбу,

если достаточно написать: Частная территория, доступ запрещён?

Как писал wawa


Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.

Именно собирает.

Приходит на срвер и говорит HEAD, собирая информацию

о том есть такой документ или нет.


Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение
фэйворит-чекера согласно дисциплине robots.txt.
Что и требовалось доказать.

Если это будем делать мы, то нет. Если это будет делать Yandex,

то да. Тоесть Yandex может модифицировать своего робота в

соответствии с общепринятыми нормами.

Нормы описаны тут:

http://www.robotstxt.org/wc/robots.html

Посмотрите список роботов и откройте для себя то,

что большинство роботов сбора статистики соблюдают robots.txt.


Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?

Какой модуль подкачек IE?

Это робот Yandex'а и выполняется он на их сервере, а не в IE.


Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок .

Определение робота дано достаточно чёткое:

"Web Robots are programs that traverse the Web automatically."


Более широкое толкование его предназначения IMHO не более чем спорно.

Так не толкуйте. =)


Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.

Процесс не мешает, пусть себе обновляет, но только там, где владельцы

сайтов не против. О чём они чётко говорят в robots.txt

Как писал AiK

И всё равно, я думаю, что речь идёт не о заголовках, а о кодировке текста, ибо если выдать текст в koi-8, а в заголовке указать win-1251,
то можно поставить в тупик любого неподготовленного к этому клиента.

О заголовках.

Дело в том, что есть 2 разных ресурса.

Один живёт на сервере выдающем в HTTP чарсет, другой не выдающем.

Charset выдаётся корректно.

Объём контента и тематика близкие.

Срок жизни тоже, оба сайта живут в зоне .com.

В Dmoz'е прописаны оба.

Текст не оптимизировался, спам не применялся.

Внешних ссылок много и у того и у другого, однако вес ссылающихся примерно равный.

Page Rank одинаковый.

Однако на тот, у которого в заголовке не выдаётся чарсет очень много

заходов с Гугла и Альтависты. Причём речь идёт о разнице в несколько

порядков. Вот пытаюсь понять почему такое происходит.

Однако видимо дело всётаки в чём-то ещё.

Разберусь =)



Одна из таких программ судя по размерам и скорости работы использовала такой подход - выбирала из текста одно- и двубуквенные слова ...
..SKIP..

Спасибо за алгоритм, весьма интересно.

Честно говоря я это делаю более громоздко, по усечёному словарю.

Замечу, что индексирует не робот, а индексатор внутри поисковика.

Робот лишь ПОЛУЧАЕТ информацию об объекте.

В данном случае говорит HEAD, и проверяет жива ссылка или нет.

Как она в дальнейшем используется эта иформация, попадает в

индексную базу поисковика, или в базу состояния закладок совершенно не важно.

Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.

Другого способа "Вежливо" донести подобную информацию роботу нет.

Можно "Грубо" взять и внести его в фаэрвол.

Но мне хочется быть вежливым, как и хочется чтобы вежливо поступали со мною.

Как писал savel
Поясните пожалуйста, что подразумевается под словом "робот".
Вопрос м.б. глупый, но все же.
Мне нужно взять информацию из области закрытой в robots.txt
Броузером я залезть могу спокойно.
Скриптом, настроенным по таймеру - нельзя.
А вот тот же скрипт запущенный вручную будет считаться роботом?

http://www.robotstxt.org/wc/robots.html

"Web Robots are programs that traverse the Web automatically."


Имеется таки две большие разницы между поисковым пауком и фэйворитс-рефрешем.
Самая большая из них это то, что Z-подвид паука не индексирует, а проверяет свежесть ссылки.

Нет абсолютно никакой разницы.

Приходит робот.

А для всех роботов, что-бы они не делали правила одни.

robots.txt

Робот игнорирующий их поступает как минимум не вежливо.

2 spark

Ваши данные вполне укладываются в то, что говорил г-н из рамблера.

Робот просто не индексирует "лишних" страниц =)

Всего: 328