Кстати весьма правильный документ, грамотно описывающий суть проблемы =)
Спасибо за линк.
Значит не всем Рунетом, а охватить хочется как можно больше. =)
Главный по этому сервису все равно Дима Завалишин. Так что считайте мои рассуждения мыслями вслух. Для меня лично вопрос соблюдения "прозванивалкой" правил для роботов не совсем ясен. Я, например, не знаю, как ведет себя самый старый и известный сайт хранитель закладок - hotlinks.com. По идее, его поведение можно считать модельным. поиск "hotlinks robots.txt" ничего не дал. на сайте ничего на эту тему не написано.
А как вы смогли на него зайти?
>host www.hotlinks.com
www.hotlinks.com is a nickname for hotlinks.com
hotlinks.com mail is handled (pri=0) by hotmail002.hotlinks.com
> host hotlinks.com
Нету у него IN A =)
Про аналогии и "двойные стандарты".
Это к wolf'у.
Теперь по делу.
Простите Илья, но вы мои сообщения читали?
В результате общения я чётко сформулировал задачу.
Валидного решения её так и не нашлось ни у одного представителя Яndex'а.
Пусть робот не читает robots.txt, провайдер уже внёс в фаэрвол
запросы из сети комптека, вы и так не получите стандартным путём
никакой информации о состоянии документа.
Суть в том, что ваш робот будет стучаться, и посетитель Яandex.Закладки
увидит череп с костями вместо реальной информации о том, что
он не смог получить документ.
Согласитесь, что определения "НЕ МОГУ ПОЛУЧИТЬ ДОКУМЕНТ",
"ДОСТУП К ДОКУМЕНТУ ЗАПРЕЩЁН" и "ДОКУМЕНТ ОТСУТСТВУЕТ" не идентичны, как и код ошибки 403 <> 404 !
Ничего личного =)
Бизнес есть бизнес.
А кто говорил о Любви к Яndex'у ? =)
Простите, но какой скрипт?
Гмм, вы читали все сообщения этого топика? =)
Всё выделенное жирным шрифтом написал dz
Вообще, по сути дела, жить без чувства юмора тяжко. Но - клиент имеет право чувства юмора не иметь, так что отвечаю серьёзно.
Чувство юмора не всегда уместно.
1. Если навести мышку на череп, то примерно через секунду возникает надпись: "Ресурс недоступен. Проверен XX.XX.XX". Там не написано, что он мёртв, закрыт хозяевами, etc etc. Написано, что мы пробовали и обломались.
Это недоинформация. Тоесть на основе её нельзя судить о
жизнеспособности ссылки, для чего этот инструмент и создавался.
Вариантов при этом множество:
1) Ссылка может быть недоступна только роботу Яndex.Закладки.
2) Робот обратился к DNS'у, а тот не смог отрезолвить домен.
a) По причине глюка в ДНС сервере Яndex.Закладки.
б) По причине недоступности днсов зоны со стороны NS'а робота.
I. Межсетевое коннективити
II.Выборочная фильтрация.
3) На сервере отключёна обработка HEAD.
4) На сервере включена обработка несуществующих документов с их
автоматической генерацией. При этом в HTTP заголовке выдаётся 404
ошибка
При всех этих вариантах ссылка будет существовать для пользователя,
а Яndex.Закладки по сути будет дезинофрмировать посетителя.
2. Всё же: Если Ваши контракты зависят от стабильности Вашего сайта, сайт должен работать всегда. Слава Богу, это нынче недорого и несложно. И не имеет никакого отношения к Яндексу и его черепушкам.
Сайт работает всегда, и работает без сбоев.
3. Robots.txt к Закладкам, конечно же, никакого отношения не имеет - это достаточно очевидно из предыдущего обсуждения, не буду повторять уже озвученные аргументы. Кстати, роботов у Яндекса много и у всех у них - свои правила жизни, логика работы и реакция на поведение сайта.
Совершенно не очевидно.
Тем более, что логика кривая.
4. Заменить череп - не такая простая задача. Желающие могут попробовать нарисовать в гифе 16*16 что-то вразумительно обозначающее недоступность страницы, так, чтобы оно вписывалось в дизайн имени Ромы Воронежского. Работы можно присылать мне - если они нам понравятся, а Студия Лебедева не будет против - поставим вместо черепушки. :)
К сожалению вы так и не поняли сути.
Сутью является валидное отражение реальности, а не отражение
через кривое зеркало, коим на данный момент является Яndex.Закладки.
Посмотрев в зеркало Яndex.Закладки я вижу череп, хотя сайт жив.
И ссылка валидная.
Существует-ли на данный момент проблема в оценке посещаемости
Рамблера и Яндекса независимым счётчиком?
Ведь по сути, кроме собственной статистики (пусть даже и открытой)
обычно предоставляются данные из независимых источников.
Почему нельзя поставить например: http://www.nedstat.com/EN
или любой другой зарубежный счётчик?
Кстати, "Яндекс" снова не доделал сервис.
Вопрос ребром: Как автоматически удалиться из каталога?
Есть ли такая форма и как она действует?
Вот вот, вы лучше по сути моего последнего сообщения
(09-08- 2002 17:48) в этом топике ответьте.
Где логика в работе робота закладок, и закладок в целом, если они
по сути дезинформируют пользователя.
Гмм, согласен.
Но всё зависит от построения индекса.
В чистом виде полагаю он действительно может быть в 3-10 раз
меньше проиндексированного текста. Но если это чисто индекс.
Кроме словарного индекса наверняка хранятся и индексы
последовательностей, и другие.
А при большом числе документов эти индексы будут кушать
не сильно меньше самих страниц.
Кстати любопытно было бы узнать реальное соотношение объёма
проиндексированных страниц к объёму индекса в Яндексе.
Если конечно это возможно =)