melkov

Рейтинг
57
Регистрация
25.01.2001
Должность
postgraduate student (DMMC), yandex.ru programmer
Интересы
search engine(s), 3d engines

wolf

> Ну и аргументы - детский сад

Прошу не хамить. Очень жду _конструктивную_ дискуссию.

;

Определение robots.txt достаточно четкое в той части, которая касается настоящих роботов.

> А если я начну Яндекс парсить роботом, который прикидывается Мозиллой

Это замечание не по существу. К тому же User-Agent: *.

> А если робот-анализатор позиций... Он что, перестанет быть роботом???

Он продолжает анализировать большинство ссылок на странице, кроме того, в его алгоритм заложено скачивание следующей страницы (если нужный сайт не найден на первой). Так что под "What is a WWW robot?" вполне подпадает. К тому же, если бы анализатор позиций всегда скачивал 1 страницу, он, подозреваю, остался бы наземеченным :).

> Кем трактуется??? Вами же в вашу пользу и трактуется.

Презумпция невиновности, понимаете ли. Под основное определение закладки не подпадают, хотя и написано, что www-роботы могут заниматься тем, чем занимаются закладки.

Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt, причем без эмоций, поскольку это все-таки главный вопрос нашего обсуждения. Желательно затронуть максимум деталей. Вы должны понимать, что для Вас это основа доказательства наличия двойного стандарта Яндекса при работе с robots.txt.

wolf

og

Вы опять успешно проигнорировали мои комментарии по поводу/ HEAD. Как же можно пытаться объяснить вам свою позицию, если вы замечаете исключительно ту ее часть, против которой уже заранее имеете какую-то аргументацию?

> вошёл в частную квартиру, помыл руки и вышел

Скорее можно говорить лишь о заглядывании в отрытую дверь, а не в входе в квартиру...

> Чего добивается вебмастер вам неведомо.
> Написано "Нельзя", значит - нельзя.

Ну так ведь как раз утверждается, что поскольку robots.txt не является адекватным для Закладок - не для них написано "нельзя" (кстати, и User-Agent у них в основной части - Mozilla :)), и они равноправны с обычным браузером. Соответственно, нету у вебмастера других стредств борьбы с закладками, кроме специальной настройки web-сервера, скриптов или firewall'а.

Ну да ладно, попробую зайти с другой стороны:

> Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.

http://www.robotstxt.org/wc/faq.html#what

What is a WWW robot?

A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы :) ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).

Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, однако, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу :)

Господа, давайте же посмотрим фактам в лицо.

1) Что делает робот Яндекс.Закладок?

Делает несколько запросов к каждому серверу, на который пользователи поставили закладки, игнорируя robots.txt.

2) Чего добивается вебмастер, запрещая заходы робота на свой сайт при помощи robots.txt?

a) Снизить нагрузку на свой сервер.

b) Скрыть от чужих глаз какие-то свои url'ы.

c) Возможно, предотвратить последствия от запроса какого-либо url'а лишний раз (типа заказа в электронном магазине без кук, хотя не совсем понятно, может ли эл. магазин, подверженный такой проблеме, вообще нормально функционировать).

3) Что делают метапоиски и определялки позиции в результатах поиска?

Они делают весьма много запросов к одному серверу или к совсем небольшому числу серверов (т.е. 5-10 поисковым системам).

Итак, рассмотрим robots.txt применительно к Закладкам.

a) Заметную нагрузку на сервер они не производят. Если на какой-то ресурс люди действительно много закладок, значит он и так весьма посещаем, т.е. закладочная проверялка все равно не создаст заметного роста нагрузки.

b) Скрыть url, на который пользователь уже поставил закладку, Вы все равно уже не сможете.

c) Запрос head можно научиться правильно обрабатывать, например в нужном месте написать что-то вроде:


if ($ENV{'REQUEST_METHOD'} eq 'HEAD') {
print "status: 200\n";
print "Content-type: text/html; charset=$charset\n\n\n";
exit 0;
}

(любители php, полагаю, смогут правильно проинтерпретировать этот перловый текст).

Что касается скриптов, долбящих (долбивших) Яндекс, то хотел бы я посмотреть, как бы они обошлись запросом HEAD :).

Теперь осталось перевести это все на язык метафор, которые, кажется, последнее время более понятны посетителям этого форума, чем нормальные доводы Вовы:(:

> Требовать от велосипедиста, чтобы он не ездил под дорожным знаком "кирпич", - это по меньшей мере смешно.

Если же Вас просто раздражают велосипедисты - поставьте глухой забор, и никто уже Вас не побеспокоит.

Полагаю, что с двойными стандартами в данной ветке форума разобрались.

Gray

В случае с Агавой, хочу сообщить тем, кто не в курсе, и напомнить тем, кто в курсе, ссылки на страницы, на которых стояли ссылки, из-за которых разгорелся весь этот сыр-бор, стояли внизу "морды" соответствующих проектов под текстом 1998-2001 Copyright ..., что не могло не расстроить моих коллег.

Остальное комментировать не буду ;)

Polite Moose

> Всегда ли бан полный?

Всегда. Для профилактики :)

Частичные методы "наказания" - это уже не бан, и их полезнее проводить автоматическими методами.

> Это просто вебмастер так подхалтуривает

Нет гарантии того, что такая страничка будет обязательно признана "спамом".

Остальные вопросы (и предложения) задайте на форуме Яндекса http://forum.yandex.ru/?forum=188 . Может, кто-то захочет ответить :)

Professor, не будьте так наивны. Если сайт забанен, то с него и ссылки не учитываются, и в подсчете PR=ВИЦ он не участвует, т.к. для поисковой системы он больше не существует.

Таким образом, y может что-то накопленное передать x только с точки зрения той поисковой системы, которая y еще забанить не успела ;)

Polite Moose


> Сайт "х", в свою очередь передает накопленный ВИЦ сайту "y", после чего успешно банится. Сайт "y" успешно живет с хорошим ВИЦ, размазав его по своим страницам.
> Будет ли работать такая схема? Потеряет ли "y" ВИЦ при очередном пересчете?

Обязательно потеряет.

> Не потому ли ИЦ пересчитывают (и банят зарвавшихся) намного чаще, чем пересчитывают ВИЦ?

Кажется, пришла пора повторить для тех, кто плохо читает форум(ы):

ВИЦ пересчитывается, как правило, 2 раза в неделю, а ИЦ - 1 раз в неделю.

Значение ВИЦ в Яндекс-баре обновляется не так аккуратно :)

"незавершенная строковая константа". Внизу всех страниц с тредами, в т.ч. и этой. Надо бы поправить.


if (theform.message.value.length > 10000) {
alert("Ваше сообщение слишком длинное.\n\nУменьшите, пожалуйста, его длину до 10000 символов.\nСейчас
его длина составляет "+theform.message.value.length+" символов.");
return false;

KycT

Попробуй

Header("Status: 200");.

Пока домен в зоне .ru считается зеркалом домена в зоне .net, все ссылки на домен в зоне .ru все равно будут считаться ссылками на домен в зоне .net. Так что в данном конкретном случае (кажется, зеркала deniss здесь же и обсуждались) даже с точки зрения ссылок ничего не изменилось.

Всего: 142