Робот Yandex.Закладки не соблюдает robots.txt !?

M
На сайте с 25.01.2001
Offline
57
#41

Господа, давайте же посмотрим фактам в лицо.

1) Что делает робот Яндекс.Закладок?

Делает несколько запросов к каждому серверу, на который пользователи поставили закладки, игнорируя robots.txt.

2) Чего добивается вебмастер, запрещая заходы робота на свой сайт при помощи robots.txt?

a) Снизить нагрузку на свой сервер.

b) Скрыть от чужих глаз какие-то свои url'ы.

c) Возможно, предотвратить последствия от запроса какого-либо url'а лишний раз (типа заказа в электронном магазине без кук, хотя не совсем понятно, может ли эл. магазин, подверженный такой проблеме, вообще нормально функционировать).

3) Что делают метапоиски и определялки позиции в результатах поиска?

Они делают весьма много запросов к одному серверу или к совсем небольшому числу серверов (т.е. 5-10 поисковым системам).

Итак, рассмотрим robots.txt применительно к Закладкам.

a) Заметную нагрузку на сервер они не производят. Если на какой-то ресурс люди действительно много закладок, значит он и так весьма посещаем, т.е. закладочная проверялка все равно не создаст заметного роста нагрузки.

b) Скрыть url, на который пользователь уже поставил закладку, Вы все равно уже не сможете.

c) Запрос head можно научиться правильно обрабатывать, например в нужном месте написать что-то вроде:


if ($ENV{'REQUEST_METHOD'} eq 'HEAD') {
print "status: 200\n";
print "Content-type: text/html; charset=$charset\n\n\n";
exit 0;
}

(любители php, полагаю, смогут правильно проинтерпретировать этот перловый текст).

Что касается скриптов, долбящих (долбивших) Яндекс, то хотел бы я посмотреть, как бы они обошлись запросом HEAD :).

Теперь осталось перевести это все на язык метафор, которые, кажется, последнее время более понятны посетителям этого форума, чем нормальные доводы Вовы:(:

> Требовать от велосипедиста, чтобы он не ездил под дорожным знаком "кирпич", - это по меньшей мере смешно.

Если же Вас просто раздражают велосипедисты - поставьте глухой забор, и никто уже Вас не побеспокоит.

Полагаю, что с двойными стандартами в данной ветке форума разобрались.

O
На сайте с 08.01.2002
Offline
157
og
#42
Как писал melkov
Господа, давайте же посмотрим фактам в лицо.

2) Чего добивается вебмастер, запрещая заходы робота на свой сайт при помощи robots.txt?
a) Снизить нагрузку на свой сервер.
b) Скрыть от чужих глаз какие-то свои url'ы.
c) Возможно, предотвратить последствия от запроса какого-либо url'а лишний раз (типа заказа в электронном магазине без кук, хотя не совсем понятно, может ли эл. магазин, подверженный такой проблеме, вообще нормально функционировать).

..skip..

Полагаю, что с двойными стандартами в данной ветке форума разобрались.

Чего добивается вебмастер вам неведомо.

Ибо этого добивается он, а не вы.

И додумывать за него это, а точнее говорить от этого

человека как минимум неприлично.

Вежливого инструмента, говорящего о том, что это

брать нельзя отличного от robots.txt в Яндексе нет.

Поэтому используется стандартный инструмент.

Если Яндекс отказывается от его использования, то

разумно было-бы предложить другой.

Однако этого сделано не было.

Повторю в который раз, в чём выражается ущерб и

его объём здесь не обсуждается.

Имеет место сбор роботом яндекса той информации,

которую он собирать не должен.

По поводу сравнений.

Всё, что вы говорите напоминает человека, который утверждает свою

невиновность, на основании того, что он читать не умеет и читать

не хочет, а дверь на замок заперта не была, поэтому он спокойно

вошёл в частную квартиру, помыл руки и вышел.

Как вы отнесётесь к такому человеку, если он придёт к вам, когда вы не

закрыли дверь, выходя чтобы вынести мусор?

Пока мы живы, смерти нет. Когда придёт она, не будет нас.
wolf
На сайте с 13.03.2001
Offline
1183
#43

melkov

Мы Вам про Фому, а Вы нам про Ерему...

Не Ваше дело решать какой размер нагрузки Вашего робота на чужой сервер допустим, а какой нет, и чего там добивается вебмастер, составляя robots.txt. Написано "Нельзя", значит - нельзя.

Вот Вам другая метафора. Вы лезете в яблоневый сад, через забор, на котором написано: "Яблоки рвать запрещается". "Ну и что", - думаете Вы, - "Я ж тока пяток яблок сорвать хочу, а не два мешка". Но заряд соли пониже спины от сторожа все равно получите.

Заметную нагрузку на сервер они не производят. Если на какой-то ресурс люди действительно много закладок, значит он и так весьма посещаем, т.е. закладочная проверялка все равно не создаст заметного роста нагрузки.

Любопытная логика. Таки я Вам скажу, по по-моему скромному мнению, среди десятков (а может, сотен?) тысяч ежедневных запросов в Яндекс, сотня-другая запросов робота-анализатора позиций заметной нагрузки не создаст. Только Вы ведь меня не послушаете, и IP-шник мой от Яндекса все одно поотрубаете, если моего робота забдите.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
O
На сайте с 08.01.2002
Offline
157
og
#44
Как писал wawa

Методы борьбы я перечислил.
Угрызений совести по поводу этого HEAD не испытываю. Но коли он вас так сердит, забаньте. Или пожалуйтесь в abuse@yandex и Яндекс может быть разорвет связность с этим хостом, чтобы Вас не смущать :-)

Шикарный подход.

Может быть стоит вовсе перестать принимать анонсы с AS13238?

M
На сайте с 25.01.2001
Offline
57
#45

wolf

og

Вы опять успешно проигнорировали мои комментарии по поводу/ HEAD. Как же можно пытаться объяснить вам свою позицию, если вы замечаете исключительно ту ее часть, против которой уже заранее имеете какую-то аргументацию?

> вошёл в частную квартиру, помыл руки и вышел

Скорее можно говорить лишь о заглядывании в отрытую дверь, а не в входе в квартиру...

> Чего добивается вебмастер вам неведомо.
> Написано "Нельзя", значит - нельзя.

Ну так ведь как раз утверждается, что поскольку robots.txt не является адекватным для Закладок - не для них написано "нельзя" (кстати, и User-Agent у них в основной части - Mozilla :)), и они равноправны с обычным браузером. Соответственно, нету у вебмастера других стредств борьбы с закладками, кроме специальной настройки web-сервера, скриптов или firewall'а.

Ну да ладно, попробую зайти с другой стороны:

> Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.

http://www.robotstxt.org/wc/faq.html#what

What is a WWW robot?

A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы :) ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).

Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, однако, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу :)

euhenio
На сайте с 21.09.2001
Offline
357
#46
достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу

-то, что она вами трактуется в вашу же пользу, неудивительно :)

code:
if ($ENV{'REQUEST_METHOD'} eq 'HEAD') {
print "status: 200\n";
print "Content-type: text/html; charset=$charset\n\n\n";
exit 0;
}

- а если так рассуждать, robots.txt вообще не нужен, получается? Ведь любой очень желающий может закрыть свой сайт без использования robots.txt, определяя параметры запроса.

Так ведь нет, зачем-то придумали все запреты в стандартном виде выкладывать в файл...

И, в конце концов, не имеет смысла говорить что ДОЛЖНЫ делать владельцы сайтов, чтобы защититься от этого всего, а лучше вспомнить о том, что РОБОТЫ должны делать.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
wolf
На сайте с 13.03.2001
Offline
1183
#47

Ну и аргументы - детский сад. Я понял бы, если бы Вася Пупкин заявлял о "размытости определения того робота, который должен следовать robots.txt", но в данном случае это делают представители крупной поисковой системы.

(кстати, и User-Agent у них в основной части - Mozilla

А если я начну Яндекс парсить роботом, который прикидывается Мозиллой, вы меня трогать не будете?? :)

Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).

А если робот-анализатор позиций задаст запрос на выдачу ему одной страницы с 50 (100 и т.д.) результатами поиска, и не будет ходить по ссылке на вторую страницу? Он что, перестанет быть роботом???

Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу

Кем трактуется??? Вами же в вашу пользу и трактуется.

Я удивляюсь! Сами же привели цитату, что по правилам действия их робота попадают под определение робота, и сами заявили, что считают, что правила не для них.

W
На сайте с 10.03.2001
Offline
61
#48

euhenio

Полистайте, пожалуйста, этот форум вверх. Там на все эти вопросы отвечали по нескольку раз. Простите меня грешного, я не хочу Вас обидеть, но повторяться тоже не хочется.

С Уважением,

В.Иванов

O
На сайте с 08.01.2002
Offline
157
og
#49

2 melkov:


> вошёл в частную квартиру, помыл руки и вышел
Скорее можно говорить лишь о заглядывании в отрытую дверь, а не в входе в квартиру...

Тоесть заглядывать в чужую квартиру, смотреть что там есть,

и рассказывать всем по первой просьбе, это прилично?


Ну так ведь как раз утверждается, что поскольку robots.txt не является адекватным для Закладок - не для них написано "нельзя" (кстати, и User-Agent у них в основной части - Mozilla :)), и они равноправны с обычным браузером. Соответственно, нету у вебмастера других стредств борьбы с закладками, кроме специальной настройки web-сервера, скриптов или firewall'а.

Так напишите в описании системы, что вот для такого-то нашего робота

надо держать отдельный robots.txt или пусть он представляется

не Mozill'ой а самим собой, и пусть тоже использует robots.txt

с правилами относящимися к своему имени.


Ну да ладно, попробую зайти с другой стороны:
> Если вы про www.robotstxt.org, то на нём чётко сказано что считать роботом.

http://www.robotstxt.org/wc/faq.html#what
What is a WWW robot?
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced

Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы :) ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).

Вы выдернули часть текста.

Читаем дальше:


Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).

Понимаете? Потому, что работает не автоматически вызывая ссылающиеся линки. В данном случае он срабатывает автоматом.


Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, однако, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу :)

Он трактуется вами.

Вы трактовать можете это как пожелаете необходимым.

Однако ваша трактовка не отражает истины.

Допустим у меня есть страничка, но нет доступа к .htaccess,

нет доступа к фаэрволам и так далее.

Но я могу выложить файл robots.txt.

И я не хочу чтобы сторонний сайт выдавал информацию о

состоянии этой страницы. Жива она или нет.

Хочет человек это узнать, пусть на неё зайдет.

Как кроме через robots.txt я могу известить вашего и всех других

роботов о этом своём желании?

Замечу, что проверялок типа Яндекс.Закладки множество,

и писать админу каждой о необходимости вынести этот и другие

адреса из их баз у меня просто нет времени.

Что посоветуете?

W
На сайте с 10.03.2001
Offline
61
#50
Как писал og
What is a WWW robot?
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced

Из этого следует что, закладки - не робот. Я бы поправил определение - "не совсем робот".

Как писал og
Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).

из этого следует, что Закладки - не "нормальный браузер". Согласен. В качестве компенсации за уступку в предыдущем пункте сформулируем это так: "не совсем браузер".

Как писал og
Понимаете? Потому, что работает не автоматически вызывая ссылающиеся линки. В данном случае он срабатывает автоматом.

Понимаю, конечно понимаю.

2melkov

Пойдем отсюда, Саша.

С Уважением,

В.Иванов

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий