wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
Итого: после появления в Dmoze PageRank - 6? Или всё не настолько просто?

Конечно, все не так просто. PR может остаться 5. На самом деле он, конечно, на сколько-то увеличится, но в тулбаре используется слишком грубая шкала, причем, по всей видимости нелинейная, поэтому показания тулбара могут и не измениться.

Дальнейшее добавление по поводу рекурсивности же, скажем так, по-русски означает, что
a) Немедленная загрузка документов, на которые ссылается только что загруженный, не является обязательным свойством робота, т.е. можно и потом.

Я бы интерпретировал немножко иначе:

а) Загрузка документов, на которые ссылается только что загруженный, не является обязательным свойством робота, т.е. можно и не загружать ни немедленно, ни потом.

b) Робот может применять к ссылкам некоторые эвристики, в т.ч. не обязательно, на самом деле, даже засасывать все документы, на которые стоит ссылка в исходном.

Вот-вот. не обязательно засасывать все документы, на которые стоит ссылка в исходном в частном случаем может иметь ситуацию не засасывать документы, на которые стоит ссылка в исходном.

Так что не надо грешить на мой английский.

А вот вам такой примерчик: сайт http://www.cheap-cigarettes.com/ имеет PR=6/10 при всего 5(!) показываемых Гуглем backward links (включая и внешние, и внутренние). Каково?

И еще одно определение робота от Webopedia:

A program that runs automatically without human intervention. Typically, a robot is endowed with some artificial intelligence so that it can react to different situations it may encounter. Two common types of robots are agents and spiders.

И опять же программа, проверяюшая сайты, находящиеся в Закладках, попадает под этто определение.

Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt

Потому что программа, проверяюшая сайты, находящиеся в Закладках, является роботом

Читаем http://www.robotstxt.org/wc/faq.html

A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

Note that "recursive" here doesn't limit the definition to any specific traversal algorithm; even if a robot applies some heuristic to the selection and order of documents to visit and spaces out requests over a long space of time, it is still a robot.

Эта программа целиком попадает под это определение.

Понимаю, конечно понимаю.

2melkov
Пойдем отсюда, Саша.

С Уважением,
В.Иванов

Я бы очень хотел верить в то, что они пройдут отсюда учить своего закладочного робота вежливости, но что-то мне подсказывает, что этого не случится. ;)

Ну и аргументы - детский сад. Я понял бы, если бы Вася Пупкин заявлял о "размытости определения того робота, который должен следовать robots.txt", но в данном случае это делают представители крупной поисковой системы.

(кстати, и User-Agent у них в основной части - Mozilla

А если я начну Яндекс парсить роботом, который прикидывается Мозиллой, вы меня трогать не будете?? :)

Как видно, Закладки не используют ссылки с тех документов, к которым обращаются, т.к. даже не скачивают сами документы (замечу, что метапоиски и определялки позиций как раз-таки используют ссылки со скачанного документа - например, ссылку на следующую страницу выдачи поисковой системы ). Так что, скорее, Закладки - это все-таки "Autonomous agent", или даже User-Agent (т.к. каждую конкретную ссылку скачивают по заданию конкретного пользователя Закладок).

А если робот-анализатор позиций задаст запрос на выдачу ему одной страницы с 50 (100 и т.д.) результатами поиска, и не будет ходить по ссылке на вторую страницу? Он что, перестанет быть роботом???

Можно, конечно, придраться к этому, поскольку при перечислении целей использования роботов присутствует link validation, даже если забыть аргументацию по поводу выделения ссылок, достаточная размытость определения того робота, который должен следовать robots.txt, трактуется в нашу пользу

Кем трактуется??? Вами же в вашу пользу и трактуется.

Я удивляюсь! Сами же привели цитату, что по правилам действия их робота попадают под определение робота, и сами заявили, что считают, что правила не для них.

melkov

Мы Вам про Фому, а Вы нам про Ерему...

Не Ваше дело решать какой размер нагрузки Вашего робота на чужой сервер допустим, а какой нет, и чего там добивается вебмастер, составляя robots.txt. Написано "Нельзя", значит - нельзя.

Вот Вам другая метафора. Вы лезете в яблоневый сад, через забор, на котором написано: "Яблоки рвать запрещается". "Ну и что", - думаете Вы, - "Я ж тока пяток яблок сорвать хочу, а не два мешка". Но заряд соли пониже спины от сторожа все равно получите.

Заметную нагрузку на сервер они не производят. Если на какой-то ресурс люди действительно много закладок, значит он и так весьма посещаем, т.е. закладочная проверялка все равно не создаст заметного роста нагрузки.

Любопытная логика. Таки я Вам скажу, по по-моему скромному мнению, среди десятков (а может, сотен?) тысяч ежедневных запросов в Яндекс, сотня-другая запросов робота-анализатора позиций заметной нагрузки не создаст. Только Вы ведь меня не послушаете, и IP-шник мой от Яндекса все одно поотрубаете, если моего робота забдите.

Где-где? Да все там же, где и была: с мордашки Яндекса по старой доброй ссылке "Добавить сайт"...Ну да, изменилась она немного, ну и что с того?
..

Ничего себе немного! Теперь сайт предгают в каталог добавлять только за деньги:


Чтобы подать заявку на платную регистрацию в каталоге, нужно заполнить форму.

Стоимость услуги:
для сайтов коммерческих компаний или организаций – $100;

для остальных сайтов – $20.

Я, честно сказать, не заметил в словах wolf за последние несколько форумов никаких особенных мыслей кроме как необъяснимого желания демонизировать Яндекс.

Я думаю, Вы невнимательно читаете все разделы форума. А по поводу моего отношения к Яндексу, то дело не в Яндексе так таковом. Просто, когда встречаешь людей, практикующих двойные стандарты, то становится просто по-человечески неприятно.

Всего: 24501