Идентефикация роботов Яндекса.

12
R
На сайте с 29.08.2005
Offline
139
1333

Здравствуйте.

Справедливо ли утверждение, что роботы Яндекса всегда представляются именами типа:

Yandex/1.03.000 (compatible; Win16; I),

Yandex/1.01.001 (compatible; Win16; H),

Yandex/1.03.000 (compatible; Win16; M)

Yandex/2.01.000 (compatible; Win16; Dyatel; C) и тому подобное ?

То есть всегда ли строка "user agent" содержит в себе подстроку "Yandex"? Или у вас есть сведения, что роботы Яндекса могут шифроваться и отдавать какую-нибудь другую, безобидную строку типа Mozilla ?

K. Ermakov
На сайте с 10.12.2004
Offline
328
#1

Ruslay, интересно, с чего бы это роботам представляться чужими именами? И как это технически реализовать?

Ruslay:
Или у вас есть сведения, что роботы Яндекса могут шифроваться

Конечно, таких сведений нет

С уважением, Константин Ермаков, absite.ru: онлайн кроссворды (http://absite.ru/); searchsuggest.ru: поисковые подсказки доставляют (http://searchsuggest.ru/).
R
На сайте с 29.08.2005
Offline
139
#2
K. Ermakov:
Ruslay, интересно, с чего бы это роботам представляться чужими именами? И как это технически реализовать?


Конечно, таких сведений нет

Просто насколько я понимаю, значение переменной user agent формируется со стороны клиента (робота, браузера) и, в общем-то, может быть каким угодно (как заложит программер). Я собираю в кучу всех юзер агентов, заходящих на мой сайт, и иногда там появляются всякие прикольные строки типа "Hi, It's me, WebCat, I'm cheking my links".

Видимо, программер сам решает что ему передать в качестве user agent. Иногда эта строка бывает пустой.

Конечно, оффициально Яндекс представляется вышеупомянутыми именами, но, кто знает, может, он иногда заходит на сайты ингокнито. Вот об этом и хотел узнать.

FlyAway
На сайте с 01.06.2005
Offline
439
#3

Ruslay, не заходит инкогнито

Сердюченко Андрей (http://www.serdyuchenko.ru/) Масонская ложа — SЕ-Team.ru (http://goo.gl/YIjV6h) :)
I
На сайте с 09.03.2006
Offline
26
#4

Пробегал где-то в интернете слух, что Яndex ходит иногда под другими именами - дабы определить дорвеев.

разработка сайтов, настройка серверов, разработка Mozilla-расширений (http://maxantonov.name (http://maxantonov.name) -блог)
K. Ermakov
На сайте с 10.12.2004
Offline
328
#5
Ruslay:
Видимо, программер сам решает что ему передать в качестве user agent

А теперь представьте себе программиста Яндекса, который вместо того, чтобы делом заниматься, пишет алгоритм отправки нестандартных user-agent некоторым сайтам... С заимствованием текста, скажем, из яндекс-весны... Вам кажется, я брежу? Мне тоже :)

deadcat
На сайте с 04.04.2005
Offline
27
#6
K. Ermakov:
А теперь представьте себе программиста Яндекса, который вместо того, чтобы делом заниматься, пишет алгоритм отправки нестандартных user-agent некоторым сайтам...

Да запросто... Технических сложностей абсолютно никаких нет. Ну и вспомним еще про "ХитроРобот"...

valentin shergin research laboratory (http://shergin.com), erratum machine – самоорганизация документов, cms, cmf (http://erratum.ru)
K. Ermakov
На сайте с 10.12.2004
Offline
328
#7
deadcat:
Технических сложностей абсолютно никаких нет

Конечно нет. Но зачем?

deadcat:
Ну и вспомним еще про "ХитроРобот"

Это что за зверь? В соответствующей теме как-то ответа не показали ещё...

R
На сайте с 29.08.2005
Offline
139
#8
K. Ermakov:
А теперь представьте себе программиста Яндекса, который вместо того, чтобы делом заниматься, пишет алгоритм отправки нестандартных user-agent некоторым сайтам... С заимствованием текста, скажем, из яндекс-весны... Вам кажется, я брежу? Мне тоже :)

Писать алгоритмы тут и не нужно, достаточно один раз прописать строку, соответствующую любому поп-браузеру и далее гонять робота под этим ником. И тогда просто так и не узнаешь, что за этим безобидным клиентом скрывался Яндекс. Это можно использовать, чтобы вычислять те сайты, которые отдают разный контент для простых посетителей и для роботов. Я бы на месте Яндекса так и делал, а то слишком просто подсунуть ему правильные странички.

[Удален]
#9
И тогда просто так и не узнаешь, что за этим безобидным клиентом скрывался Яндекс. Это можно использовать, чтобы вычислять те сайты, которые отдают разный контент для простых посетителей и для роботов. Я бы на месте Яндекса так и делал, а то слишком просто подсунуть ему правильные странички.

Во-первых, кроме юзер-агента есть еще ip. Во-вторых, очень хорошо что вы не на месте яндекса. В-третьих, уже была такая тема, где подробно разьяснили, почему нельзя таким образом найти клоакинг.

K. Ermakov
На сайте с 10.12.2004
Offline
328
#10
Ruslay:
Я бы на месте Яндекса так и делал

флаг в руки

http://company.yandex.ru/inside/job/index.xml

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий