На runet.ru интервью с Владиславом Шабановым (Rambler)

O
На сайте с 08.01.2002
Offline
157
og
11832

http://www.runet.ru/theme/780.html

Особенно забавны сравнения Рамблера/Поиск'а с Yandex'ом.


1) Количество уникальных серверов.

У нас работают сложные алгоритмы, предназначенные для того, чтобы не скачивать "лишнюю" информацию. Наверняка какие-то алгоритмы фильтруют сервера и в Яндексе. В результате может получаться, что Яндекс насчитал 5 тысяч дополнительных серверов, которые мы отфильтровали потому, что знаем, что это повтор уже имеющейся информации. Впрочем, может быть и наоборот - мы решили, что сервера разные, а Яндекс - нет. Поэтому сопоставлять эти числа нельзя.

2) Количество уникальных документов

И мы и Яндекс объединяем "похожие" документы в один (т.е. один и тот же документ, скачанный два раза в разных кодировках). Так вот, алгоритмы объединения очень сильно различаются. В среднем, наш алгоритм находит на 12% больше дублей.

В нашей компании имеется внутренний документ: зимний отчет о сравнении Рамблера и Яндекса. Некоторые материалы из него мы готовы предоставить. По этому отчету следует, что после того, как Яндекс обработал страницы и выделил из них уникальные документы, мы 12% этих документов посчитали дублями (в действительности таковыми они и являются). Также около 40% страниц, выданных Яндексом по тестовым запросам, не существовали в день, когда было произведено тестирование. Поэтому из данных о том, что в Яндексе 57 млн. уникальных документов, а у нас - 30 млн., совсем не следует, что мы находим вдвое меньше информации.

3) Объем проиндексированной информации

Опять та же проблема - мы объединяем дубли и имеем "хитрый" алгоритм, который пропускает повторы. Яндексовский алгоритм устроен проще и поэтому в заявленных 938 гигабайтах количество дублей выше, чем у нас.

Однако, сравнивая по этому параметру нельзя не признать, что после учета всех указанных выше явлений размер базы Яндекса все-таки превосходит рамблеровскую - Яндекс обрабатывает так называемые "динамические" страницы, а мы - нет.

4) Количество документов, найденных по запросу

Мы ищем только документы, в которых есть ВСЕ слова запроса, а Яндекс - все, в которых есть хотя бы одно слово. Если подать аналогичный поисковый запрос Рамблеру - числа будут примерно равные.

К сожалению, числа, выдаваемые Яндексом, невозможно проверить, так как на этом поисковике нельзя просмотреть больше 100 страниц списка найденного. Рамблер - наоборот, позволяет просмотреть ВСЕ страницы списка.

5) Количество найденных по запросу сайтов (серверов)

Мы считаем серверы www.server.ru, koi.server.ru, mac.server.ru и т. д. одним и тем же, а Яндекс - нет. Поэтому количество найденных серверов может различаться в 2-3 раза притом, что найдена одна и та же информация.
Пока мы живы, смерти нет. Когда придёт она, не будет нас.
spark
На сайте с 24.01.2001
Offline
130
#1

К сожалению, есть еще один параметр, о котором интервьюруемый тактично умолчал. Активность роботов. Естественно, никаких обобщений.

420 0.23% Yandex/1.01.001 (compatible; Win16; I)

240 0.13% Yandex/1.03.000 (compatible; Win16; M)

179 0.10% Yandex/1.01.001 (compatible; Win16; P)

62 0.03% Yandex/1.01.001 (compatible; Win16; H)

1 0.00% Yandex/1.03.003 (compatible; Win16; D)

1 0.00% Yandex/1.01.001 (compatible; Win16; i)

20 0.01% StackRambler/1.4

Активность Фаста и Гугля не привожу из сотрадания к господину Шабанову. А остальное - лирика.

O
На сайте с 08.01.2002
Offline
157
og
#2

2 spark

Ваши данные вполне укладываются в то, что говорил г-н из рамблера.

Робот просто не индексирует "лишних" страниц =)

spark
На сайте с 24.01.2001
Offline
130
#3

Это данные по одному сайту, и никаких дублей там быть не может по определению :) Если г-н Рамблер умеет определять, какие именно из страниц разных страниц одного сайта лишние, а какие нет, это новое слово в SE.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#4

spark

Добавь - не читая их.

2 vs - Влад, придется комментировать собственное интервью. Тем более, что давно никакого шума вокруг Рамблера не было, все больше о Яндексе...

spark
На сайте с 24.01.2001
Offline
130
#5

Я повторю одну кислую мысль, уже высказанную в сегодня в приватном общении. Нелепо позиционировать Рамблер, исключительно как поисковик.

У него есть кое-что, чего у Яндекса нет по определению, и если так уж нужен PR (не в гуглевском значении), нужно расхваливать себя, уникального, именно с этой точки зрения.

V
На сайте с 20.06.2001
Offline
24
vs
#6

С точки зрения web-мастера главный критерий: сколько людей приводит поисковик на сайт. С точки здения его начальника - сколько денег приносит сайт. По первому параметры отдача от Яндекса и Рамблера, в общем, сравнима (есть сайты, куда больше ходят с Рамблера, есть - куда больше ходят с Яндекса). по второму - не знаю, есть разные мнения. Серьезного исследования, которое бы делало статистически обоснованные выводы на эту тему я не видел.

Кстати, если не ошибаюсь, на этот сайт больше ходят с нашего поисковика.

Активность робота, конечно, на эти вещи влияет, но не так, как господин spark пытается это представить. Опять же, процитирую Илью Сегаловича - мы (как и Яндекс) заботимся не о web-мастерах, а о пользователях интернета. Свежую информацию для пользователей мы поставляем с избытком, а если наш робот обошел вниманием чей-то сайт, то на то и web-мастер, чтоб за такими вещами сделить и исправлять ситуацию.

2 spark. Вы не пробовали разобраться, почему это происходит?

Что же касается игнорирования ссылок не читая - да, мы часть ссылок пропускаем и не качаем.

Не качаем (то есть, не обращаемся за страницей):

1) Искусственные каталоги, порожденные русским апачем (/win/, /koi/ и т. д.). То же самое - порты или поддомены, по которым раскидывает русский апач при соответствующей настройке.

2) Идентификаторы сессий (PHPSESSIONID)

3) Динамику - про это уже много говорили.

4) Руководства по apache и аналогичную информацию, которую инсталлятор web-сервера ставит по умолчанию или которую слишком любят копировать себе на сайт web-мастера.

Думаю, что в Яндексе есть аналогичные фильтры, хотя, значительно более "либеральные". В январе 2002 года мы проводили исследование - взяли результаты поиска Яндекса по нескольким десяткам запросов и покачали/поиндексировали их Рамблером (разумеется, сбросив все эти фильтры-запреты). На тот момент мы дубли объединяли лучше, причем большя часть распознанных дублей была бы "удавлена" нашими фильтрами URL без всякой выкачки.

Кто лучше клеит дубли сегодня - не знаю, времени на такое исследование нет. Сейчас на Рамблере повторов много, но за счет зеркал (скачали с одного зеркала тысячу страниц, а со второго - пятьсот. Получили, что пятьсот дублей, а еще пятьсот - хорошие уникальные страницы про то же самое). Склейщик зеркал уже почти готов, в сентябре собираемся внедрить. Уже сейчас пару сотен серверов могут увидеть про себя сообщение, что мы их не качаем, потому, что они зеркала такого-то сайта.

2 Gray: Вы не находите, что участники форума немного подхамливают?

С уважением, Влад Шабанов vs@rambler-co.ru
spark
На сайте с 24.01.2001
Offline
130
#7

vs

Если это я "подхамливаю", то покорнейше прошу прощения за себя и свой вебалайзер.

V
На сайте с 20.06.2001
Offline
24
vs
#8
Как писал spark
vs
Если это я "подхамливаю", то покорнейше прошу прощения за себя и свой вебалайзер.

Ну, в общем, да. Лог ведь "хитрый" - с первого взгляда кажется, что разница в 50 раз, а на самом деле - сильно меньше, так как заходы подсветчика, картинок и закладок надо вычесть. С тем, какие строчки (какую букву Win16) надо вычеркнуть, перед тем, как сравнивать, знатоки Яндекса скажут сразу, по памяти.

spark
На сайте с 24.01.2001
Offline
130
#9

vs

Заранее извиняюсь на всякий случай.

Знаете, что меня настораживает? С год назад на этом форуме (не Вы ли?) доказывали, что Спайлог почему-то не прописывает заходов с Рамблера, и вся глобальная статистика его по поисковикам - далека от действительности. А сейчас,я смотрю, вроде правильная была статистичка, и Рамблер уже признал. Уже про то, что у вас более кредитоспособная аудитория приходится намекать. Проверить все равно почти невозможно.

И вообще, что это я за Яндекс отдуваюсь?

В главном Ваши позиции совпадают - мы (как и Яндекс) заботимся не о web-мастерах, а о пользователях интернета.А пользователям логи не интересны.

Считайте мой лог какой-то аномалией и флуктуацией, и свидельством низкой профпригодности, я не против. Но самоуспокоенность не всегда хорошо. Это я вам уже как пользователь Рамблера со стажем сообщаю.

V
На сайте с 20.06.2001
Offline
24
vs
#10

Немного не понял что Вы имеете в виду.

Тогда обсчитывать в реальном времени не получилось и корректно сравнить таким образом посещаемости поисковиков не удалось.

Сравнивать посещаемость Вы можете хоть каждый день - и у Яндекса и у нас она открыта. Только сопоставлять числа очень трудно, о чем, собственно, я и ответил Никите Шерману.

А про кредитоспособность - это поди померяй. Сложно очень. Попробуйте сами, если Ваш сайт что-нибудь продает. Результаты сопоставления будут интересны всем. Только методику обязательно опубликуйте.

Но то, что пользователи разные - это точно. Кстати, при помощи top100 что-нибудь интересное узнать про различия можно будет - мы умеем, например, определять сферу интересов пользователя по тем сайтам, на которые он ходит (конечно, если на сайте есть счетчик top100). Я, например, в нашей баннерной системе "припаян" к категории авто-мото, потому, что на авто-ру бываю. Вот она и показывает мне баннеры про автомобили. Причем только на работе - дома жена искажает картинку :-))

P.S. да не извиняйтесь Вы так часто, проехали давно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий