На runet.ru интервью с Владиславом Шабановым (Rambler)

spark
На сайте с 24.01.2001
Offline
130
#41

Gray

Из крупных только счетчик Пинга может потянуть, да и то надорвется.

Подозреваю, что мужчина, могущий пролить свет на сию проблему в отпуске. Ничего, на днях выйдет и просветит :)

Есть еще БигМир, в принципе. Но я так понял, что дело не в технических проблемах, а в политических. Тут никакой Прайсвотерхауз не поможет. Хотя, положа руку на сердце, я после корпоративных шкандалей в штатах любому, даже легко накручиваемому, счетчику верю больше чем аудиторам :(

V
На сайте с 20.06.2001
Offline
24
vs
#42

Илья, благодарю за замечания и поправки. Сожалею, если своими высказываниеми задел Вас и команду разработчиков Яндекса.

Основной недостаток текста на runet.ru даже не в том, что он излишне эмоционален, а в том, что там все вырвано из контекста. Я сам, честно говоря, очень удивился, когда прочитал его там в таком виде. Ну да ладно, постараюсь восстановить утерянное.

Основное, о чем я там говорил - это то, что числа, которые показывают поисковики, нельзя напрямую сравнивать. Повторю свои тезисы более развернуто - с учетом Ваших поправок.

1. Нельзя сравнивать количество найденных серверов.

При одинаковом количестве найденных хостов то, что Рамблер называет "сайтами" и то, что Яндекс называет "серверами" - разные вещи и их количество нельзя сравнивать.

Мы в один элемент списка найденного всегда склеиваем документы с сайта www.xxxx.ru и xxxx.ru на этапе поиска. Поэтому у нас 2 найденных хоста (www.xxxx.ru и xxxx.ru) считаются одним найденным сайтом. Да, это не совсем корректно, есть случаи, когда xxxx.ru и www.xxxx.ru содержат разную информацию. Но сейчас наш способ подсчета

найденных сайтов работает именно так. Кстати, и разные порты одного хоста мы также объединяем. Также мы на runtime клеим и зеркала, хотя и не очень эффективно.

Яндекс, насколько я могу судить об этом снаружи, устроен по другому - там есть отдельный робот, который ходит по сети независимо (или почти независимо) от основного и принимает решения, что такие-то сервера суть зеркала и один из них не надо больше показывать. Это очень хорошее техническое решение, мы сейчас дополнительно к нашему сегодняшнему механизму делаем ровно такую же штуку, но из этого с

очевидностью следует, что пока этот дополнительный робот "зеркалатор" не добрался до кого-нибудь, сайты "живут" несклеенные. На первой странице такое случается редко, пользователи действительно не страдают, но на подсчете отражается.

Я когда-то сделал очень простую вещь - автолюба-образной программой вытащил списки найденного и построил список хостов, отсортировав его как в Зализняке - начиная с последней буквы. Там такие повторы хорошо заметны. Я сейчас специально подобрал запрос, на котором это можно увидеть:

http://www.yandex.ru/yandsearch?text=%C2+%FD%F2%E8+%EF%FF%F2%FC+%EA%E8%EB%EE%E1%E0%E9%F2+%E2%E5%E1-%E4%E8%E7%E0%E9%ED%E5%F0+%E4%EE%EB%E6%E5%ED+%F3%EC%E5%F1%F2%E8%F2%FC+%E2%F1%E5+html-%F4%E0%E9%EB%FB

http://vokruginfo.ru/news/news268.html

http://www.vokruginfo.ru/news/news268.html

Бывает и обртное - мы считаем сайтом подкаталог, начинающийся с тильды

(www.chat.ru/~vasya/...) и поэтому на некоторых запросах при одинаковом количестве найденных хостов мы "насчитаем" больше сайтов, чем Яндекс - серверов.

С уважением, Влад Шабанов vs@rambler-co.ru
V
На сайте с 20.06.2001
Offline
24
vs
#43

2. Количество уникальных документов.

Начнем с конца - в Яндексе БОЛЬШЕ документов. БОЛЬШЕ. За счет двух вещей:

1) выкачка динамики и более мягкие правила отсева URL (нет дискриминации по портам и т. д.)

2) автоматическое хождение в зоны .com, .net, .org и т. д. за русскими документами.

А вот делать выводы из срвнения автолюбой нужно с осторожностью, так как разница этих чисел в 40% для пользователей может быть незаметна. И уж конечно, нельзя говорить, что полнота поиска ниже на 40%.

В том внутреннем документе сделано было вот что:

1) взяты списки найденного по однословным запросам (в том числе, конечно же, сигариллы, переверсия и т. д.). Было 10 тыс. URL. Взяты, конечно же, не со стандартной ответной страницы, а со страницы, где результаты не группированы по сайтам - так заметнее дубли.

2) с соответствующих серверов взят robots.txt и выполнена прочистка. Кстати, были хосты с некорректными robots.txt (на одном хосте даже выдавалась главная страница сайта) и был сайт, где Яндексу можно было ходить в каталог /cgi-bin/, а рамблеры - нет. Пришлось для этого сайта притвориться Яндексом :-)

3) выкачаны страницы. Таймауты в 300 секунд считались отсутствием документа. Так, конечно, нельзя, основной наш робот такие страницы удаляет только когда они несколько раз подряд тайм-аутятся, но в рамках эксперимента это, думаю, все же допустимо.

4) напущен наш индексатор и подсчитано, сколько раз он сказал "document is not text" и сколько "наклеил" дублей. Отсюда и числа.

Как видите, отличия от Автолюбы небольшие, но есть.

Отсев URL на каждом этапе - вещь совершенно нормальная. Она показывает, насколько поисковик отличается от идеального, в котором информация обновляется мгновенно. На Рамблере, кстати, сегодня будет намеряно одно число, а к выходным - другое (к выходным должна "выкатиться" новая база).

Еще пример из жизни - был терабайт, выполнили прореживание дублей и стало на 7% меньше. Запустите автолюбу до - получите одно число, после - совсем другое.

Поэтому плохо, когда журналист берет два поисковика, дает им одно и то же слово, и говорит, что в Яндексе в два раза больше информации, не задумываясь о том, что вся, скажем, 30-ая страница Рамблера содержит мусор, а 47-ая страница Яндекса - сплошные дубли.

Чистый от даких явлений эксперимент - запросы, по которым Яндекс хоть что-то находит, а Рамблер - нет. Пример: дефлограция.

3. Все/не все слова запроса

Я проделал простой эксперимент - взял частотные двух-трехсловные запросы, по которым находится небольшое количество документов. В ответной странице Яндека появились "нестрогие соответствия". Конечно же, нечеткий поиск во многих случаях очень полезен - найдется хоть

что-нибудь. Мы в этом смысле хуже - просто говорим, что ничего не найдено и оставляем пользователя наедине с его запросом.

Только вот плохо, когда по числу найденных по таким запросам документов судят о полноте базы (автолюба, этого, разумеется, не делает).

В заключение: я регулярно спрашиваю всех своих знакомых каким поиском они пользуются и почему. Так вот, половина народа говорит, что им нравится желтый цвет, а синий - раздражает, а другая половина - что желтый цвет раздражает, а синий - наоборот, нравится. Вот и оптимизируй после этого поиск :-))

P.S. Спайлоговский счетчик "только поиск" стоит кроме ответной страницы еще и "на голове" (его номер, если я не ошибаюсь, 9940). Он же - и на ya.ru. Вот и сравнивай после этого статистики.

BB
На сайте с 25.03.2002
Offline
31
#44
Как писал Ashmanov
Грею: конечно, в принципе нужен счётчик, независимый, красивый, быстрый, точный. Дерзайте! Мы накидаем пожеланий по функциональности. Если, конечно, есть 20-30 килобаксов на обзаведение на первое время. А потом нужно будет ещё тыщ 100-150 на год. Дешевле вряд ли получится - там есть "несжимаемые" железо и трафик.

Предлагаю обсудить вопрос создания такого счетчика в отдельном топике

aktex.ru - аккумуляторный информационный портал (http://www.aktex.ru/)
F
На сайте с 20.08.2003
Offline
2
#45

Ворос г-ну из команды Рамблера, если у вас такой уникальный алгоритм, почему в базе индекса рамблера всего 2 ссылки на мой сайт. Я всеми возможными способами пытался узнать есть ли еще, но как оказалось нет. в то время как яндекс проиндексировал более 1500 страниц, это с учетом версий для печати и страниц с коментариями.

Прошу ответить на мой вопрос.

(п.с. в этот топик я попал из яндекса, это так к слову)

Каталог сайтов. обавте и вы свой сайт (http://catalog.compnews.org)
mnt
На сайте с 11.11.2002
Offline
107
mnt
#46
Как писал spark
К сожалению, есть еще один параметр, о котором интервьюруемый тактично умолчал. Активность роботов. Естественно, никаких обобщений.

420 0.23% Yandex/1.01.001 (compatible; Win16; I)
240 0.13% Yandex/1.03.000 (compatible; Win16; M)
179 0.10% Yandex/1.01.001 (compatible; Win16; P)
62 0.03% Yandex/1.01.001 (compatible; Win16; H)
1 0.00% Yandex/1.03.003 (compatible; Win16; D)
1 0.00% Yandex/1.01.001 (compatible; Win16; i)

20 0.01% StackRambler/1.4

Активность Фаста и Гугля не привожу из сотрадания к господину Шабанову. А остальное - лирика.

твой сайт роботы не любят, вот мои данные за месяц ;)

зы... вру статистика начала собираться с серидины месяца ;)))

FAST-WebCrawler/3.8 (atw-crawler at fast dot no; http://fast.no/support/crawler.asp) September 7463

Googlebot/2.1 (+http://www.googlebot.com/bot.html) September 5758

StackRambler/2.0 September 2218

Yandex/1.01.001 (compatible; Win16; M) September 744

Yandex/1.01.001 (compatible; Win16; I) September 613

FAST-WebCrawler/3.8/Fresh (atw-crawler at fast dot no; http://fast.no/support/crawler.asp) September 30

Yandex/1.03.000 (compatible; Win16; M) September 28

Mozilla/4.0 (compatible; MSIE 5.0; YANDEX) September 20

Yandex/1.03.003 (compatible; Win16; D) September 10

Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html) September 1

Aport September 1

дорого куплю ссылки с хороших жирных русскоязычных авто сайтов.
F
На сайте с 20.08.2003
Offline
2
#47

mnt, я так понимаю это ответ мне?

euhenio
На сайте с 21.09.2001
Offline
357
#48

Обращайте внимание на год!

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
spark
На сайте с 24.01.2001
Offline
130
#49

Нет, это ответ мне :) mnt, посмотри на год предыдущих сообщений, я даже уже не помню, с какого сайта эта статистика, не то чтобы сообразить, за сколько дней месяца она.

G
На сайте с 15.11.2002
Offline
18
#50
Обращайте внимание на год!

Зато как приятно было перечитать всю забтую дискуссию! :)

С уважением, Егор Ларин.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий