Используйте автолюба-образную программу, которая вытащила списки найденного и построила список хостов - Яндекс

На runet.ru интервью с Владиславом Шабановым (Rambler)

og · 2026-07-01T11:07:43.0000000Z

http://www.runet.ru/theme/780.html Особенно забавны сравнения Рамблера/Поиск'а с Yandex'ом. 1) Количество уникальных серверов. У нас работают сложные алгоритмы, предназначенные для того, чтобы не скачивать "лишнюю" информацию. Наверняка какие-то алгоритмы фильтруют сервера и в Яндексе. В результате может получаться, что Яндекс насчитал 5 тысяч дополнительных серверов, которые мы отфильтровали потому, что знаем, что это повтор уже имеющейся информации. Впрочем, может быть и наоборот - мы решили, что сервера разные, а Яндекс - нет. Поэтому сопоставлять эти числа нельзя. 2) Количество уникальных документов И мы и Яндекс объединяем "похожие" документы в один (т.е. один и тот же документ, скачанный два раза в разных кодировках). Так вот, алгоритмы объединения очень сильно различаются. В среднем, наш алгоритм находит на 12% больше дублей. В нашей компании имеется внутренний документ: зимний отчет о сравнении Рамблера и Яндекса. Некоторые материалы из него мы готовы предоставить. По этому отчету следует, что после того, как Яндекс обработал страницы и выделил из них уникальные документы, мы 12% этих документов посчитали дублями (в действительности таковыми они и являются). Также около 40% страниц, выданных Яндексом по тестовым запросам, не существовали в день, когда было произведено тестирование. Поэтому из данных о том, что в Яндексе 57 млн. уникальных документов, а у нас - 30 млн., совсем не следует, что мы находим вдвое меньше информации. 3) Объем проиндексированной информации Опять та же проблема - мы объединяем дубли и имеем "хитрый" алгоритм, который пропускает повторы. Яндексовский алгоритм устроен проще и поэтому в заявленных 938 гигабайтах количество дублей выше, чем у нас. Однако, сравнивая по этому параметру нельзя не признать, что после учета всех указанных выше явлений размер базы Яндекса все-таки превосходит рамблеровскую - Яндекс обрабатывает так называемые "динамические" страницы, а мы - нет. 4) Количество документов, найденных по запросу Мы ищем только документы, в которых есть ВСЕ слова запроса, а Яндекс - все, в которых есть хотя бы одно слово. Если подать аналогичный поисковый запрос Рамблеру - числа будут примерно равные. К сожалению, числа, выдаваемые Яндексом, невозможно проверить, так как на этом поисковике нельзя просмотреть больше 100 страниц списка найденного. Рамблер - наоборот, позволяет просмотреть ВСЕ страницы списка. 5) Количество найденных по запросу сайтов (серверов) Мы считаем серверы www.server.ru, koi.server.ru, mac.server.ru и т. д. одним и тем же, а Яндекс - нет. Поэтому количество найденных серверов может различаться в 2-3 раза притом, что найдена одна и та же информация.

130

spark

25 августа 2002, 14:31

#41

Gray

Из крупных только счетчик Пинга может потянуть, да и то надорвется.

Подозреваю, что мужчина, могущий пролить свет на сию проблему в отпуске. Ничего, на днях выйдет и просветит :)

Есть еще БигМир, в принципе. Но я так понял, что дело не в технических проблемах, а в политических. Тут никакой Прайсвотерхауз не поможет. Хотя, положа руку на сердце, я после корпоративных шкандалей в штатах любому, даже легко накручиваемому, счетчику верю больше чем аудиторам :(

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

24

vs

26 августа 2002, 11:11

#42

Илья, благодарю за замечания и поправки. Сожалею, если своими высказываниеми задел Вас и команду разработчиков Яндекса.

Основной недостаток текста на runet.ru даже не в том, что он излишне эмоционален, а в том, что там все вырвано из контекста. Я сам, честно говоря, очень удивился, когда прочитал его там в таком виде. Ну да ладно, постараюсь восстановить утерянное.

Основное, о чем я там говорил - это то, что числа, которые показывают поисковики, нельзя напрямую сравнивать. Повторю свои тезисы более развернуто - с учетом Ваших поправок.

1. Нельзя сравнивать количество найденных серверов.

При одинаковом количестве найденных хостов то, что Рамблер называет "сайтами" и то, что Яндекс называет "серверами" - разные вещи и их количество нельзя сравнивать.

Мы в один элемент списка найденного всегда склеиваем документы с сайта www.xxxx.ru и xxxx.ru на этапе поиска. Поэтому у нас 2 найденных хоста (www.xxxx.ru и xxxx.ru) считаются одним найденным сайтом. Да, это не совсем корректно, есть случаи, когда xxxx.ru и www.xxxx.ru содержат разную информацию. Но сейчас наш способ подсчета

найденных сайтов работает именно так. Кстати, и разные порты одного хоста мы также объединяем. Также мы на runtime клеим и зеркала, хотя и не очень эффективно.

Яндекс, насколько я могу судить об этом снаружи, устроен по другому - там есть отдельный робот, который ходит по сети независимо (или почти независимо) от основного и принимает решения, что такие-то сервера суть зеркала и один из них не надо больше показывать. Это очень хорошее техническое решение, мы сейчас дополнительно к нашему сегодняшнему механизму делаем ровно такую же штуку, но из этого с

очевидностью следует, что пока этот дополнительный робот "зеркалатор" не добрался до кого-нибудь, сайты "живут" несклеенные. На первой странице такое случается редко, пользователи действительно не страдают, но на подсчете отражается.

Я когда-то сделал очень простую вещь - автолюба-образной программой вытащил списки найденного и построил список хостов, отсортировав его как в Зализняке - начиная с последней буквы. Там такие повторы хорошо заметны. Я сейчас специально подобрал запрос, на котором это можно увидеть:

http://www.yandex.ru/yandsearch?text=%C2+%FD%F2%E8+%EF%FF%F2%FC+%EA%E8%EB%EE%E1%E0%E9%F2+%E2%E5%E1-%E4%E8%E7%E0%E9%ED%E5%F0+%E4%EE%EB%E6%E5%ED+%F3%EC%E5%F1%F2%E8%F2%FC+%E2%F1%E5+html-%F4%E0%E9%EB%FB

http://vokruginfo.ru/news/news268.html

http://www.vokruginfo.ru/news/news268.html

Бывает и обртное - мы считаем сайтом подкаталог, начинающийся с тильды

(www.chat.ru/~vasya/...) и поэтому на некоторых запросах при одинаковом количестве найденных хостов мы "насчитаем" больше сайтов, чем Яндекс - серверов.

С уважением, Влад Шабанов vs@rambler-co.ru

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

24

vs

26 августа 2002, 11:14

#43

2. Количество уникальных документов.

Начнем с конца - в Яндексе БОЛЬШЕ документов. БОЛЬШЕ. За счет двух вещей:

1) выкачка динамики и более мягкие правила отсева URL (нет дискриминации по портам и т. д.)

2) автоматическое хождение в зоны .com, .net, .org и т. д. за русскими документами.

А вот делать выводы из срвнения автолюбой нужно с осторожностью, так как разница этих чисел в 40% для пользователей может быть незаметна. И уж конечно, нельзя говорить, что полнота поиска ниже на 40%.

В том внутреннем документе сделано было вот что:

1) взяты списки найденного по однословным запросам (в том числе, конечно же, сигариллы, переверсия и т. д.). Было 10 тыс. URL. Взяты, конечно же, не со стандартной ответной страницы, а со страницы, где результаты не группированы по сайтам - так заметнее дубли.

2) с соответствующих серверов взят robots.txt и выполнена прочистка. Кстати, были хосты с некорректными robots.txt (на одном хосте даже выдавалась главная страница сайта) и был сайт, где Яндексу можно было ходить в каталог /cgi-bin/, а рамблеры - нет. Пришлось для этого сайта притвориться Яндексом :-)

3) выкачаны страницы. Таймауты в 300 секунд считались отсутствием документа. Так, конечно, нельзя, основной наш робот такие страницы удаляет только когда они несколько раз подряд тайм-аутятся, но в рамках эксперимента это, думаю, все же допустимо.

4) напущен наш индексатор и подсчитано, сколько раз он сказал "document is not text" и сколько "наклеил" дублей. Отсюда и числа.

Как видите, отличия от Автолюбы небольшие, но есть.

Отсев URL на каждом этапе - вещь совершенно нормальная. Она показывает, насколько поисковик отличается от идеального, в котором информация обновляется мгновенно. На Рамблере, кстати, сегодня будет намеряно одно число, а к выходным - другое (к выходным должна "выкатиться" новая база).

Еще пример из жизни - был терабайт, выполнили прореживание дублей и стало на 7% меньше. Запустите автолюбу до - получите одно число, после - совсем другое.

Поэтому плохо, когда журналист берет два поисковика, дает им одно и то же слово, и говорит, что в Яндексе в два раза больше информации, не задумываясь о том, что вся, скажем, 30-ая страница Рамблера содержит мусор, а 47-ая страница Яндекса - сплошные дубли.

Чистый от даких явлений эксперимент - запросы, по которым Яндекс хоть что-то находит, а Рамблер - нет. Пример: дефлограция.

3. Все/не все слова запроса

Я проделал простой эксперимент - взял частотные двух-трехсловные запросы, по которым находится небольшое количество документов. В ответной странице Яндека появились "нестрогие соответствия". Конечно же, нечеткий поиск во многих случаях очень полезен - найдется хоть

что-нибудь. Мы в этом смысле хуже - просто говорим, что ничего не найдено и оставляем пользователя наедине с его запросом.

Только вот плохо, когда по числу найденных по таким запросам документов судят о полноте базы (автолюба, этого, разумеется, не делает).

В заключение: я регулярно спрашиваю всех своих знакомых каким поиском они пользуются и почему. Так вот, половина народа говорит, что им нравится желтый цвет, а синий - раздражает, а другая половина - что желтый цвет раздражает, а синий - наоборот, нравится. Вот и оптимизируй после этого поиск :-))

P.S. Спайлоговский счетчик "только поиск" стоит кроме ответной страницы еще и "на голове" (его номер, если я не ошибаюсь, 9940). Он же - и на ya.ru. Вот и сравнивай после этого статистики.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

BB

31

baikal-boy

27 августа 2002, 02:47

#44

Как писал Ashmanov
Грею: конечно, в принципе нужен счётчик, независимый, красивый, быстрый, точный. Дерзайте! Мы накидаем пожеланий по функциональности. Если, конечно, есть 20-30 килобаксов на обзаведение на первое время. А потом нужно будет ещё тыщ 100-150 на год. Дешевле вряд ли получится - там есть "несжимаемые" железо и трафик.

Предлагаю обсудить вопрос создания такого счетчика в отдельном топике

aktex.ru - аккумуляторный информационный портал (http://www.aktex.ru/)

F

2

Fast

9 октября 2003, 21:43

#45

Ворос г-ну из команды Рамблера, если у вас такой уникальный алгоритм, почему в базе индекса рамблера всего 2 ссылки на мой сайт. Я всеми возможными способами пытался узнать есть ли еще, но как оказалось нет. в то время как яндекс проиндексировал более 1500 страниц, это с учетом версий для печати и страниц с коментариями.

Прошу ответить на мой вопрос.

(п.с. в этот топик я попал из яндекса, это так к слову)

Каталог сайтов. обавте и вы свой сайт (http://catalog.compnews.org)

Страница есть в индексе Редиректы со страниц, которых Запрет индексации части страницы?

107

mnt

10 октября 2003, 06:53

#46

Как писал spark
К сожалению, есть еще один параметр, о котором интервьюруемый тактично умолчал. Активность роботов. Естественно, никаких обобщений.

420 0.23% Yandex/1.01.001 (compatible; Win16; I)
240 0.13% Yandex/1.03.000 (compatible; Win16; M)
179 0.10% Yandex/1.01.001 (compatible; Win16; P)
62 0.03% Yandex/1.01.001 (compatible; Win16; H)
1 0.00% Yandex/1.03.003 (compatible; Win16; D)
1 0.00% Yandex/1.01.001 (compatible; Win16; i)

20 0.01% StackRambler/1.4

Активность Фаста и Гугля не привожу из сотрадания к господину Шабанову. А остальное - лирика.

твой сайт роботы не любят, вот мои данные за месяц ;)

зы... вру статистика начала собираться с серидины месяца ;)))

FAST-WebCrawler/3.8 (atw-crawler at fast dot no; http://fast.no/support/crawler.asp) September 7463

Googlebot/2.1 (+http://www.googlebot.com/bot.html) September 5758

StackRambler/2.0 September 2218

Yandex/1.01.001 (compatible; Win16; M) September 744

Yandex/1.01.001 (compatible; Win16; I) September 613

FAST-WebCrawler/3.8/Fresh (atw-crawler at fast dot no; http://fast.no/support/crawler.asp) September 30

Yandex/1.03.000 (compatible; Win16; M) September 28

Mozilla/4.0 (compatible; MSIE 5.0; YANDEX) September 20

Yandex/1.03.003 (compatible; Win16; D) September 10

Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html) September 1

Aport September 1

дорого куплю ссылки с хороших жирных русскоязычных авто сайтов.

eTarget 2011: Круглый стол Отчет о конференции User Интернет-маркетинг в новом десятилетии:

F

2

Fast

10 октября 2003, 13:28

#47

mnt, я так понимаю это ответ мне?

357

euhenio

10 октября 2003, 13:48

#48

Обращайте внимание на год!

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

130

spark

10 октября 2003, 13:49

#49

Нет, это ответ мне :) mnt, посмотри на год предыдущих сообщений, я даже уже не помню, с какого сайта эта статистика, не то чтобы сообразить, за сколько дней месяца она.

G

18

Gosha

10 октября 2003, 13:57

#50

Обращайте внимание на год!

Зато как приятно было перечитать всю забтую дискуссию! :)

С уважением, Егор Ларин.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Все что нужно знать о DDоS-атаках грамотному менеджеру

На runet.ru интервью с Владиславом Шабановым (Rambler)