Мониторинг размера искалок - сентябрьский выпуск

12
I
На сайте с 15.12.2000
Offline
80
2365

В продолжение июньского выпуска

, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.

Комментарии к методике и пояснения к таблице там же.

Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.

Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.


Яндекс !Янд Рамблер Апорт !Апорт Альтависта Гугль Г&filter=0 Фаст
------------ -------- ----------------- -------- ------------------ --------
перверсия 2677 348 683 25% 1067 39% 61 17% 164 47% 306 87% 692 25%
квадруполь 168 69 49 29% 36 52% 8 11% 33 47% 40 58% 85 50%
спелеометрия 5 4 2 40% 4 100% 0 0% 2 50% 2 50% 2 40%
компрачикосы 199 81 87 43% 112 56% 10 12% 41 50% 71 87% 138 69%
внеиндивид-ый 135 21 59 43% 12 57% 0 0% 7 33% 11 52% 39 28%
контроверсия 104 20 77 74% 7 35% 5 25% 9 45% 9 45% 70 67%
бладшот 14 14 2 14% 7 50% 2 14% 5 35% 8 57% 2 14%
абхидхарма 604 264 235 38% 209 79% 25 9% 103 39% 203 76% 311 51%
паринирвана 228 55 108 47% 29 52% 6 10% 27 49% 38 69% 89 39%
резольвента 755 444 311 41% 345 45% 33 7% 103 23% 171 38% 240 31%
сантистокс 85 39 46 54% 26 66% 5 12% 20 51% 28 71% 66 77%
сигариллы 2937 2199 628 21% 897 40% 61 2% 226 10% 602 27% 558 19%
бриолин 709 369 235 33% 350 49% 30 8% 145 39% 231 62% 227 32%
вишнуизм 359 200 159 44% 161 80% 23 11% 81 40% 148 74% 177 49%
аргонавтика 664 567 345 52% 552 97% 21 3% 72 12% 520 91% 228 34%
бхакти 3914 4091 1503 38% 1713 41% 157 3% 460 11% 2270 55% 2411 61%
анахоретство 34 19 20 58% 11 57% 1 5% 16 84% 30 157% 31 91%
иподьякон 179 60 82 45% 128 71% 10 16% 35 58% 47 78% 106 59%
виверра 225 78 99 44% 131 58% 5 6% 30 38% 37 47% 115 51%
цивета 112 49 35 31% 40 81% 5 10% 19 38% 35 71% 42 37%
брахиозавр 393 293 70 17% 205 52% 14 4% 47 16% 130 44% 154 39%
неликвидность 524 260 258 49% 164 63% 43 16% 87 33% 176 67% 286 54%
инклинометр 343 130 164 47% 233 67% 25 19% 56 43% 119 91% 117 34%
базед 202 109 13 6% 20 18% 8 7% 24 22% 55 50% 29 14%
------------ -------- ---------------- -------- ------------------ -------
39% 55% 60% 9% 38% 67% 44%

Комментария и дополнительные пояснения.

    Относительные размеры баз от 5 сентября
  • Яндекс: 100%
  • Рамблер: 37,3%
  • Апорт: 55,1%/60,9% (по словоформам/словам)
  • Альтависта: 9,9%
  • Гугль: 38,4%/67,3% (default/нефильтрованный)
  • Фаст: 44,7%

Для сравнения:

    Относительный размер баз к июньским данным примерно:
  • Яндекс - 135,2%/137,9%. (слова/словоформы)Для сравнения, по официальным Яндекса рост за лето составил 129.1%/124,3% (в документах/в байтах)
  • Рамблер - 190,6%
  • Апорт - 107,4%/112,8% (слова/словоформы)
  • Альтависта - 88,7%
  • Гугль - 70,5%/110,0% (default/нефильтрованный)
  • Фаст - 113,0%
    Выводы
  • наблюдается интенсивный рост Рамблера (с нуля это нетрудно, Влад, не обижайтесь )
  • Фаст, Апорт выросли примерно на 10%
  • Гугль стал по другому фильтровать выдачу -сразу же стал сообщать полное (нефильтрованное) число найденного, но по списку при этом можно ходить только по первой "фильтрованной" части. Только дойдя до конца default-ной выдачи можно теперь узнать размер фильтрованной части. Полное число найденного ("нефильтрованное") выросло примерно так же как и у Фаста с Апортом - то есть на 10%. Надо заметить, что фильтрация заметно усилилась. NB: В июньской публикации нефильтрованных данных не было, я их посчитал чуть позже - на следующий день.
  • 30-процентный рост яндекса объясняется двумя факторами - ..skipped..
  • Грубо картина выглядит сейчас так: яндекс 100, гугль 70, апорт 60, фаст 50, рамблер 40

С уважением,

Илья

V
На сайте с 20.06.2001
Offline
24
vs
#1

2 iseg

Илья, спасибо за информацию.

Кстати, можно ли в Яндексе поискать только

документы, находимые по ссылкам (ну, вроде

www.nyse.com)? Я нашел только косвенный

способ: $anchor (New York Stock Exchange),

но это не совсем то, что надо.

На указанные в таблице словах ссылочных

документов почти нет (или вообще нет,

я до конца все списки не просматривал), а

вот когда мне захотелось посмотреть другие

запросы, тут я и попал - показываются

документы, где была ссылка, и плюс к ним

документы, куда эта ссылка вела.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 07-09-2001).]

С уважением, Влад Шабанов vs@rambler-co.ru
N
На сайте с 07.09.2001
Offline
0
#2

<font face="Verdana" size="2">Originally posted by iseg:
В продолжение июньского выпуска
, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.

Комментарии к методике и пояснения к таблице там же.

Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.

Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.


Яндекс !Янд Рамблер Апорт !Апорт Альтависта Гугль Г&filter=0 Фаст
------------ -------- ----------------- --------
</font>

Представляется, что используемая методика оценки объема базы данных не вполне совершенна. Если по некоторому запросу 1-я поисковая система находит N1 документов, а 2-я система - N2 документов, причем N1&gt;N2, то, строго говоря, данное обстоятельство вовсе не означает, что применительно к рассматриваемому запросу у 1-й системы более полная база, чем у 2-й. Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.

Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.

С уважением,

Николай Харин

wolf
На сайте с 13.03.2001
Offline
1183
#3

Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию )

А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
I
На сайте с 15.12.2000
Offline
80
#4

<font face="Verdana" size="2">Originally posted by wolf:
А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)</font>

Я четыре года ждал, пока "подобные изыскания" кто-нибудь в данной стране соблаговолит произвести.

Устал, знаете ли. Да и любовь к себе покоя не дает.

I
На сайте с 15.12.2000
Offline
80
#5

<font face="Verdana" size="2">Originally posted by vs:
Илья, спасибо за информацию.</font>

Так все-таки, Рамблер за лето вырос на 90%?

<font face="Verdana" size="2">
Кстати, можно ли в Яндексе поискать только
документы, находимые по ссылкам (ну, вроде
www.nyse.com)? Я нашел только косвенный
способ: $anchor (New York Stock Exchange),
но это не совсем то, что надо.
</font>

Ниже адаптированный фрагмент нашей текущей YACC-спецификации.

some_factor:

...

| zone '[' expression ']'

| attr '[' expression ']'

| zone '#' attr '[' expression ']'

| zone '#' attr

| attr

| '#' attr

....

zone : IDENT

;

attr: a_name '=' '(' a_request ')'

| a_name relation a_value

;

a_name : IDENT

;

a_request : subexpression

;

relation :

'&lt;'

| '&lt;="

| '=='

| '&gt;='

| '&gt;

;

a_value :

ATTR_VALUE

Необходимые пояснения:

ATTR_VALUE - это нечто в кавычках. Последний символ перед кавычками может быть звездочкой.

IDENT - это последовательность букв и цифр начинающихся с буквы.

expression, subexpression - практически то же самое, что и запрос

Форма a_name '=' '(' a_request ')'

относится к "токенизируемым" атрибутам. Сейчас это keywords (kw), abstract и hint

Форма a_name relation a_value

относится к "литеральным" атрибутам. Сейчас это url, link и еще миллион других.

Все это у нас называется зонно-атрибутивный поиск и работает года так с 1997-го. (с небольшими изменениями в синтаксисе)

Пользователи Яndex.Lib и Яndex.CD всегда знали об этих возможностях.

Мы не открывали(ем) всех их публично из опасения прогрузки большого поиска. Хотя недавно этот поиск раза в два ускорился, может быть скоро откроем.

Пара примеров (извините за неполноту - очень занят):

  • link="URL"
  • a [запрос] или
  • anchor [запрос]
  • link="URL" [запрос]
  • a#link="URL" [запрос]
  • a#link="URL"

С уважением,

Илья

I
На сайте с 15.12.2000
Offline
80
#6

Здравствуйте, Николай.

<font face="Verdana" size="2">Originally posted by nharin:

Представляется, что используемая методика оценки объема базы данных не вполне совершенна.
</font>

Отчасти. В своем первоначальном постинге я назвал ее "наколеночной".

<font face="Verdana" size="2">Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе</font>

Этот момент подробно обсуждался в исходном постинге тоже. Тем не менее, раз пошла такая пьянка , давайте еще раз, подробнее:

  • "неморфлогические" поиски, такие как Гугль и часть результатов Апорта, нормируются на поиск Яндекса по точной словоформе.
  • Слова выбраны таким образом, чтобы уменьшить (свести до нуля) влияние разных морфологически алгоритмов.
  • В частности, слова все "маленькие" и результаты можно глазами посмотреть и убедиться что расхождений нет.
  • Морфологические модели Фаста, Рамблера, Апорта и Яндекса идентичны по всем спорным моментам. А именно:
    • границы частей речи не пересекаются (т.е. словообразование при поиске не используется)
    • причастия считаются глаголами
    • отглагольные существительные в парадигмы глаголов не включаются
    • наречия и прилагательные в одну парадигму не входят
    Заметьте, что глаголов и отглагольных существительных в списке нет. На всякий случай.
  • Теперь по поводу "мощности мофрологии". Модели всех слов очень простые. Документов находится мало. Даже в несловарных случаях все можно посмотреть и проверить. Не могли бы Вы привести пример слова, которое Яндекс "перелемматизировал", а Рамблер или Фаст "недолемматизировали"?
  • Серьезным подтверждением моей уверенности служит стабильность измерений размера Апорта при нормировании на слова и формы Яндекса.

<font face="Verdana" size="2"> и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. </font>

Это не совсем так. Физический размер базы отражается, в любом случае точно, хотя "логический" нет.

Я планирую в "меряющем скрипте" проводить обе проверки на дублирование, которые упомянуты в исходном постинге. "Четкую" по контрольной суммме и "нечеткую" по Левенштейну.

<font face="Verdana" size="2">Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.
Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.
</font>

Это, по видимому не относится к цифрам относительного роста баз. Так как способ поиска один и тот же. (за исключением ситуации смены алгоритмов - но, похоже, этого не случилось)

В остальном совершенно с Вами согласен. Контуры улучшенной методики в исходном постинге тоже описаны.

Я как раз сейчас для круглого стола на АДЭ (от Вас там выступает Иванов), реанимирую наш старый скрипт, который делал примерно это же в году 1998-1999. Яндекс по размеру базы тогда неуклонно догонял и перегонял Рамблер.

Результат, видимо будет "public domain", чтобы любой заинтересованный человек мог исправить ошибки, перемерять, поменять список слов и т.д.

<font face="Verdana" size="2">
С уважением,
Николай Харин
</font>

С уважением,

Илья Сегалович

I
На сайте с 15.12.2000
Offline
80
#7

<font face="Verdana" size="2">Originally posted by wolf:
Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию </font>

Обе цифры верны. Первая дана с учетом непроиндексированных документов (в базе гугля только ссылки на них), вторая - такая же официальная и тоже исходит от Гугля - число "реально приндексированных" разных документов.

Вообще эти "две цифры" и их обсуждение фигурируют везде где только можно уже года два как.

Кстати, последние известия - в Гугле уже есть "реально проиндексированный" миллиард.

Но если судить по русской части - то 800+10% - все-таки больше похоже на 900 миллионов.

N
На сайте с 07.09.2001
Offline
0
#8

Прежде всего, должен уточнить, что морфологию и дубли я упомянул просто как возможные факторы, влияющие на количество найденных по запросу документов, не имея в виду никаких конкретных поисковых машин.

Далее, обсуждаемая методика вполне может использоваться в качестве предварительного теста при сравнении объемов баз данных различных систем. Несомненные ее преимущества - низкая трудоемкость и высокая оперативность. Недостаток же методики в том, что полученные с ее помощью результаты могут быть легко оспорены. Вот, собственно, и все.

Что касается точной методики, от результатов применения которой, грубо говоря, не отвертишься, то это отдельный вопрос, который, возможно, не так уж, на самом деле, и интересен. По-моему, совсем не очевидно, что двойной рост базы данных системы в такой же пропорции увеличивает ее качество. Базы данных всех трех основных рунетовских поисковых машин достаточно велики и по типовому запросу в них находится громадное количество документов. Поэтому намного важнее не объем базы, а качество ранжирования и способ представления найденных документов. Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%). Для пользователей, задающих такие запросы, объем базы, конечно, очень важен. Для основной же массы пользователей нет особой разницы между понятиями "много" и "очень много".

С уважением,

Николай Харин

MM
На сайте с 26.08.2001
Offline
0
#9

<font face="Verdana" size="2">Originally posted by nharin:
... Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%).
</font>

Николай, Ваше последнее утверждение мне показалось весьма странным.

Вот статистика по количеству найденных документов по выборке из ок. 1000000 запросов к Яндексу (за 6 сентября 2001 года, четверг)

больше 10000 док-тов - 24.7039% запросов

от 10000 до 1000 док-тов - 21.3845% запросов

от 1000 до 100 док-тов - 21.4794% запросов

от 100 до 10 док-тов - 13.9635% запросов

от 10 до 1 док-тов - 8.37546% запросов

0 док-тов - 10.0933 запросов

Примечания.

1. Указывается общее число найденных док-тов, в том числе и с "нестрогим соответствием"

2. Среди случаев, когда ничего не находится, заметную часть (на глаз - процентов 20-30) составляют запросы с синтаксической ошибкой.

Основной вывод следующий: "специфических", как Вы их назвали, запросов _много_: порядка 25-30% (а не 3%). Их нельзя игнорировать - по крайней мере Яндексу.

Может, на Рамблере пользователи совсем другие?

Хотелось бы поэтому увидеть подобную статистику для

Рамблера (и вообще, хоть какую-нибудь статистику по запросам к Рамблеру)

С уважением,

Михаил Маслов

wolf
На сайте с 13.03.2001
Offline
1183
#10

Михаил, а теперь скажите, сколько из этих "специфических" запросов составляли запросы, состоящие из одного слова, подобные тем, что использовал Илья Сегалович в своих изысканиях. Я думаю, возьми он словосочетания, которые и составляют подавляющее большинство "специфических" запросов (т.е. которым удовлетворяет относительно небольшое количество документов) результаты изысканий могли быть совсем другими.

[This message has been edited by wolf (edited 12-09-2001).]

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий