Мониторинг размера искалок - сентябрьский выпуск - Яндекс - Поисковые системы

I

80

iseg

6 сентября 2001, 18:50

2386

В продолжение июньского выпуска

, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.

Комментарии к методике и пояснения к таблице там же.

Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.

Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.


             Яндекс !Янд    Рамблер    Апорт    !Апорт   Альтависта  Гугль  Г&filter=0    Фаст
             ------------   --------  -----------------  --------   ------------------  --------
перверсия     2677  348     683  25%  1067 39%            61  17%   164  47%  306  87%   692 25%
квадруполь     168   69      49  29%            36  52%    8  11%    33  47%   40  58%    85 50%
спелеометрия     5    4       2  40%             4 100%    0   0%     2  50%    2  50%     2 40%
компрачикосы   199   81      87  43%   112 56%            10  12%    41  50%   71  87%   138 69%
внеиндивид-ый  135   21      59  43%            12  57%    0   0%     7  33%   11  52%    39 28%
контроверсия   104   20      77  74%             7  35%    5  25%     9  45%    9  45%    70 67%
бладшот         14   14       2  14%             7  50%    2  14%     5  35%    8  57%     2 14%
абхидхарма     604  264     235  38%           209  79%   25   9%   103  39%  203  76%   311 51%
паринирвана    228   55     108  47%            29  52%    6  10%    27  49%   38  69%    89 39%
резольвента    755  444     311  41%   345 45%            33   7%   103  23%  171  38%   240 31%
сантистокс      85   39      46  54%            26  66%    5  12%    20  51%   28  71%    66 77%
сигариллы     2937 2199     628  21%           897  40%   61   2%   226  10%  602  27%   558 19%
бриолин        709  369     235  33%   350 49%            30   8%   145  39%  231  62%   227 32%
вишнуизм       359  200     159  44%           161  80%   23  11%    81  40%  148  74%   177 49%
аргонавтика    664  567     345  52%           552  97%   21   3%    72  12%  520  91%   228 34%
бхакти        3914 4091    1503  38%          1713  41%  157   3%   460  11% 2270  55%  2411 61%
анахоретство    34   19      20  58%            11  57%    1   5%    16  84%   30 157%    31 91%
иподьякон      179   60      82  45%   128 71%            10  16%    35  58%   47  78%   106 59%
виверра        225   78      99  44%   131 58%             5   6%    30  38%   37  47%   115 51%
цивета         112   49      35  31%            40  81%    5  10%    19  38%   35  71%    42 37%
брахиозавр     393  293      70  17%   205 52%            14   4%    47  16%  130  44%   154 39%
неликвидность  524  260     258  49%           164  63%   43  16%    87  33%  176  67%   286 54%
инклинометр    343  130     164  47%   233 67%            25  19%    56  43%  119  91%   117 34%
базед          202  109      13   6%            20  18%    8   7%    24  22%   55  50%    29 14%
             ------------   --------   ----------------  --------   ------------------   -------
                                 39%       55%      60%        9%        38%       67%       44%

Комментария и дополнительные пояснения.

Яндекс: 100%
Рамблер: 37,3%
Апорт: 55,1%/60,9% (по словоформам/словам)
Альтависта: 9,9%
Гугль: 38,4%/67,3% (default/нефильтрованный)
Фаст: 44,7%

Для сравнения:

Яндекс - 135,2%/137,9%. (слова/словоформы)Для сравнения, по официальным Яндекса рост за лето составил 129.1%/124,3% (в документах/в байтах)
Рамблер - 190,6%
Апорт - 107,4%/112,8% (слова/словоформы)
Альтависта - 88,7%
Гугль - 70,5%/110,0% (default/нефильтрованный)
Фаст - 113,0%

наблюдается интенсивный рост Рамблера (с нуля это нетрудно, Влад, не обижайтесь )
Фаст, Апорт выросли примерно на 10%
Гугль стал по другому фильтровать выдачу -сразу же стал сообщать полное (нефильтрованное) число найденного, но по списку при этом можно ходить только по первой "фильтрованной" части. Только дойдя до конца default-ной выдачи можно теперь узнать размер фильтрованной части. Полное число найденного ("нефильтрованное") выросло примерно так же как и у Фаста с Апортом - то есть на 10%. Надо заметить, что фильтрация заметно усилилась. NB: В июньской публикации нефильтрованных данных не было, я их посчитал чуть позже - на следующий день.
30-процентный рост яндекса объясняется двумя факторами - ..skipped..
Грубо картина выглядит сейчас так: яндекс 100, гугль 70, апорт 60, фаст 50, рамблер 40

С уважением,

Илья

V

24

vs

7 сентября 2001, 19:54

#1

2 iseg

Илья, спасибо за информацию.

Кстати, можно ли в Яндексе поискать только

документы, находимые по ссылкам (ну, вроде

www.nyse.com)? Я нашел только косвенный

способ: $anchor (New York Stock Exchange),

но это не совсем то, что надо.

На указанные в таблице словах ссылочных

документов почти нет (или вообще нет,

я до конца все списки не просматривал), а

вот когда мне захотелось посмотреть другие

запросы, тут я и попал - показываются

документы, где была ссылка, и плюс к ним

документы, куда эта ссылка вела.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 07-09-2001).]

С уважением, Влад Шабанов vs@rambler-co.ru

Малоценная или маловостребованная страница Опубликован Реестр провайдеров хостинга Упал доход

N

0

nharin

7 сентября 2001, 21:00

#2

Originally posted by iseg:
В продолжение июньского выпуска
, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.

Комментарии к методике и пояснения к таблице там же.

Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.

Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.

Яндекс !Янд Рамблер Апорт !Апорт Альтависта Гугль Г&filter=0 Фаст
------------ -------- ----------------- --------

Представляется, что используемая методика оценки объема базы данных не вполне совершенна. Если по некоторому запросу 1-я поисковая система находит N1 документов, а 2-я система - N2 документов, причем N1>N2, то, строго говоря, данное обстоятельство вовсе не означает, что применительно к рассматриваемому запросу у 1-й системы более полная база, чем у 2-й. Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.

Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.

С уважением,

Николай Харин

Методика определения отключения ссылочного Методика Н. Харина-И.Ашманова для Nigma посчитала объем Рунета

1183

wolf

7 сентября 2001, 21:37

#3

Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию )

А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

7 сентября 2001, 22:12

#4

Originally posted by wolf:
А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)

Я четыре года ждал, пока "подобные изыскания" кто-нибудь в данной стране соблаговолит произвести.

Устал, знаете ли. Да и любовь к себе покоя не дает.

I

80

iseg

7 сентября 2001, 22:25

#5

Originally posted by vs:
Илья, спасибо за информацию.

Так все-таки, Рамблер за лето вырос на 90%?

Кстати, можно ли в Яндексе поискать только
документы, находимые по ссылкам (ну, вроде
www.nyse.com)? Я нашел только косвенный
способ: $anchor (New York Stock Exchange),
но это не совсем то, что надо.

Ниже адаптированный фрагмент нашей текущей YACC-спецификации.

some_factor:

...

| zone '[' expression ']'

| attr '[' expression ']'

| zone '#' attr '[' expression ']'

| zone '#' attr

| attr

| '#' attr

....

zone : IDENT

;

attr: a_name '=' '(' a_request ')'

| a_name relation a_value

;

a_name : IDENT

;

a_request : subexpression

;

relation :

'<'

| '<="

| '=='

| '>='

| '>

;

a_value :

ATTR_VALUE

Необходимые пояснения:

ATTR_VALUE - это нечто в кавычках. Последний символ перед кавычками может быть звездочкой.

IDENT - это последовательность букв и цифр начинающихся с буквы.

expression, subexpression - практически то же самое, что и запрос

Форма a_name '=' '(' a_request ')'

относится к "токенизируемым" атрибутам. Сейчас это keywords (kw), abstract и hint

Форма a_name relation a_value

относится к "литеральным" атрибутам. Сейчас это url, link и еще миллион других.

Все это у нас называется зонно-атрибутивный поиск и работает года так с 1997-го. (с небольшими изменениями в синтаксисе)

Пользователи Яndex.Lib и Яndex.CD всегда знали об этих возможностях.

Мы не открывали(ем) всех их публично из опасения прогрузки большого поиска. Хотя недавно этот поиск раза в два ускорился, может быть скоро откроем.

Пара примеров (извините за неполноту - очень занят):

link="URL"
a [запрос] или

anchor [запрос]

link="URL" [запрос]
a#link="URL" [запрос]
a#link="URL"

С уважением,

Илья

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

7 сентября 2001, 23:10

#6

Здравствуйте, Николай.

Originally posted by nharin:

Представляется, что используемая методика оценки объема базы данных не вполне совершенна.

Отчасти. В своем первоначальном постинге я назвал ее "наколеночной".

Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе

Этот момент подробно обсуждался в исходном постинге тоже. Тем не менее, раз пошла такая пьянка , давайте еще раз, подробнее:

"неморфлогические" поиски, такие как Гугль и часть результатов Апорта, нормируются на поиск Яндекса по точной словоформе.
Слова выбраны таким образом, чтобы уменьшить (свести до нуля) влияние разных морфологически алгоритмов.
В частности, слова все "маленькие" и результаты можно глазами посмотреть и убедиться что расхождений нет.
Морфологические модели Фаста, Рамблера, Апорта и Яндекса идентичны по всем спорным моментам. А именно:

границы частей речи не пересекаются (т.е. словообразование при поиске не используется)
причастия считаются глаголами
отглагольные существительные в парадигмы глаголов не включаются
наречия и прилагательные в одну парадигму не входят

Теперь по поводу "мощности мофрологии". Модели всех слов очень простые. Документов находится мало. Даже в несловарных случаях все можно посмотреть и проверить. Не могли бы Вы привести пример слова, которое Яндекс "перелемматизировал", а Рамблер или Фаст "недолемматизировали"?
Серьезным подтверждением моей уверенности служит стабильность измерений размера Апорта при нормировании на слова и формы Яндекса.

и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных.

Это не совсем так. Физический размер базы отражается, в любом случае точно, хотя "логический" нет.

Я планирую в "меряющем скрипте" проводить обе проверки на дублирование, которые упомянуты в исходном постинге. "Четкую" по контрольной суммме и "нечеткую" по Левенштейну.

Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.
Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.

Это, по видимому не относится к цифрам относительного роста баз. Так как способ поиска один и тот же. (за исключением ситуации смены алгоритмов - но, похоже, этого не случилось)

В остальном совершенно с Вами согласен. Контуры улучшенной методики в исходном постинге тоже описаны.

Я как раз сейчас для круглого стола на АДЭ (от Вас там выступает Иванов), реанимирую наш старый скрипт, который делал примерно это же в году 1998-1999. Яндекс по размеру базы тогда неуклонно догонял и перегонял Рамблер.

Результат, видимо будет "public domain", чтобы любой заинтересованный человек мог исправить ошибки, перемерять, поменять список слов и т.д.

С уважением,
Николай Харин

С уважением,

Илья Сегалович

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

7 сентября 2001, 23:18

#7

Originally posted by wolf:
Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию

Обе цифры верны. Первая дана с учетом непроиндексированных документов (в базе гугля только ссылки на них), вторая - такая же официальная и тоже исходит от Гугля - число "реально приндексированных" разных документов.

Вообще эти "две цифры" и их обсуждение фигурируют везде где только можно уже года два как.

Кстати, последние известия - в Гугле уже есть "реально проиндексированный" миллиард.

Но если судить по русской части - то 800+10% - все-таки больше похоже на 900 миллионов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

0

nharin

11 сентября 2001, 20:43

#8

Прежде всего, должен уточнить, что морфологию и дубли я упомянул просто как возможные факторы, влияющие на количество найденных по запросу документов, не имея в виду никаких конкретных поисковых машин.

Далее, обсуждаемая методика вполне может использоваться в качестве предварительного теста при сравнении объемов баз данных различных систем. Несомненные ее преимущества - низкая трудоемкость и высокая оперативность. Недостаток же методики в том, что полученные с ее помощью результаты могут быть легко оспорены. Вот, собственно, и все.

Что касается точной методики, от результатов применения которой, грубо говоря, не отвертишься, то это отдельный вопрос, который, возможно, не так уж, на самом деле, и интересен. По-моему, совсем не очевидно, что двойной рост базы данных системы в такой же пропорции увеличивает ее качество. Базы данных всех трех основных рунетовских поисковых машин достаточно велики и по типовому запросу в них находится громадное количество документов. Поэтому намного важнее не объем базы, а качество ранжирования и способ представления найденных документов. Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%). Для пользователей, задающих такие запросы, объем базы, конечно, очень важен. Для основной же массы пользователей нет особой разницы между понятиями "много" и "очень много".

С уважением,

Николай Харин

Апорт наращивает мощность и «Свежесть» как фактор в Коммерческие факторы. Доверие

MM

0

Mishael Maslov

12 сентября 2001, 03:00

#9

Originally posted by nharin:
... Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%).

Николай, Ваше последнее утверждение мне показалось весьма странным.

Вот статистика по количеству найденных документов по выборке из ок. 1000000 запросов к Яндексу (за 6 сентября 2001 года, четверг)

больше 10000 док-тов - 24.7039% запросов

от 10000 до 1000 док-тов - 21.3845% запросов

от 1000 до 100 док-тов - 21.4794% запросов

от 100 до 10 док-тов - 13.9635% запросов

от 10 до 1 док-тов - 8.37546% запросов

0 док-тов - 10.0933 запросов

Примечания.

1. Указывается общее число найденных док-тов, в том числе и с "нестрогим соответствием"

2. Среди случаев, когда ничего не находится, заметную часть (на глаз - процентов 20-30) составляют запросы с синтаксической ошибкой.

Основной вывод следующий: "специфических", как Вы их назвали, запросов _много_: порядка 25-30% (а не 3%). Их нельзя игнорировать - по крайней мере Яндексу.

Может, на Рамблере пользователи совсем другие?

Хотелось бы поэтому увидеть подобную статистику для

Рамблера (и вообще, хоть какую-нибудь статистику по запросам к Рамблеру)

С уважением,

Михаил Маслов

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

12 сентября 2001, 14:05

#10

Михаил, а теперь скажите, сколько из этих "специфических" запросов составляли запросы, состоящие из одного слова, подобные тем, что использовал Илья Сегалович в своих изысканиях. Я думаю, возьми он словосочетания, которые и составляют подавляющее большинство "специфических" запросов (т.е. которым удовлетворяет относительно небольшое количество документов) результаты изысканий могли быть совсем другими.

[This message has been edited by wolf (edited 12-09-2001).]

Новая логика работы операторов Фокусы с фордами или Google анонсировал статистику запросов

Переиграть и победить: как анализировать конкурентов для продвижения сайта

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Мониторинг размера искалок - сентябрьский выпуск