их либе яность, я, их либе точность, их бин просить не видеть здесь порочность

iseg

5 июня 2001, 18:01

1104

О сравнении поисковых систем по размеру.

Еще раз.

Дисклеймер.

Я _не_ журналист, и _не_ обозреватель поисковых систем. Я жутко аффилированный разработчик. Все, что ниже написано - густой пиар

Если у вас есть претензии к методике - считайте сами

Данные


             яндекс !яндекс    рамблер     апорт      !апорт   альтависта     гугль        фаст
             -------------   ---------   --------------------  ----------   ----------  ---------
перверсия     1320   253     272   21%   912  69%               62    25%   229    91%   733  56%
квадруполь     173    59      44   25%               37   63%   11    19%    56    95%    84  49%
спелеометрия     5     5       1   20%                4   80%    1    20%     4    80%     1  20%
компрачикос    228    21      53   23%   123  54%                1     5%    18    86%    60  26%
внеиндивид-ый  129    13      17   13%                8   62%    1     8%    11    85%    35  27%
контроверсия    91    10      58   64%                9   90%    7    70%    12   120%    83  91%
бладшот         11    11       1    9%               11  100%    2    18%     8    73%     3  27%
абхидхарма     567   243     114   20%              192   79%   31    13%   135    56%   378  67%
паринирвана    179    43      49   27%               15   35%    7    16%    32    74%    69  39%
резольвента    700   420     245   35%   358  51%               34     8%   139    33%   206  29%
сантистокс      87    34      22   25%               23   68%    5    15%    30    88%    52  60%
бриолин        528   305     111   21%   334  63%               32    10%   186    61%   215  41%
вишнуизм       279   158      76   27%              208  132%   25    16%   111    70%   201  72%
аргонавтика    591   507     288   49%              431   85%   24     5%   125    25%   210  36%
бхакти        2848  2848     697   24%             1804   63%  156     5%  2360    83%  2119  74%
анахоретство    28    15      10   36%                8   53%    1     7%    18   120%    10  36%
иподьякон      159    49      45   28%   134  84%               10    20%    45    92%   106  67%
виверра        165    53      59   36%   153  93%                5     9%    45    85%   112  68%
цивета          74    35      13   18%               27   77%    4    11%    15    43%    42  57%
брахиозавр     161    89      46   29%   131  81%               13    15%    76    85%   135  84%
неликвидность  513   256     143   28%              176   69%   43    17%   145    57%   304  59%
инклинометр    295   123      97   33%   207  70%               22    18%    78    63%   140  47%
базед           66    57      13   20%               18   32%    8    14%    26    46%    29  44%
             -------------   ---------   --------------------  ----------   ----------  ---------
                                   27%        71%         72%         16%          74%        51%

Выводы

Никаких выводов. И не думайте меня заставлять.

Можно конечно обрадоваться, что 51/74 в точности повторяет соотношение официальных размеров Фаста и Гугля (см www.searchenginewatch.com), но я этого делать не буду

Расшифровки и уточнения.

1. Регистр.

Все поисковые системы в режиме по умолчанию, и, когда слово набрано маленькими буквами, ищут все варианты данного слова, независимо от верхнего или нижнего регистра.

Именно так и были выполнены все поиски.

2. Страницы vs. сервера.

Результат в таблице - число найденных уникальных страниц (но не серверов).

Здесь есть ряд проблем, но их обсуждение займет слишком много места, поэтому я его опускаю.

3. Cо словоформами vs. без словоформ

Рамблер, Яндекс и Фаст ищут документы со всеми словоформами исходного слова. Так же поступает и Апорт, если слово ему знакомо (результат левой колонки Апорта). Поэтому результаты Рамблера, Фаста и Апорта (левая колонка) нормаровались на результат Яндекса со словоформами (default)

Гугль, Альтависта и Апорт (в случае, когда он не знает данное слово - см. правую колонку Апорта), ищут только заданную словоформу. Поэтому их результат нормировался на поиск Яндекса "без словоформ" (т.н. поиск с восклицательным знаком).

4. Кодировки.

Часть искалок "плоховато" сливают разные кодировки (напр. Фаст, Альтависта, иногда Гугль)

Их рещультаты могут быть немного завышены.

Конец расшифровок и уточнений.

О методике.

Это все сделано, что называется, немного на коленке.

Правильная методика должна делать следующее:

иметь "неаффилированный" источник грамматически корректных редких слов
выполнять запросы и собирать все найденные страницы от всех поисковых систем
для каждой поисковой системы подсчитывать число "дохлых" линков, то есть страниц, которые не найдены на сервере, содержат редирект, или размещены на недоступном сервере
для каждой поисковой системы находить число "абсолютно одинаковых" документов
для каждой поисковой системы находить число "примерно одинаковых" документов (например, не более 10% расхождений, полученных при помощью программы diff)
для каждой пары поисковых систем находить число общих и различных "документов" и "серверов". Уметь строить такую матриц

Если у кого-то из журналистов/обозревателей есть время и желание - пусть воспользуются.

Илья

Что делать, чтобы попасть в ответы Google Bard

Google: E-E-A-T не является фактором ранжирования

их либе яность, я, их либе точность, их бин просить не видеть здесь порочность