их либе яность, я, их либе точность, их бин просить не видеть здесь порочность

I
На сайте с 15.12.2000
Offline
80
1091

О сравнении поисковых систем по размеру.

Еще раз.

Дисклеймер.

Я _не_ журналист, и _не_ обозреватель поисковых систем. Я жутко аффилированный разработчик. Все, что ниже написано - густой пиар

Если у вас есть претензии к методике - считайте сами

Данные


яндекс !яндекс рамблер апорт !апорт альтависта гугль фаст
------------- --------- -------------------- ---------- ---------- ---------
перверсия 1320 253 272 21% 912 69% 62 25% 229 91% 733 56%
квадруполь 173 59 44 25% 37 63% 11 19% 56 95% 84 49%
спелеометрия 5 5 1 20% 4 80% 1 20% 4 80% 1 20%
компрачикос 228 21 53 23% 123 54% 1 5% 18 86% 60 26%
внеиндивид-ый 129 13 17 13% 8 62% 1 8% 11 85% 35 27%
контроверсия 91 10 58 64% 9 90% 7 70% 12 120% 83 91%
бладшот 11 11 1 9% 11 100% 2 18% 8 73% 3 27%
абхидхарма 567 243 114 20% 192 79% 31 13% 135 56% 378 67%
паринирвана 179 43 49 27% 15 35% 7 16% 32 74% 69 39%
резольвента 700 420 245 35% 358 51% 34 8% 139 33% 206 29%
сантистокс 87 34 22 25% 23 68% 5 15% 30 88% 52 60%
бриолин 528 305 111 21% 334 63% 32 10% 186 61% 215 41%
вишнуизм 279 158 76 27% 208 132% 25 16% 111 70% 201 72%
аргонавтика 591 507 288 49% 431 85% 24 5% 125 25% 210 36%
бхакти 2848 2848 697 24% 1804 63% 156 5% 2360 83% 2119 74%
анахоретство 28 15 10 36% 8 53% 1 7% 18 120% 10 36%
иподьякон 159 49 45 28% 134 84% 10 20% 45 92% 106 67%
виверра 165 53 59 36% 153 93% 5 9% 45 85% 112 68%
цивета 74 35 13 18% 27 77% 4 11% 15 43% 42 57%
брахиозавр 161 89 46 29% 131 81% 13 15% 76 85% 135 84%
неликвидность 513 256 143 28% 176 69% 43 17% 145 57% 304 59%
инклинометр 295 123 97 33% 207 70% 22 18% 78 63% 140 47%
базед 66 57 13 20% 18 32% 8 14% 26 46% 29 44%
------------- --------- -------------------- ---------- ---------- ---------
27% 71% 72% 16% 74% 51%

Выводы

Никаких выводов. И не думайте меня заставлять.

Можно конечно обрадоваться, что 51/74 в точности повторяет соотношение официальных размеров Фаста и Гугля (см www.searchenginewatch.com), но я этого делать не буду

Расшифровки и уточнения.

1. Регистр.

Все поисковые системы в режиме по умолчанию, и, когда слово набрано маленькими буквами, ищут все варианты данного слова, независимо от верхнего или нижнего регистра.

Именно так и были выполнены все поиски.

2. Страницы vs. сервера.

Результат в таблице - число найденных уникальных страниц (но не серверов).

Здесь есть ряд проблем, но их обсуждение займет слишком много места, поэтому я его опускаю.

3. Cо словоформами vs. без словоформ

Рамблер, Яндекс и Фаст ищут документы со всеми словоформами исходного слова. Так же поступает и Апорт, если слово ему знакомо (результат левой колонки Апорта). Поэтому результаты Рамблера, Фаста и Апорта (левая колонка) нормаровались на результат Яндекса со словоформами (default)

Гугль, Альтависта и Апорт (в случае, когда он не знает данное слово - см. правую колонку Апорта), ищут только заданную словоформу. Поэтому их результат нормировался на поиск Яндекса "без словоформ" (т.н. поиск с восклицательным знаком).

4. Кодировки.

Часть искалок "плоховато" сливают разные кодировки (напр. Фаст, Альтависта, иногда Гугль)

Их рещультаты могут быть немного завышены.

Конец расшифровок и уточнений.

О методике.

Это все сделано, что называется, немного на коленке.

Правильная методика должна делать следующее:

  • иметь "неаффилированный" источник грамматически корректных редких слов
  • выполнять запросы и собирать все найденные страницы от всех поисковых систем
  • для каждой поисковой системы подсчитывать число "дохлых" линков, то есть страниц, которые не найдены на сервере, содержат редирект, или размещены на недоступном сервере
  • для каждой поисковой системы находить число "абсолютно одинаковых" документов
  • для каждой поисковой системы находить число "примерно одинаковых" документов (например, не более 10% расхождений, полученных при помощью программы diff)
  • для каждой пары поисковых систем находить число общих и различных "документов" и "серверов". Уметь строить такую матриц


Если у кого-то из журналистов/обозревателей есть время и желание - пусть воспользуются.

Илья

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий