Мониторинг размера искалок - сентябрьский выпуск - Яндекс - Поисковые системы - Форум об интернет-маркетинге

iseg · 2001-09-06T18:50:00.0000000Z

В продолжение июньского выпуска , отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня. Комментарии к методике и пояснения к таблице там же. Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября. Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях. Яндекс !Янд Рамблер Апорт !Апорт Альтависта Гугль Г&filter=0 Фаст ------------ -------- ----------------- -------- ------------------ -------- перверсия 2677 348 683 25% 1067 39% 61 17% 164 47% 306 87% 692 25% квадруполь 168 69 49 29% 36 52% 8 11% 33 47% 40 58% 85 50% спелеометрия 5 4 2 40% 4 100% 0 0% 2 50% 2 50% 2 40% компрачикосы 199 81 87 43% 112 56% 10 12% 41 50% 71 87% 138 69% внеиндивид-ый 135 21 59 43% 12 57% 0 0% 7 33% 11 52% 39 28% контроверсия 104 20 77 74% 7 35% 5 25% 9 45% 9 45% 70 67% бладшот 14 14 2 14% 7 50% 2 14% 5 35% 8 57% 2 14% абхидхарма 604 264 235 38% 209 79% 25 9% 103 39% 203 76% 311 51% паринирвана 228 55 108 47% 29 52% 6 10% 27 49% 38 69% 89 39% резольвента 755 444 311 41% 345 45% 33 7% 103 23% 171 38% 240 31% сантистокс 85 39 46 54% 26 66% 5 12% 20 51% 28 71% 66 77% сигариллы 2937 2199 628 21% 897 40% 61 2% 226 10% 602 27% 558 19% бриолин 709 369 235 33% 350 49% 30 8% 145 39% 231 62% 227 32% вишнуизм 359 200 159 44% 161 80% 23 11% 81 40% 148 74% 177 49% аргонавтика 664 567 345 52% 552 97% 21 3% 72 12% 520 91% 228 34% бхакти 3914 4091 1503 38% 1713 41% 157 3% 460 11% 2270 55% 2411 61% анахоретство 34 19 20 58% 11 57% 1 5% 16 84% 30 157% 31 91% иподьякон 179 60 82 45% 128 71% 10 16% 35 58% 47 78% 106 59% виверра 225 78 99 44% 131 58% 5 6% 30 38% 37 47% 115 51% цивета 112 49 35 31% 40 81% 5 10% 19 38% 35 71% 42 37% брахиозавр 393 293 70 17% 205 52% 14 4% 47 16% 130 44% 154 39% неликвидность 524 260 258 49% 164 63% 43 16% 87 33% 176 67% 286 54% инклинометр 343 130 164 47% 233 67% 25 19% 56 43% 119 91% 117 34% базед 202 109 13 6% 20 18% 8 7% 24 22% 55 50% 29 14% ------------ -------- ---------------- -------- ------------------ ------- 39% 55% 60% 9% 38% 67% 44% Комментария и дополнительные пояснения. Относительные размеры баз от 5 сентября Яндекс: 100% Рамблер: 37,3% Апорт: 55,1%/60,9% (по словоформам/словам) Альтависта: 9,9% Гугль: 38,4%/67,3% (default/нефильтрованный) Фаст: 44,7% Для сравнения: Относительный размер баз к июньским данным примерно: Яндекс - 135,2%/137,9%. (слова/словоформы)Для сравнения, по официальным Яндекса рост за лето составил 129.1%/124,3% (в документах/в байтах) Рамблер - 190,6% Апорт - 107,4%/112,8% (слова/словоформы) Альтависта - 88,7% Гугль - 70,5%/110,0% (default/нефильтрованный) Фаст - 113,0% Выводы наблюдается интенсивный рост Рамблера (с нуля это нетрудно, Влад, не обижайтесь ) Фаст, Апорт выросли примерно на 10% Гугль стал по другому фильтровать выдачу -сразу же стал сообщать полное (нефильтрованное) число найденного, но по списку при этом можно ходить только по первой "фильтрованной" части. Только дойдя до конца default-ной выдачи можно теперь узнать размер фильтрованной части. Полное число найденного ("нефильтрованное") выросло примерно так же как и у Фаста с Апортом - то есть на 10%. Надо заметить, что фильтрация заметно усилилась. NB: В июньской публикации нефильтрованных данных не было, я их посчитал чуть позже - на следующий день. 30-процентный рост яндекса объясняется двумя факторами - ..skipped.. Грубо картина выглядит сейчас так: яндекс 100, гугль 70, апорт 60, фаст 50, рамблер 40 С уважением, Илья

N

0

nharin

12 сентября 2001, 20:16

#11

Здравствуйте, Михаил.

Прежде всего хочу поблагодарить Вас за интересные данные по статистике запросов. А теперь по сути Вашего сообщения.

Должен уточнить, что я не утверждал относительно 1-3%, а только предполагал. Такая оценка возникла на основе косвенных данных и ни на какую точность не претендует.

Из Ваших же данных действительно можно сделать абсолютно достоверный вывод, что специфические запросы составляют примерно 30%. К сожалению, из Вашего сообщения не вполне понятно, какие запросы имеются в виду - уникальные или же все запросы, поступающие на поисковую машину. Проще говоря, не вполне понятно, каким из двух способов отобран Ваш 1.000.000 запросов:

из запросов, поступающих на поисковую машину, выделяются неповторяющиеся (уникальные) запросы, среди которых отбирается 1.000.000 запросов;

фиксируем все последовательные запросы, поступающие на поисковую машину, до тех пор пока не наберем 1.000.000 запросов. Понятно, что среди этих запросов много повторяющихся.

Я имел в виду 2-й способ, когда учитывается частота поступления запросов. Тогда среди 1.000.000 запросов некоторые частотные запросы типа "реферат" будут встречаться тысячи раз, и эти несколько тысяч запросов не будут специфическими.

Но, собственно, не это главное. Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны. Возьмем данные по объемам баз данных, приведенные в письме Ильи Сегаловича:

Относительные размеры базы от 5 июня

Яндекс: 100%

Рамблер: 27,2%

Апорт: 73,6%/70,7% (по словоформам/словам)

Альтависта: 15,8%

Гугль: 73,4%/89,1% (default/нефильтрованный)

Фаст: 53,2%

Данные для Альтависты изменятся на:

15,8% + (100%-15,8%)*0.7 = 74,74%

А модифицированная таблица приобретет вид:

Яндекс: 100%

Рамблер: 78,16%

Апорт: 92,08%/91,21% (по словоформам/словам)

Альтависта: 74,74%

Гугль: 92,02%/96,73% (default/нефильтрованный)

Фаст: 85,96%

Дополнительно должен отметить, что:

1) приведенная модифицированная таблица имеет чисто иллюстративный характер и ни в коей мере не претендует на ревизию результатов оценки Ильи Сегаловича;

2)учет доли специфических запросов нельзя считать единственным фактором, влияющим на оценку объема базы данных. В самом деле, даже если специфических запросов (с учетом частотности) всего 1%, всегда найдутся пользователи, которые лишь иногда задают специфические запросы, но по опыту выполнения именно этих запросов почти всегда отдают предпочтение поисковой машине с максимальным объемом базы данных.

С уважением,

Николай Харин

I

80

iseg

12 сентября 2001, 20:22

#12

Originally posted by wolf:
Михаил, а теперь скажите, сколько из этих "специфических" запросов составляли запросы, состоящие из одного слова, подобные тем, что использовал Илья Сегалович в своих изысканиях
[This message has been edited by wolf (edited 12-09-2001).]

Уважаемый wolf. Обратите внимание на то, что каждая искалка по-своему обрабатывает запросы из двух слов. Булевский поиск в девственном виде практически не используется в поисковых системах. Ни в мировых, ни в локальных. Эту тему я затрагивал в описании методики (см исходный постинг)

"Подобные изыскания" (запросы по одному слову) используют все известные мне исследователи Интернета. Лоренс и Гиль (а также Бхарат и Бройдер) использовали их для оценки размера Интернета (публикации 1997-2000 гг). Грегори Греффенштет оценивал таким образом соотношение различных языков, представленных в интренете (2000г). Данни Салливэн постоянно мониторит при помощи таких запросов заявленные и реальные размеры мировых систем.

Илья

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

12 сентября 2001, 21:01

#13

Ок, Илья. Пусть будут только запросы из одного слова. Как Вы прокомментируете корректировку Ваших результатов Николаем Хариным? Он брал для корректировки цифру в 30% (которая учитывает все запросы, а не только, состоящие из одного слова). Чтобы сделать более корректную корректировку (каламбурчик!) хотелось бы узнать, какую часть из запросов, состоящих из одного слова, составляют запросы, на которые откликается менее 1000 страниц. Если менее 30%, то преимущества Яндекса над остальными поисковикамии вообще не будет видно.

[This message has been edited by wolf (edited 12-09-2001).]

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

12 сентября 2001, 22:20

#14

Здравствуйте, Николай.

Originally posted by nharin:
Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны

Здесь явно какое-то непонимание.

Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.

Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?

Я утверждаю, что:

1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,

не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.

Михаил утверждает, что:

2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.

Примерно в 20-40 процентах запросов.

Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.

Илья

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

13 сентября 2001, 14:10

#15

Originally posted by iseg:

Я утверждаю, что:

1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер.

Проводились ли какие-нибудь исследования по ОЦЕНКЕ АДЕКВАТНОСТИ Вашей методики?

Всякий, кто сколько-нибудь серьезно занимался наукой, знает, что результаты, полученные при применении методики, адекватность которой не оценивалась, по своей цености сравнимы с результатами, просто взятыми с потолка.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

23

misha

13 сентября 2001, 18:50

#16

Илья, спасибо за проведенное исследование

Поставленную задачу - оценить абсолютные размеры баз поисковиков, оно решает вполне адекватно.

Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.

Судя по апортовским логам, из запросов, по которым ничего не находится, случаи, когда в базе действительно нет информации, которую ищет пользователь составляют процентов 10-15. В остальных случаях информация есть, но запрос плохо сформулирован: с орфографическими ошибками (около 40%), слишком детализированно (многословно), с семантическими ошибками... Конечно, иногда в этих случаях полнота базы может помочь все-таки найти то что требовалось, но такие случаи составляют явное меньшинство и проблема тут, все-таки, не в полноте... А из упомянутых 10-15% значительную часть составляют запросы, по которым информации в интернете (российском) просто нет, и, соответственно, полнота базы не имеет никакого значения.

Среди запросов, по которым нашлось немного, "хороших", наверняка, больше (не знаю, насколько...), с другой стороны, не всегда тут немного означает недостаточно.

В то же время, то что найдено много, еще не гарантирует, что полнота базы неважна (процент случаев, когда это так, невелик, но абсолютное значение может оказаться довольно значительным).

В общем, я не думаю, что значение полноты базы для качества поиска можно оценивать по количеству запросов давших небольшое количество результатов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

13 сентября 2001, 19:56

#17

Скрипт, который делает почти все, вместе со вспомогательными программами,

выложен на всобщее обозрение по сайту

http://autoluba.narod.ru

Илья

N

0

nharin

21 сентября 2001, 13:31

#18

Originally posted by iseg:
Здравствуйте, Николай.

Здесь явно какое-то непонимание.

Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.

Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?

Я утверждаю, что:

1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.

Михаил утверждает, что:

2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.

Илья

Здравствуйте, Илья

Прежде всего, прошу извинить за большую задержку с ответом – раньше, к сожалению, никак не мог. А теперь по существу вопроса.

Вы пишите, что "методика нацелена на измерение "полного размера базы". Это понятно. Однако мое последнее сообщение относилось, скорее, не к самой методике, а к некоторым смежным вопросам. Предположим, что Ваша методика идеальна и безоговорочно признана всем Интернет-сообществом. Согласно данным Ваших измерений от 05.09.2001, размер базы Фаст составляет: 44,7% от размера базы Яндекса. Значит ли это, что Яндекс в 2 раза лучше, чем Фаст. На мой взгляд, это неочевидно, что я и пытался пояснить в своем сообщении.

Основными характеристиками поисковой системы считаются полнота и точность, а не размер базы данных. Полнота, безусловно, зависит от размера базы данных, причем эту зависимость можно считать линейной. Однако при большом числе найденных по запросу документов полнота особого значения не имеет в силу ограниченной способности человека к просматру документов. В самом деле, если по некоторому запросу 1-я поисковая система находит 50000 документов, а во 2-й системе найдено 5000 документов, то для человека разница невелика, а лучшей будет система с более эффективным ранжированием.

Отсюда вывод: размер базы сказывается только на тех запросах, по которым найдено немного документов. Под "немного" понимаем такое количество документов, которое способен просмотреть достаточно терпеливый пользователь (едва ли это будет бодьше 150-200). Поэтому влияние размера базы на полноту поиска определяется долей таких специфических запросов. При определении указанной доли обязательно следует учитывать частоту поступления запросов в поисковую систему. Поскольку по частотным запросам обычно находится много документов, то называемая Вами, Илья, цифра в 20-40% все же не очень убеждает, хотя, возможно, это и так. Может быть, Вы имели в виду уникальные запросы без учета их частотности. Если не трудно, поясните, пожалуйста.

С уважением,

Николай Харин

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F

116

funsad

21 сентября 2001, 19:52

#19

Originally posted by nharin:
Вы пишите, что "методика нацелена на измерение "полного размера базы". Это понятно. Однако мое последнее сообщение относилось, скорее, не к самой методике, а к некоторым смежным вопросам.

Николай, может, конечно, я ошибаюсь, но, скорее всего, Илья подразумевал, что все смежные вопросы, касающиеся влияния "полного размера базы" на релевантность поиска, известны участникам данного форума, и потому просто их опустил.

Это вполне логично, как если бы врач, описывающий методику и результаты измерения артериального давления у группы пациентов, промолчал бы о том, что давление -- не единственный показатель, влияющий на здоровье. Другие врачи-то понимают роль давления.

С уважением,

Александр Садовский.

Яндекс кобласит Google: вовлеченность не является Google: изменение анкорного текста

Маркетинг для шоколадной фабрики. На 34% выше средний чек

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Мониторинг размера искалок - сентябрьский выпуск