nharin

Рейтинг
0
Регистрация
07.09.2001

<font face="Verdana" size="2">Originally posted by iseg:
Здравствуйте, Николай.

Здесь явно какое-то непонимание.

Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.

Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?

Я утверждаю, что:

1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.

Михаил утверждает, что:

2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.

Илья
</font>

Здравствуйте, Илья

Прежде всего, прошу извинить за большую задержку с ответом – раньше, к сожалению, никак не мог. А теперь по существу вопроса.

Вы пишите, что "методика нацелена на измерение "полного размера базы". Это понятно. Однако мое последнее сообщение относилось, скорее, не к самой методике, а к некоторым смежным вопросам. Предположим, что Ваша методика идеальна и безоговорочно признана всем Интернет-сообществом. Согласно данным Ваших измерений от 05.09.2001, размер базы Фаст составляет: 44,7% от размера базы Яндекса. Значит ли это, что Яндекс в 2 раза лучше, чем Фаст. На мой взгляд, это неочевидно, что я и пытался пояснить в своем сообщении.

Основными характеристиками поисковой системы считаются полнота и точность, а не размер базы данных. Полнота, безусловно, зависит от размера базы данных, причем эту зависимость можно считать линейной. Однако при большом числе найденных по запросу документов полнота особого значения не имеет в силу ограниченной способности человека к просматру документов. В самом деле, если по некоторому запросу 1-я поисковая система находит 50000 документов, а во 2-й системе найдено 5000 документов, то для человека разница невелика, а лучшей будет система с более эффективным ранжированием.

Отсюда вывод: размер базы сказывается только на тех запросах, по которым найдено немного документов. Под "немного" понимаем такое количество документов, которое способен просмотреть достаточно терпеливый пользователь (едва ли это будет бодьше 150-200). Поэтому влияние размера базы на полноту поиска определяется долей таких специфических запросов. При определении указанной доли обязательно следует учитывать частоту поступления запросов в поисковую систему. Поскольку по частотным запросам обычно находится много документов, то называемая Вами, Илья, цифра в 20-40% все же не очень убеждает, хотя, возможно, это и так. Может быть, Вы имели в виду уникальные запросы без учета их частотности. Если не трудно, поясните, пожалуйста.

С уважением,

Николай Харин

Здравствуйте, Михаил.

Прежде всего хочу поблагодарить Вас за интересные данные по статистике запросов. А теперь по сути Вашего сообщения.

Должен уточнить, что я не утверждал относительно 1-3%, а только предполагал. Такая оценка возникла на основе косвенных данных и ни на какую точность не претендует.

Из Ваших же данных действительно можно сделать абсолютно достоверный вывод, что специфические запросы составляют примерно 30%. К сожалению, из Вашего сообщения не вполне понятно, какие запросы имеются в виду - уникальные или же все запросы, поступающие на поисковую машину. Проще говоря, не вполне понятно, каким из двух способов отобран Ваш 1.000.000 запросов:

из запросов, поступающих на поисковую машину, выделяются неповторяющиеся (уникальные) запросы, среди которых отбирается 1.000.000 запросов;

фиксируем все последовательные запросы, поступающие на поисковую машину, до тех пор пока не наберем 1.000.000 запросов. Понятно, что среди этих запросов много повторяющихся.

Я имел в виду 2-й способ, когда учитывается частота поступления запросов. Тогда среди 1.000.000 запросов некоторые частотные запросы типа "реферат" будут встречаться тысячи раз, и эти несколько тысяч запросов не будут специфическими.

Но, собственно, не это главное. Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны. Возьмем данные по объемам баз данных, приведенные в письме Ильи Сегаловича:

Относительные размеры базы от 5 июня

Яндекс: 100%

Рамблер: 27,2%

Апорт: 73,6%/70,7% (по словоформам/словам)

Альтависта: 15,8%

Гугль: 73,4%/89,1% (default/нефильтрованный)

Фаст: 53,2%

Данные для Альтависты изменятся на:

15,8% + (100%-15,8%)*0.7 = 74,74%

А модифицированная таблица приобретет вид:

Яндекс: 100%

Рамблер: 78,16%

Апорт: 92,08%/91,21% (по словоформам/словам)

Альтависта: 74,74%

Гугль: 92,02%/96,73% (default/нефильтрованный)

Фаст: 85,96%

Дополнительно должен отметить, что:

1) приведенная модифицированная таблица имеет чисто иллюстративный характер и ни в коей мере не претендует на ревизию результатов оценки Ильи Сегаловича;

2)учет доли специфических запросов нельзя считать единственным фактором, влияющим на оценку объема базы данных. В самом деле, даже если специфических запросов (с учетом частотности) всего 1%, всегда найдутся пользователи, которые лишь иногда задают специфические запросы, но по опыту выполнения именно этих запросов почти всегда отдают предпочтение поисковой машине с максимальным объемом базы данных.

С уважением,

Николай Харин

Прежде всего, должен уточнить, что морфологию и дубли я упомянул просто как возможные факторы, влияющие на количество найденных по запросу документов, не имея в виду никаких конкретных поисковых машин.

Далее, обсуждаемая методика вполне может использоваться в качестве предварительного теста при сравнении объемов баз данных различных систем. Несомненные ее преимущества - низкая трудоемкость и высокая оперативность. Недостаток же методики в том, что полученные с ее помощью результаты могут быть легко оспорены. Вот, собственно, и все.

Что касается точной методики, от результатов применения которой, грубо говоря, не отвертишься, то это отдельный вопрос, который, возможно, не так уж, на самом деле, и интересен. По-моему, совсем не очевидно, что двойной рост базы данных системы в такой же пропорции увеличивает ее качество. Базы данных всех трех основных рунетовских поисковых машин достаточно велики и по типовому запросу в них находится громадное количество документов. Поэтому намного важнее не объем базы, а качество ранжирования и способ представления найденных документов. Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%). Для пользователей, задающих такие запросы, объем базы, конечно, очень важен. Для основной же массы пользователей нет особой разницы между понятиями "много" и "очень много".

С уважением,

Николай Харин

<font face="Verdana" size="2">Originally posted by iseg:
В продолжение июньского выпуска
, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.

Комментарии к методике и пояснения к таблице там же.

Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.

Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.


Яндекс !Янд Рамблер Апорт !Апорт Альтависта Гугль Г&filter=0 Фаст
------------ -------- ----------------- --------
</font>

Представляется, что используемая методика оценки объема базы данных не вполне совершенна. Если по некоторому запросу 1-я поисковая система находит N1 документов, а 2-я система - N2 документов, причем N1&gt;N2, то, строго говоря, данное обстоятельство вовсе не означает, что применительно к рассматриваемому запросу у 1-й системы более полная база, чем у 2-й. Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.

Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.

С уважением,

Николай Харин