Здравствуйте, Илья
Прежде всего, прошу извинить за большую задержку с ответом – раньше, к сожалению, никак не мог. А теперь по существу вопроса.
Вы пишите, что "методика нацелена на измерение "полного размера базы". Это понятно. Однако мое последнее сообщение относилось, скорее, не к самой методике, а к некоторым смежным вопросам. Предположим, что Ваша методика идеальна и безоговорочно признана всем Интернет-сообществом. Согласно данным Ваших измерений от 05.09.2001, размер базы Фаст составляет: 44,7% от размера базы Яндекса. Значит ли это, что Яндекс в 2 раза лучше, чем Фаст. На мой взгляд, это неочевидно, что я и пытался пояснить в своем сообщении.
Основными характеристиками поисковой системы считаются полнота и точность, а не размер базы данных. Полнота, безусловно, зависит от размера базы данных, причем эту зависимость можно считать линейной. Однако при большом числе найденных по запросу документов полнота особого значения не имеет в силу ограниченной способности человека к просматру документов. В самом деле, если по некоторому запросу 1-я поисковая система находит 50000 документов, а во 2-й системе найдено 5000 документов, то для человека разница невелика, а лучшей будет система с более эффективным ранжированием.
Отсюда вывод: размер базы сказывается только на тех запросах, по которым найдено немного документов. Под "немного" понимаем такое количество документов, которое способен просмотреть достаточно терпеливый пользователь (едва ли это будет бодьше 150-200). Поэтому влияние размера базы на полноту поиска определяется долей таких специфических запросов. При определении указанной доли обязательно следует учитывать частоту поступления запросов в поисковую систему. Поскольку по частотным запросам обычно находится много документов, то называемая Вами, Илья, цифра в 20-40% все же не очень убеждает, хотя, возможно, это и так. Может быть, Вы имели в виду уникальные запросы без учета их частотности. Если не трудно, поясните, пожалуйста.
С уважением,
Николай Харин
Здравствуйте, Михаил.
Прежде всего хочу поблагодарить Вас за интересные данные по статистике запросов. А теперь по сути Вашего сообщения.
Должен уточнить, что я не утверждал относительно 1-3%, а только предполагал. Такая оценка возникла на основе косвенных данных и ни на какую точность не претендует.
Из Ваших же данных действительно можно сделать абсолютно достоверный вывод, что специфические запросы составляют примерно 30%. К сожалению, из Вашего сообщения не вполне понятно, какие запросы имеются в виду - уникальные или же все запросы, поступающие на поисковую машину. Проще говоря, не вполне понятно, каким из двух способов отобран Ваш 1.000.000 запросов:
из запросов, поступающих на поисковую машину, выделяются неповторяющиеся (уникальные) запросы, среди которых отбирается 1.000.000 запросов;
фиксируем все последовательные запросы, поступающие на поисковую машину, до тех пор пока не наберем 1.000.000 запросов. Понятно, что среди этих запросов много повторяющихся.
Я имел в виду 2-й способ, когда учитывается частота поступления запросов. Тогда среди 1.000.000 запросов некоторые частотные запросы типа "реферат" будут встречаться тысячи раз, и эти несколько тысяч запросов не будут специфическими.
Но, собственно, не это главное. Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны. Возьмем данные по объемам баз данных, приведенные в письме Ильи Сегаловича:
Относительные размеры базы от 5 июня
Яндекс: 100%
Рамблер: 27,2%
Апорт: 73,6%/70,7% (по словоформам/словам)
Альтависта: 15,8%
Гугль: 73,4%/89,1% (default/нефильтрованный)
Фаст: 53,2%
Данные для Альтависты изменятся на:
15,8% + (100%-15,8%)*0.7 = 74,74%
А модифицированная таблица приобретет вид:
Рамблер: 78,16%
Апорт: 92,08%/91,21% (по словоформам/словам)
Альтависта: 74,74%
Гугль: 92,02%/96,73% (default/нефильтрованный)
Фаст: 85,96%
Дополнительно должен отметить, что:
1) приведенная модифицированная таблица имеет чисто иллюстративный характер и ни в коей мере не претендует на ревизию результатов оценки Ильи Сегаловича;
2)учет доли специфических запросов нельзя считать единственным фактором, влияющим на оценку объема базы данных. В самом деле, даже если специфических запросов (с учетом частотности) всего 1%, всегда найдутся пользователи, которые лишь иногда задают специфические запросы, но по опыту выполнения именно этих запросов почти всегда отдают предпочтение поисковой машине с максимальным объемом базы данных.
Прежде всего, должен уточнить, что морфологию и дубли я упомянул просто как возможные факторы, влияющие на количество найденных по запросу документов, не имея в виду никаких конкретных поисковых машин.
Далее, обсуждаемая методика вполне может использоваться в качестве предварительного теста при сравнении объемов баз данных различных систем. Несомненные ее преимущества - низкая трудоемкость и высокая оперативность. Недостаток же методики в том, что полученные с ее помощью результаты могут быть легко оспорены. Вот, собственно, и все.
Что касается точной методики, от результатов применения которой, грубо говоря, не отвертишься, то это отдельный вопрос, который, возможно, не так уж, на самом деле, и интересен. По-моему, совсем не очевидно, что двойной рост базы данных системы в такой же пропорции увеличивает ее качество. Базы данных всех трех основных рунетовских поисковых машин достаточно велики и по типовому запросу в них находится громадное количество документов. Поэтому намного важнее не объем базы, а качество ранжирования и способ представления найденных документов. Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%). Для пользователей, задающих такие запросы, объем базы, конечно, очень важен. Для основной же массы пользователей нет особой разницы между понятиями "много" и "очень много".
Яндекс !Янд Рамблер Апорт !Апорт Альтависта Гугль Г&filter=0 Фаст ------------ -------- ----------------- --------
Представляется, что используемая методика оценки объема базы данных не вполне совершенна. Если по некоторому запросу 1-я поисковая система находит N1 документов, а 2-я система - N2 документов, причем N1>N2, то, строго говоря, данное обстоятельство вовсе не означает, что применительно к рассматриваемому запросу у 1-й системы более полная база, чем у 2-й. Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.
Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.