Ух ты!
Спасибо огромное. Всем-всем-всем!
Ужасно приятно и лестно.
Илья
Скрипт, который делает почти все, вместе со вспомогательными программами,
выложен на всобщее обозрение по сайту
http://autoluba.narod.ru
Здравствуйте, Николай.
Здесь явно какое-то непонимание.
Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.
Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?
Я утверждаю, что:
1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.
Михаил утверждает, что:
2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.
Уважаемый wolf. Обратите внимание на то, что каждая искалка по-своему обрабатывает запросы из двух слов. Булевский поиск в девственном виде практически не используется в поисковых системах. Ни в мировых, ни в локальных. Эту тему я затрагивал в описании методики (см исходный постинг)
"Подобные изыскания" (запросы по одному слову) используют все известные мне исследователи Интернета. Лоренс и Гиль (а также Бхарат и Бройдер) использовали их для оценки размера Интернета (публикации 1997-2000 гг). Грегори Греффенштет оценивал таким образом соотношение различных языков, представленных в интренете (2000г). Данни Салливэн постоянно мониторит при помощи таких запросов заявленные и реальные размеры мировых систем.
Кстати, замечен он был еще в марте, поэтому прошу прощения у тех, кто его уже видел/использует.
Уж больно эстетичен.
Покажите мне, пожалуйста, форум, где Сергей, Моника или хотя бы Кришна отвечают на online-критику.
Если найдете, соглашусь с хотя бы с "равным уровнем снобизма". В противном случае, буду продолжать считать снобами их, а не себя.
Ни на кого абсолютно не обижаюсь. Еще раз спасибо всем за критику. Единственное, против чего я протестовал, так это против длинных "флудных" цитат. Если у вас нет 3 минут, чтобы выдернуть URL-и, то почему все должны мучиться и читать не относящийся к делу материал.
Обе цифры верны. Первая дана с учетом непроиндексированных документов (в базе гугля только ссылки на них), вторая - такая же официальная и тоже исходит от Гугля - число "реально приндексированных" разных документов.
Вообще эти "две цифры" и их обсуждение фигурируют везде где только можно уже года два как.
Кстати, последние известия - в Гугле уже есть "реально проиндексированный" миллиард.
Но если судить по русской части - то 800+10% - все-таки больше похоже на 900 миллионов.
Отчасти. В своем первоначальном постинге я назвал ее "наколеночной".
Этот момент подробно обсуждался в исходном постинге тоже. Тем не менее, раз пошла такая пьянка , давайте еще раз, подробнее:
Это не совсем так. Физический размер базы отражается, в любом случае точно, хотя "логический" нет.
Я планирую в "меряющем скрипте" проводить обе проверки на дублирование, которые упомянуты в исходном постинге. "Четкую" по контрольной суммме и "нечеткую" по Левенштейну.
Это, по видимому не относится к цифрам относительного роста баз. Так как способ поиска один и тот же. (за исключением ситуации смены алгоритмов - но, похоже, этого не случилось)
В остальном совершенно с Вами согласен. Контуры улучшенной методики в исходном постинге тоже описаны.
Я как раз сейчас для круглого стола на АДЭ (от Вас там выступает Иванов), реанимирую наш старый скрипт, который делал примерно это же в году 1998-1999. Яндекс по размеру базы тогда неуклонно догонял и перегонял Рамблер.
Результат, видимо будет "public domain", чтобы любой заинтересованный человек мог исправить ошибки, перемерять, поменять список слов и т.д.
С уважением,
Илья Сегалович
Так все-таки, Рамблер за лето вырос на 90%?
Ниже адаптированный фрагмент нашей текущей YACC-спецификации.
some_factor:
...
| zone '[' expression ']'
| attr '[' expression ']'
| zone '#' attr '[' expression ']'
| zone '#' attr
| attr
| '#' attr
....
zone : IDENT
;
attr: a_name '=' '(' a_request ')'
| a_name relation a_value
a_name : IDENT
a_request : subexpression
relation :
'<'
| '<="
| '=='
| '>='
| '>
a_value :
ATTR_VALUE
Необходимые пояснения:
ATTR_VALUE - это нечто в кавычках. Последний символ перед кавычками может быть звездочкой.
IDENT - это последовательность букв и цифр начинающихся с буквы.
expression, subexpression - практически то же самое, что и запрос
Форма a_name '=' '(' a_request ')'
относится к "токенизируемым" атрибутам. Сейчас это keywords (kw), abstract и hint
Форма a_name relation a_value
относится к "литеральным" атрибутам. Сейчас это url, link и еще миллион других.
Все это у нас называется зонно-атрибутивный поиск и работает года так с 1997-го. (с небольшими изменениями в синтаксисе)
Пользователи Яndex.Lib и Яndex.CD всегда знали об этих возможностях.
Мы не открывали(ем) всех их публично из опасения прогрузки большого поиска. Хотя недавно этот поиск раза в два ускорился, может быть скоро откроем.
Пара примеров (извините за неполноту - очень занят):
Я четыре года ждал, пока "подобные изыскания" кто-нибудь в данной стране соблаговолит произвести.
Устал, знаете ли. Да и любовь к себе покоя не дает.