iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

Ух ты!

Спасибо огромное. Всем-всем-всем!

Ужасно приятно и лестно.

Илья

Скрипт, который делает почти все, вместе со вспомогательными программами,

выложен на всобщее обозрение по сайту

http://autoluba.narod.ru

Илья

Здравствуйте, Николай.

<font face="Verdana" size="2">Originally posted by nharin:
Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны</font>

Здесь явно какое-то непонимание.

Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.

Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?

Я утверждаю, что:

1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,

не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.

Михаил утверждает, что:

2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.

Примерно в 20-40 процентах запросов.

Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.

Илья

<font face="Verdana" size="2">Originally posted by wolf:
Михаил, а теперь скажите, сколько из этих "специфических" запросов составляли запросы, состоящие из одного слова, подобные тем, что использовал Илья Сегалович в своих изысканиях
[This message has been edited by wolf (edited 12-09-2001).]
</font>

Уважаемый wolf. Обратите внимание на то, что каждая искалка по-своему обрабатывает запросы из двух слов. Булевский поиск в девственном виде практически не используется в поисковых системах. Ни в мировых, ни в локальных. Эту тему я затрагивал в описании методики (см исходный постинг)

"Подобные изыскания" (запросы по одному слову) используют все известные мне исследователи Интернета. Лоренс и Гиль (а также Бхарат и Бройдер) использовали их для оценки размера Интернета (публикации 1997-2000 гг). Грегори Греффенштет оценивал таким образом соотношение различных языков, представленных в интренете (2000г). Данни Салливэн постоянно мониторит при помощи таких запросов заявленные и реальные размеры мировых систем.

Илья

Кстати, замечен он был еще в марте, поэтому прошу прощения у тех, кто его уже видел/использует.

Уж больно эстетичен.

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Однако с таким подходом вас скоро обойдут конкуренты. Всего наилучшего</font>

<font face="Verdana" size="2">Originally posted by Mashiah Davidson:
Google!
По сравнению с ним наши искалки просто снобы, редко появляются в логах.
</font>

Покажите мне, пожалуйста, форум, где Сергей, Моника или хотя бы Кришна отвечают на online-критику.

Если найдете, соглашусь с хотя бы с "равным уровнем снобизма". В противном случае, буду продолжать считать снобами их, а не себя.

Ни на кого абсолютно не обижаюсь. Еще раз спасибо всем за критику. Единственное, против чего я протестовал, так это против длинных "флудных" цитат. Если у вас нет 3 минут, чтобы выдернуть URL-и, то почему все должны мучиться и читать не относящийся к делу материал.

Илья

<font face="Verdana" size="2">Originally posted by wolf:
Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию </font>

Обе цифры верны. Первая дана с учетом непроиндексированных документов (в базе гугля только ссылки на них), вторая - такая же официальная и тоже исходит от Гугля - число "реально приндексированных" разных документов.

Вообще эти "две цифры" и их обсуждение фигурируют везде где только можно уже года два как.

Кстати, последние известия - в Гугле уже есть "реально проиндексированный" миллиард.

Но если судить по русской части - то 800+10% - все-таки больше похоже на 900 миллионов.

Здравствуйте, Николай.

<font face="Verdana" size="2">Originally posted by nharin:

Представляется, что используемая методика оценки объема базы данных не вполне совершенна.
</font>

Отчасти. В своем первоначальном постинге я назвал ее "наколеночной".

<font face="Verdana" size="2">Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе</font>

Этот момент подробно обсуждался в исходном постинге тоже. Тем не менее, раз пошла такая пьянка , давайте еще раз, подробнее:

  • "неморфлогические" поиски, такие как Гугль и часть результатов Апорта, нормируются на поиск Яндекса по точной словоформе.
  • Слова выбраны таким образом, чтобы уменьшить (свести до нуля) влияние разных морфологически алгоритмов.
  • В частности, слова все "маленькие" и результаты можно глазами посмотреть и убедиться что расхождений нет.
  • Морфологические модели Фаста, Рамблера, Апорта и Яндекса идентичны по всем спорным моментам. А именно:
    • границы частей речи не пересекаются (т.е. словообразование при поиске не используется)
    • причастия считаются глаголами
    • отглагольные существительные в парадигмы глаголов не включаются
    • наречия и прилагательные в одну парадигму не входят
    Заметьте, что глаголов и отглагольных существительных в списке нет. На всякий случай.
  • Теперь по поводу "мощности мофрологии". Модели всех слов очень простые. Документов находится мало. Даже в несловарных случаях все можно посмотреть и проверить. Не могли бы Вы привести пример слова, которое Яндекс "перелемматизировал", а Рамблер или Фаст "недолемматизировали"?
  • Серьезным подтверждением моей уверенности служит стабильность измерений размера Апорта при нормировании на слова и формы Яндекса.

<font face="Verdana" size="2"> и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. </font>

Это не совсем так. Физический размер базы отражается, в любом случае точно, хотя "логический" нет.

Я планирую в "меряющем скрипте" проводить обе проверки на дублирование, которые упомянуты в исходном постинге. "Четкую" по контрольной суммме и "нечеткую" по Левенштейну.

<font face="Verdana" size="2">Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.
Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.
</font>

Это, по видимому не относится к цифрам относительного роста баз. Так как способ поиска один и тот же. (за исключением ситуации смены алгоритмов - но, похоже, этого не случилось)

В остальном совершенно с Вами согласен. Контуры улучшенной методики в исходном постинге тоже описаны.

Я как раз сейчас для круглого стола на АДЭ (от Вас там выступает Иванов), реанимирую наш старый скрипт, который делал примерно это же в году 1998-1999. Яндекс по размеру базы тогда неуклонно догонял и перегонял Рамблер.

Результат, видимо будет "public domain", чтобы любой заинтересованный человек мог исправить ошибки, перемерять, поменять список слов и т.д.

<font face="Verdana" size="2">
С уважением,
Николай Харин
</font>

С уважением,

Илья Сегалович

<font face="Verdana" size="2">Originally posted by vs:
Илья, спасибо за информацию.</font>

Так все-таки, Рамблер за лето вырос на 90%?

<font face="Verdana" size="2">
Кстати, можно ли в Яндексе поискать только
документы, находимые по ссылкам (ну, вроде
www.nyse.com)? Я нашел только косвенный
способ: $anchor (New York Stock Exchange),
но это не совсем то, что надо.
</font>

Ниже адаптированный фрагмент нашей текущей YACC-спецификации.

some_factor:

...

| zone '[' expression ']'

| attr '[' expression ']'

| zone '#' attr '[' expression ']'

| zone '#' attr

| attr

| '#' attr

....

zone : IDENT

;

attr: a_name '=' '(' a_request ')'

| a_name relation a_value

;

a_name : IDENT

;

a_request : subexpression

;

relation :

'&lt;'

| '&lt;="

| '=='

| '&gt;='

| '&gt;

;

a_value :

ATTR_VALUE

Необходимые пояснения:

ATTR_VALUE - это нечто в кавычках. Последний символ перед кавычками может быть звездочкой.

IDENT - это последовательность букв и цифр начинающихся с буквы.

expression, subexpression - практически то же самое, что и запрос

Форма a_name '=' '(' a_request ')'

относится к "токенизируемым" атрибутам. Сейчас это keywords (kw), abstract и hint

Форма a_name relation a_value

относится к "литеральным" атрибутам. Сейчас это url, link и еще миллион других.

Все это у нас называется зонно-атрибутивный поиск и работает года так с 1997-го. (с небольшими изменениями в синтаксисе)

Пользователи Яndex.Lib и Яndex.CD всегда знали об этих возможностях.

Мы не открывали(ем) всех их публично из опасения прогрузки большого поиска. Хотя недавно этот поиск раза в два ускорился, может быть скоро откроем.

Пара примеров (извините за неполноту - очень занят):

  • link="URL"
  • a [запрос] или
  • anchor [запрос]
  • link="URL" [запрос]
  • a#link="URL" [запрос]
  • a#link="URL"

С уважением,

Илья

<font face="Verdana" size="2">Originally posted by wolf:
А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)</font>

Я четыре года ждал, пока "подобные изыскания" кто-нибудь в данной стране соблаговолит произвести.

Устал, знаете ли. Да и любовь к себе покоя не дает.

Всего: 442