MaxGubin

Рейтинг
27
Регистрация
18.10.2002

Это очень сложная и обширная тема, для начала можно почитать:

http://meta.math.spbu.ru/~igor/papers/exp-survey/exp-survey.html

Методика Ашманова-Харина частный случай, другой частный случай romip.narod.ru

Как писал Nita


227042 web site design
7290 web site design company
5098 site design

IMHO пример из Google? Тогда пример не корректный, т.к. если вы ввели web site, то он будет искать и website и web-site. То есть с точки зрения отдельных слов web site design не является дополнением слова к запросу site design, а является усечением на часто используемый в данной области термином.

Так что я согласен с Игорем, и экспериментальные данные это подтверждают. Особенно если учесть, что большинство искалок все-таки рассматривают bag-of-words модель документа и как таковых словосочетаний не выделяют.

Как писал Ashmanov
А вот Консультант плюс, думаю, считает, что пример таки удачный.
Они тщательно готовят данные (сотни тысяч многоязычных документов), обеспечивают максимальную актуальность их, продают аналитический сервис над ними и продают успешно, более чем на 100 млн. евро в год - в чём же здесь неудача?
[/QUOT]
С точки зрения маркетинга они молодцы. С точки зрения IR, если его понимать как поиск и извлечение информации с использованием компьютеров, а не сотни аналитиков, то этого там нет вообще. Как в обработке, так и в сервисе поставляемых оболочек.

Я не знаю, какой у Вас опыт работы с правовыми базами данных, а вот мы в настоящий момент мучительно долизываем оболочку такой базы для крупного заказчика.

Определенный есть :). И несколько таких систем, в т.ч. и для крупных заказчиков сделал.

Например, одно из самых важных свойств правовой базы данных - связь с предыдущими редакциями документа. Потому что, например, некоторые законы выходят в виде этаких макрокоманд на "гиперссылках" - "пункт такой-то параграфа такого-то читать в следующей редакции...". И нужно сделать все "провязки", причём когда - заранее, а когда и динамически.

Именно о выделении таких объектов я и писал в начале данной темы. На самом деле, это не связь редакций, а связь изменяющий-изменяемый. Редакции несколько более противная вещь, просто надо хранить историю изменения объекта, нечто вроде темпоральных БД. Если брать текущую версию того-же К+ они этим особенно не заморачиваются, рассматривая каждую редакции как отдельный объект базы. Короче, пошли частности :).

А насчёт того, что в Интернете информации есть - это иллюзия. Там много дряни и неполных данных. В этом - проблема!

Именно это я имел в виду, в И-нете много зашумленной информации и часта ситуация, когда пользователь не может найти имеющуюся в шуме. В любых "тематических" базах более распространена обратная ситуация - шума нет, но более важна полнота.

Интернетчики просто привыкли рыться в мусоре, Рамблер/Яндекс с Гуглом слегка помогают в этом, вот все и рады донельзя.

Просто интернет кажется всем понятнее, по крайней мере в этой конфе.
Как писал Ashmanov
Ну, возьмём и прикрутим Яндекс к правовой базе данных - и что? Никому не нужно. Простой поиск там давно есть, а нужен совсем иной. Нужен аналитический сервис, который и продаёт Консультант+ (там кстати, на самом деле оборот на два порядка больше всех веб-искалок в той же самой России).

Неудачный пример. В отличии от интернет, где информации есть и проблема ее найти, в правовых системах основная фишка - наложить туда информацию. Пользователь ищет в основном как в обычных базах данных - по точным атрибутам документа. Поэтому и Гарант и К+ имеют средства поиска максимум найти слова по маске в пределах абзаца. То есть средств аналитической работы в разрезе IR нет вообще.

Как писал Ashmanov
Дело в том, что такие системы существуют и уже работают. Тот же Ватсон и прочие. Работают с шумом - ну и что? Это же не интернет-искалка.
Я же говорю не о поиске документов, а об анализе совместной встречаемости объектов.

Конечно, есть задачи, где действительно так, но до этого был разговор про поиск, а для него эти технологии не очень применимы, по крайней мере в обозримом будущем.

Мое мнение в свете первого вопроса в данной теме - сетевые ИПС будут плавно улучшать свои характеристики (с маркетинговыми "прорывами"), а поиск фактов, прямых ответов и т.п. если и будет встречаться - то только в узких специализированных областях. Например, некоторые искалки научаться (и уже умеют) "понимать" запросы по поиску товаров и персонам. Но вряд-ли вскоре будут выдавать один сайт с нужным текстом по запросу "лучший реферат по философии для кандидатской" :).

При всем уважении к Игорю Ашманову, мне кажется, что его представления похожи на наивные представления физиков 18 века - "дайте нам массы и скорости всех объектов вселенной и мы расчитаем ее состояния от создания до конца света". При некотором увеличении детальности старые модели перестают работать и вместо улучшения мы получаем ухудшение. Если отвлечься от философии, то с практической точки зрения 2 совершенно явные проблемы делают "перевод в цифры" в общем случае бессмысленным:

1. Неопределенность. Когда мы говорим о больших коллекциях и выделение объектов методами статистическими или NLP, то всегда возникает вероятность неправильного распознавания. Мы почти 10 лет в текстах достаточно определенной структуры выделяем объекты определенного типа и качество у нас 98%. Если учитывать 2 таких объекта, каждый выделяемый с таким качеством, то общее качество алгоритма будет 96% и т.д. Именно поэтому все современные попытки прикрутить в IR хотя-бы синтаксический анализ пока не привели к заметному результату - погрешности этого алгоритма вносят шум, который "на круг" превышает дополнительную информацию, которую они дают.

2. Метаинформация. Система хранит 2 вида информации - информацию коллекции (тексты) и некоторую метаинформацию о мире, в котором она работает. Метаинформация о языке - 100% надежна и мало меняется (вряд-ли закон Цапфа для русского языка отменится), именно поэтому все ее пользуются и она уже дает приличное качество поиска. Для интернета информация о связях страниц так-же устойчивая и полезная, но дает уже проценты. Информация о взаимоотношении терминов намного более изменчива. Помнится Эксалибур на какой-то демонстрации показывал свой словарь синонимов, где Ельцин и президент имели высокую связь, сейчас это скорее всего это не улучшает качество поиска, а через 20 лет может и мешать (например, появиться поп-звезда Ельцин). То есть словарь чаще меняется и может ухудшать качество поиска, если не соответсвует модели мира коллекции, а он всегда будет как-то не соответствовать. В интернет искалке поэтому он не применим. А если мы вводим более сложные понятия, типа объектов, то отслеживание их актуальности становится просто не посильной задачей. Даже в специализированной системе данный подход очень ограничен.

В результате эти "навороты" приводят в лучшем случае к незначительному изменению качества. Я конечно, понимаю, что для демонстрации на выставке они производят впечатление на потенциальных пользователей, но не более того.

Это все не значит, что будущего нет, конечно обработка становится все более изысканной и сложной, современные интернет и специализированные поисковики не используют скорее всего даже половины наработанного в исследовательских проектах даже если основываться на языковой метаинформации. Проблема в том, что качество не будет изменять скачками, оно будет достаточно плавно расти по мере роста производительности и зрелости технологий.

1 23
Всего: 26