Это очень сложная и обширная тема, для начала можно почитать:
http://meta.math.spbu.ru/~igor/papers/exp-survey/exp-survey.html
Методика Ашманова-Харина частный случай, другой частный случай romip.narod.ru
IMHO пример из Google? Тогда пример не корректный, т.к. если вы ввели web site, то он будет искать и website и web-site. То есть с точки зрения отдельных слов web site design не является дополнением слова к запросу site design, а является усечением на часто используемый в данной области термином.
Так что я согласен с Игорем, и экспериментальные данные это подтверждают. Особенно если учесть, что большинство искалок все-таки рассматривают bag-of-words модель документа и как таковых словосочетаний не выделяют.
Неудачный пример. В отличии от интернет, где информации есть и проблема ее найти, в правовых системах основная фишка - наложить туда информацию. Пользователь ищет в основном как в обычных базах данных - по точным атрибутам документа. Поэтому и Гарант и К+ имеют средства поиска максимум найти слова по маске в пределах абзаца. То есть средств аналитической работы в разрезе IR нет вообще.
Конечно, есть задачи, где действительно так, но до этого был разговор про поиск, а для него эти технологии не очень применимы, по крайней мере в обозримом будущем.
Мое мнение в свете первого вопроса в данной теме - сетевые ИПС будут плавно улучшать свои характеристики (с маркетинговыми "прорывами"), а поиск фактов, прямых ответов и т.п. если и будет встречаться - то только в узких специализированных областях. Например, некоторые искалки научаться (и уже умеют) "понимать" запросы по поиску товаров и персонам. Но вряд-ли вскоре будут выдавать один сайт с нужным текстом по запросу "лучший реферат по философии для кандидатской" :).
При всем уважении к Игорю Ашманову, мне кажется, что его представления похожи на наивные представления физиков 18 века - "дайте нам массы и скорости всех объектов вселенной и мы расчитаем ее состояния от создания до конца света". При некотором увеличении детальности старые модели перестают работать и вместо улучшения мы получаем ухудшение. Если отвлечься от философии, то с практической точки зрения 2 совершенно явные проблемы делают "перевод в цифры" в общем случае бессмысленным:
1. Неопределенность. Когда мы говорим о больших коллекциях и выделение объектов методами статистическими или NLP, то всегда возникает вероятность неправильного распознавания. Мы почти 10 лет в текстах достаточно определенной структуры выделяем объекты определенного типа и качество у нас 98%. Если учитывать 2 таких объекта, каждый выделяемый с таким качеством, то общее качество алгоритма будет 96% и т.д. Именно поэтому все современные попытки прикрутить в IR хотя-бы синтаксический анализ пока не привели к заметному результату - погрешности этого алгоритма вносят шум, который "на круг" превышает дополнительную информацию, которую они дают.
2. Метаинформация. Система хранит 2 вида информации - информацию коллекции (тексты) и некоторую метаинформацию о мире, в котором она работает. Метаинформация о языке - 100% надежна и мало меняется (вряд-ли закон Цапфа для русского языка отменится), именно поэтому все ее пользуются и она уже дает приличное качество поиска. Для интернета информация о связях страниц так-же устойчивая и полезная, но дает уже проценты. Информация о взаимоотношении терминов намного более изменчива. Помнится Эксалибур на какой-то демонстрации показывал свой словарь синонимов, где Ельцин и президент имели высокую связь, сейчас это скорее всего это не улучшает качество поиска, а через 20 лет может и мешать (например, появиться поп-звезда Ельцин). То есть словарь чаще меняется и может ухудшать качество поиска, если не соответсвует модели мира коллекции, а он всегда будет как-то не соответствовать. В интернет искалке поэтому он не применим. А если мы вводим более сложные понятия, типа объектов, то отслеживание их актуальности становится просто не посильной задачей. Даже в специализированной системе данный подход очень ограничен.
В результате эти "навороты" приводят в лучшем случае к незначительному изменению качества. Я конечно, понимаю, что для демонстрации на выставке они производят впечатление на потенциальных пользователей, но не более того.
Это все не значит, что будущего нет, конечно обработка становится все более изысканной и сложной, современные интернет и специализированные поисковики не используют скорее всего даже половины наработанного в исследовательских проектах даже если основываться на языковой метаинформации. Проблема в том, что качество не будет изменять скачками, оно будет достаточно плавно расти по мере роста производительности и зрелости технологий.