Проекты по разработке "онтологий" очень модны сейчас на Западе,
да и у нас. Люди из одного заканчивающегося проекта "должны"
перетекать в другой.
Кроме того, сейчас в Европе денег на "просто науку" не дают,
обязательно должно быть "Explotation" & "Dissemination".
Деньги, собственно, дают на интеграцию ученых из разных
стран - с этим делом в данном проекте все хорошо.
Люди, организации известные, беда только в том, что
никто из них не умеет делать БОЛЬШИХ онтологий
(в маленьких же хорошие специалисты), которые нужны
для решения задачи "Революционная технология поиска в Интернете".
Имеющиеся сейчас у них ресурсы (Wordnet, SUMO) недостаточны/некачественны. На создание хорошего нового
им не хватит ни времени ни средств.
Поэтому отчитываться будут либо маленькими онтологиями,
зато вылизанными - что тоже полезно -
при поиске можно будет сразу получать интересные ответы
(на небольшое множество вопросов)- кто где работает,
кто соавтор, где учился и т.п.
Либо каким-нибудь "полезным" стандартом.
А в понятие "Dissemination" входит продвижение (с прицелом на коммерческий выход) своего проекта.
В общем, вот так достаются деньги для науки на Западе.
Причем это, скорее всего, деньги не "full position" - для этих только поездки, а деньги на "контрактников", в том числе аспирантов.
Когда говорят о системе, основанной на
синтаксическом анализе, мне лично хочется получить ЧЕСТНЫЕ ответы на следующие два вопроса:
1) проводили лы Вы проверку синтаксического разбора на корпусе
текстов величиной в 1 Мбайт?
(а лучше для текстов разных жанров)
2) какой процент предложений разобран правильно, какой частично
правильно (с незначащими ошибками), какой процент ошибочных из
разобранных, сколько не разобрано.
Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).
Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.
То есть вопрос - какой размер Вашей базы правил?
Я сказал "... среди лучших ..." - потому что они участвовали
в TREC то ли 1998, то ли 1999 года и показали приличные результаты
(статью не направляли, но есть графики результатов).
И видел лично их результаты - кластеры верхнего уровня неплохие -
дальше все разваливается.
Для многих задач и этого будет достаточно, для многих - плохо.
Кроме того они довольно много написали научных работ.
Ну в общем так.
Текущая реализация ни в чем не убеждает + стандартную процедуру
проверки проходить не желаете.
Уверен, что это не ново.
Поэтому предлагается доказывать свою правоту рекламирующему свой ресурс.
Если все знаете - зачем чье-то мнение?
А я лучше почитаю
здесь
Тут уже сомневались насчет "нечто новое".
Сомнения будут и далее при таком уровне объяснения
- "информационное поле", "информационная вселенная",
"предсказание будущего" - а почему, например, не "семантический анализ", "искусственный разум", "чудо в перьях",
"фокус-покус"?
Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет.
Это не умалит достижений, наоборот, УСИЛИТ, если сделано
днйствительно что-то хорошее.
Ну и что?
Обычная в этой системе ситуация, что коэффициент быстро падает,
и невозможно по нему определить - релевантен элемент хвоста запросу или нет.
Запрос "черная дыра" - 2 и 3 документы нерелевантны -
следующий релевантен, при том что "расстояние" на три порядка меньше/больше - какая же вера в эти коэффициенты?
В общем - прежде чем говорить о супер-пупер технологии - попробуйте
превзойти (аккуратно посчитав полноту-точность) обычный tf*idf.
Ну в лучшем случае - какой-то кластерный алгоритм -
среди лучших представителей, например, NeuroK.
Такие методы неплохо дают кластеры верхних уровней (в лучшем случае несколько десятков),
однако, чем больше коллекция, и чем более "переферичен" запрос
- тем больше шума - кластеры следующих уровней обычно выглядят
ужасно.
Все разваливается, если в запросе соединяются элементы, входящие
во многие кластеры.
Например, попробуйте "белый человек", "белый билет",...
На запрос "черный человек" возвращаются документы про "черные метки", "черные дыры", "черное пятно" - потому что какие-то люди там тоже есть.
Поэтому вопрос об универсальности, оптимальности сей "чудо-машины" как минимум открыт.
В настоящее время это только CLEF (40 Мбайт Известий-1995) и РОМИП.
Участие в семинаре в этом году, думаю, будет БЕСПЛАТНЫМ
(вроде бы получен грант РФФИ на оплату проверяющих).
РОМИП - не пузомерка - никто не собирается всерьез сравнивать
разные системы, поставленные в разные условия.
Речь идет об исследовании на практике неясных вопросов.
Я думаю, что ккасается РОМИП этот вопрос будет решен в ближайшее время.
См.
соседний топик
либо TREC
либо CLEF
а морфология здесь причем?