Это случаем не та самая история про СЕ комплекс и гавалекс? :)
Так я не понял, у тебя сама ПОИСКОВАЯ система есть? Или только синтаксический анализатор?
А как ты собираешься строить смысловые сети?
А что такое знания о мире? Очень уж непонятно, прямо Машкин Эдельвейс Захарович получается со своим думателем внутре...
Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:
Каким образом использовать результаты синтаксического анализа в поисковой системе?
Как бы это глупо не звучало, но критерии пока что чисто субъективные.
Вообще, сейчас работы по первой версии уже заморожены, разрабатывается новый анализатор с более навороченной физической моделью. Возможно при оценки эффективности работы будут (опять же субъективно) оцениваться получающиеся предикаты (подл-сказуемое-дополнение/обстоятельство). Также еще дополнительные аспекты, например правильность определения типа обстоятельства.
Все таки как ни крути, но Пролог - это еще один уровень абстракции, причем уровень абстракции, затрагивающий именно вычислительный процесс, а не представление информации. Поэтому он заведомо уступает по скорости работы коду, созданному с помощью С++.
Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.
А статистика есть только по скорости работы.
Про морфологию - Зализняк(ака Железняк) в оцифрованном виде действительно кривой, не в пример бумажному. Над словарем у нас работают отдельно лингвисты. Также помимо морфологии отдельных слов, потихоньку появляется морфология словосочетаний.
И вот еще что: за то что я характеристики слов и словосочетаний называю морфологическими, лингвисты меня нещадно пинают, так что я потихоньку приучаю себя называть их статическими (поскольку лежат они у них статично в базе :) )
Примеров у нас как таковых нет. Примеры мы используем только на этапе разработки и совершенствования анализатора. А вообще, анализатор работает в составе системы, так что вынужден разбирать все, что ему дадут.
Посмотрел АОТ - фактически принципы анализа у них и у нас похожи.
На данный момент в анализе у нас вовлечены три модуля - лексический (он же графоматический у АОТ), морфологический и собственно синтаксический.
По поводу сравнения... Видите ли, непонятно как сравнивать. Я уже говорил и повторю, что качественные показатели анализатора нужны такие, что будут удовлетворять целям поисковой системы в целом.
Ведь целью является разработать не анализатор, а поисковую сиистему. Только не подумайте, что этими словами я прикрываю убогость нашего анализатора. Но, с другой стороны я не стану говорить, что у нас он супер и парсит почти все - это тоже неверно :).
И все же, icreator, что вы думаете именно о поиске и как вы хотите использовать результаты синтаксического анализа при работе поисковой системы?
icreator, кстати, по поводу скорости разбора. Прологу и текстовым файлам правил сложно состязаться с С++ и морфологическим словарем с хэш-таблицами.
Эээ... по поводу знаний - это стеб? В машину знаний не впихнешь. По крайней мере на данный момент :)
Демки нет. Сложность любая, только, сами понимаете, точность ну очень уж сильно зависит от сложности.
Собственно, как я уже сказал, главное ведь не разбор. Точнее, для поисковика синтаксический разбор не есть самоцель. И желаемая глубина и точность его определяются: алгоритмом поиска, ограниченностью системных ресурсов, ну и конечно же IQ(ну или чем то в этом роде) людей его создающих.
И все таки, что есть сказать у завсегдатаев сей темы?
Ценю оказанное внимание, хотя, впрочем, зачем по нику искать обо мне информацию? Спросите, я сам расскажу :). Ну а писал собственно не я...
Я вот только понять не могу. Почему весь вопрос сводится к правильному разбору предложения?
Ну распарсит он все эти предложения, а дальше то что? Проблема корректного поиска здесь опять же выходит на первый план. Простого поиска одинаковых фрагментов дерева разбора запроса и текста совершенно недостаточно.
P.S. данной проблематикой занимаюсь профессионально. Ну и еще немного чисел - непосредственно синтаксический анализ текста (он же построение дерева зависимостей) 1 мегабайта русскоязычного текста у нас происходит за 5-15 секунд.