делаем свой собственый поиск по созданным смысловым сетям. + подключаем знания о мире.
добавил новые статсы по семантическому анализатору:
www.icreator.ru/isearch/progress.htm
А по каким критериям тогда оценивается работа анализатора? (кроме скорости)
У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(
Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.
Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.
Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.
У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.
для viellsky:
киньте, пожалуйста примеры разбираемы предложений сюда, так же как сделал я.
Вы сравнивали свой анализатор тектса с анализатором от АОТ?
ну, да там еще нужно уйму знаний напихать чтобы она чего-то осмысленное начала выдавать.
P.S. данной проблематикой занимаюсь профессионально. Ну и еще немного чисел - непосредственно синтаксический анализ текста (он же построение дерева зависимостей) 1 мегабайта русскоязычного текста у нас происходит за 5-15 секунд.
а по подробней? демка есть? Сложность ЕЯ тескта нормальная?
Обождите, разве по ссылке, которую я дал, тамошний глоссарий ничего не разьясняет? Просто, я тогда не занаю как объяснить еще :(
почему бы Вам тогда не задать эти вопросы мне? Лично я не могу читать мысли на расстоянии, поэтому не "в зуб ногой" что Вам не понятно. Извините за то что необщеупотребительные термины, так как я самоучка и умных книг по этой теме не читал.
вот глоссарий и описание текущего состояния разработки
http://www.icreator.ru/isearch/progress.htm
Кстати я более точно посчитал, % "понимания" (читай связывания слов) около 45% получается с учетом неизвестных слов.
Для УК РФ например 47% получилось
вот ОНО, теперь все понял, спасибо за разьяснения. Действительно, возможно я тот "алкоголик". Нужно что-то с этим делать... Нужно делать простую реализацию без "вертикального взлета" но с возможностью демонстрации минимума.
НО вот что есть минимум? (далее ++ - реализовано, -+неполная реализация, -- - не реализовано)
1. анализатор понимающий ___% ЕЯ текста. (поставьте то что для минимума Вам подойдет)
2. накопление "понятых" знаний. (++)
3. использование "понятых" знаний для улучшения семантического анализа ЕЯ (пока нету)
4. ввод правил-знаний: а) на ЕЯ языке (--), б) на внутреннем, служебном языке (++)
5.1 ПОИСК ЕЯ текста в базе знаний(++). а) с использованием переменных (--), б) с логикой (--), в) с разного рода функциями и условиями (--)
5.2 ВЫПОЛНЕНИЕ запроса на служебном языке (++). а) с использованием переменных (++),
б) с логикой (-+ реализовано: ИЛИ, НЕ, И;),
в) с разного рода функциями и условиями (-+, реализованы: функция переключения базы знаний, показать значения переменных;, команды СУБД: типа добавь, удали смысл;, некоторые команды поиска:пропустить узел, необязательный смысл, точный смысл)
6. вывод найденного. а) на внутреннем служебном языке (++), б) на ЕЯ языке (--), в)оригинала текста ЕЯ (--)
Что еще можно сюда вписать и какие пункты нужно дореализовать так, чтобы Вам было интересно посмотреть на демку?