icreator

Рейтинг
36
Регистрация
22.09.2003

делаем свой собственый поиск по созданным смысловым сетям. + подключаем знания о мире.

добавил новые статсы по семантическому анализатору:

www.icreator.ru/isearch/progress.htm

Как писал viellsky


Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.
А статистика есть только по скорости работы.

А по каким критериям тогда оценивается работа анализатора? (кроме скорости)

У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(

Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.

Как писал viellsky
icreator, кстати, по поводу скорости разбора. Прологу и текстовым файлам правил сложно состязаться с С++ и морфологическим словарем с хэш-таблицами.

Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.

Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.

У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.

для viellsky:

киньте, пожалуйста примеры разбираемы предложений сюда, так же как сделал я.

Вы сравнивали свой анализатор тектса с анализатором от АОТ?

Как писал viellsky
Я вот только понять не могу. Почему весь вопрос сводится к правильному разбору предложения?
Ну распарсит он все эти предложения, а дальше то что? Проблема корректного поиска здесь опять же выходит на первый план. Простого поиска одинаковых фрагментов дерева разбора запроса и текста совершенно недостаточно.

ну, да там еще нужно уйму знаний напихать чтобы она чего-то осмысленное начала выдавать.


P.S. данной проблематикой занимаюсь профессионально. Ну и еще немного чисел - непосредственно синтаксический анализ текста (он же построение дерева зависимостей) 1 мегабайта русскоязычного текста у нас происходит за 5-15 секунд.

а по подробней? демка есть? Сложность ЕЯ тескта нормальная?

Обождите, разве по ссылке, которую я дал, тамошний глоссарий ничего не разьясняет? Просто, я тогда не занаю как объяснить еще :(

почему бы Вам тогда не задать эти вопросы мне? Лично я не могу читать мысли на расстоянии, поэтому не "в зуб ногой" что Вам не понятно. Извините за то что необщеупотребительные термины, так как я самоучка и умных книг по этой теме не читал.

Как писал NULL
напишите какой-нибудь нормальный глоссарий, а то употребление фраз вроде "анализатор, понимающий ЕЯ текст", "накопление понятых знаний", "использование понятых знаний", "ввод правил-знаний" только напускает тумана и лично у меня вызывает ассоциации только с цепочкой сепульки-сепулькарий-сепулькация.

вот глоссарий и описание текущего состояния разработки

http://www.icreator.ru/isearch/progress.htm

Кстати я более точно посчитал, % "понимания" (читай связывания слов) около 45% получается с учетом неизвестных слов.

Для УК РФ например 47% получилось

Как писал Ashmanov
Ведь очень много людей, которым сколько ни дай денег, толку не будет. Есть куча разработчиков, которым деньги и помощь только повредят, как алгкоголику - выдача денег на водку.
Дашь денег - и такой разработчик ещё больше погрязнет в умствованиях, в фантазиях, будет годами вылизывать какую-нибудь ненужную людям тютельку и восхищаться ею. Создаст универсальное настраиваемое ядро на воздушной подушке с вертикальным взлётом и лазерным наведением, которое в принципе может всё (если ещё потратить столько же и крылья, хвост, шасси прикрутить). А до продукта руки не дойдут.

вот ОНО, теперь все понял, спасибо за разьяснения. Действительно, возможно я тот "алкоголик". Нужно что-то с этим делать... Нужно делать простую реализацию без "вертикального взлета" но с возможностью демонстрации минимума.

НО вот что есть минимум? (далее ++ - реализовано, -+неполная реализация, -- - не реализовано)

1. анализатор понимающий ___% ЕЯ текста. (поставьте то что для минимума Вам подойдет)

2. накопление "понятых" знаний. (++)

3. использование "понятых" знаний для улучшения семантического анализа ЕЯ (пока нету)

4. ввод правил-знаний: а) на ЕЯ языке (--), б) на внутреннем, служебном языке (++)

5.1 ПОИСК ЕЯ текста в базе знаний(++). а) с использованием переменных (--), б) с логикой (--), в) с разного рода функциями и условиями (--)

5.2 ВЫПОЛНЕНИЕ запроса на служебном языке (++). а) с использованием переменных (++),

б) с логикой (-+ реализовано: ИЛИ, НЕ, И;),

в) с разного рода функциями и условиями (-+, реализованы: функция переключения базы знаний, показать значения переменных;, команды СУБД: типа добавь, удали смысл;, некоторые команды поиска:пропустить узел, необязательный смысл, точный смысл)

6. вывод найденного. а) на внутреннем служебном языке (++), б) на ЕЯ языке (--), в)оригинала текста ЕЯ (--)

Что еще можно сюда вписать и какие пункты нужно дореализовать так, чтобы Вам было интересно посмотреть на демку?

123 4
Всего: 37