Анализатор документов

Ashmanov
На сайте с 21.11.2000
Offline
66
#71

Кстати. Была интересная программа у МедиаЛингвы (мною со товарищи в 1997 и сделанная), которая выполняла "смысловое сжатие" текста и составляла аннотации текстов или выбирала самые важные термины.

Программа называлась Либретто. Я сам, когда ещё был совладельцем и гендиректором МЛ, придумал это название и зарегистрировал по всем компьютерным категориям. Потом, уже после моего ухода, МедиаЛингва всё же вытребовала с Тошибы 70 килобаксов за нарушение прав на имя (Тошиба стала ввозить и продавать Либретки, не имея права на товарный знак, который уже принадлежал МЛ) и название сняла. Но МЛ проект не только переименовала, а куда-то вообще задевала.

Не знаю, может быть, программа есть ещё где-то в сети в бесплатном виде (была и широко раздавалась одномесячная пробная версия). Нужно поискать Libretto вместе с MediaLingua, вдруг повезёт.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
B
На сайте с 25.09.2001
Offline
42
#72

<font face="Verdana" size="2">Originally posted by Ashmanov:
Нужно поискать Libretto вместе с MediaLingua, вдруг повезёт.</font>

Есть на этом сайте вроде:

http://www.filelibrary.com

не так то просто найти было!

Baranov Evgeny
ES
На сайте с 16.11.2001
Offline
1
EDS
#73

ребята - используйте для таких целей логические языки программирования

Вот небольшая статья на моем сайте

www.icreator.ru

[This message has been edited by Gray (edited 16-11-2001).]

Дмитрий Ермолаев
Ashmanov
На сайте с 21.11.2000
Offline
66
#74

<font face="Verdana" size="2">Originally posted by EDS:
ребята - используйте для таких целей логические языки программирования
Вот небольшая статья на моем сайте
www.icreator.ru
</font>

Два замечания:

а) проблема машинной морфологии не имеет никакого отношения к используемым инструментам. Какая разница голодному, чем мазать масло на хлеб - ножом, ложкой или вилкой? Было бы масло. А намазать нужно ровно один раз. Притом, предлагаемый метод как раз подобен намазыванию масла сапогом.

Маслом же являются лингвистические данные.

б) в приведённой статье с самого начала сделано довольно грубое, но скрытое допущение. Там как единственный возможный путь предлагается создание БЕССЛОВАРНОЙ морфологии, а всё, что не ложится в эту схему, называется исключениями или дополнениями.

Основной принцип бессловарной морфологии - построение гипотез о словоизменении и основе слов по окончаниям и, очень редко, приставкам. Про приставки обычно декларируют лдя общности, но никто не делает - опять-таки нужно слишком много лингвистики.

На самом деле, большинство используемых в боевых сервисах машинных морфологий - словарные, то есть использующие словарь основ с морфинформацией при них.

И это не случайно - бессловарные морфологии дают много шума, и дают только довольно низкокачественную нормализацию, то есть определение основы.

Но не позволяют от косвенной формы слова перейти к другим косвенным формам, то есть восстановить ПАРАДИГМУ лексемы.

Ну и чередования в основе (писать-пишу) и супплетивизмы (быть/есть)бессловарной морфологии не под силу.

То есть, это дешёвое, наколеночное решение при отсутствиии ресурсов у разработчика. Использовать по бедности можно, но будет шум. "Бином" будет распознаваться, как творительный от несуществующего "бин", "кровать" опять же и так далее.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#75

<font face="Verdana" size="2">Originally posted by Ashmanov:
Но МЛ проект не только переименовала, а куда-то вообще задевала.
Не знаю, может быть, программа есть ещё где-то в сети в бесплатном виде (была и широко раздавалась одномесячная пробная версия). Нужно поискать Libretto вместе с MediaLingua, вдруг повезёт.
</font>

Повезло

Новое название ML Annotator

И скачать свободно можно с ftp.medialingva.ru

AiK
На сайте с 27.10.2000
Offline
257
AiK
#76

К сожалению с win2K word2K работать не хочет

K
На сайте с 25.03.2001
Offline
48
#77

<font face="Verdana" size="2">Originally posted by AiK:
И скачать свободно можно с ftp.medialingva.ru

</font>

А я скачать почему-то не могу, можно мне на мыло сбросить: kievua@europe.com

E
На сайте с 22.04.2002
Offline
13
#78

Похоже Page Analyzer больше не развивается, а жаль. Может уважаемый AiK предоставит сорцы этой программы, а то уж больно не хочется начинать писать такую прогу с нуля.

L2
На сайте с 20.02.2002
Offline
61
#79

Где можно взять ML Annotator?

На ftp.medialingva.ru даже не пускают.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий