Алгоритмы

B
На сайте с 25.09.2001
Offline
42
#31

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
</font>

А если делат это по аналогу ispell? я мельком глянул, какая у них оргганизация данны - по моему очень подходит... и казусов таких не будет кстати в "лесби" корень разве "лес"?

<font face="Verdana" size="2">
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
</font>

Все мои знакомые филологи занимаются не русским и на комп косо смотрят.... Про веб слышали только от меня. работа у них такая...

<font face="Verdana" size="2">
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.

Слово "лес" не испохабил
но вот это не съел:

Парадигма для слова морфий:
морф морфы морфа морфов морфу морфам морф морфы морфом морфами морфе морфах


</font>

В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

это точно. Но мне интереснее самому в этом разобраться в комплекте с организацией данных.

Baranov Evgeny
K
На сайте с 27.11.2000
Offline
80
#32

<font face="Verdana" size="2">Originally posted by baranov:
Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....
Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.

правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....
</font>

Действительно с автором :-) А под некоммерческим использованием надо понимать использование в исследовательских и научных целях или в некоммерческих продуктах. Например, если Вы хотите выставить свой продукт, использующий этот морфоанализатор, в Сеть, то на этих страницах не должно быть баннеров :-) Короче, никакого извлечения денег :-)

С уважением, Андрей Коваленко aka Keva
K
На сайте с 27.11.2000
Offline
80
#33

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Originally posted by baranov:
Здорово все....
А есть ли менее комерческие реализации?
или более простые решения - по типу того, что я говорил - отбрасывать окончания и возможно суффикс за компанию....
</font>

Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) Хотя у меня их много. Например, "скотоложство" :-)

Кстати, посмотрел твою морфологию по ссылке. Работает, однако подтверждает твои слова о том, что это - куча хлопот и времени. Я свой нынешний любимый запрос скормил туда - и получил формы множественного числа, т. е. "скотоложствами" :-)

Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)

А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))

B
На сайте с 25.09.2001
Offline
42
#34

<font face="Verdana" size="2">Originally posted by Keva:
Короче, никакого извлечения денег :-)</font>

Так не бывает

а такой вопрос - на сколько он быстро работает? (к чему стремиться)

K
На сайте с 27.11.2000
Offline
80
#35

<font face="Verdana" size="2">Originally posted by baranov:
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)
</font>

Бывает-бывает

Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.

B
На сайте с 25.09.2001
Offline
42
#36

<font face="Verdana" size="2">Originally posted by Keva:
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.
</font>

Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....

Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.

Какой прогноз специалиста?

K
На сайте с 27.11.2000
Offline
80
#37

<font face="Verdana" size="2">Originally posted by baranov:

...
Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.
</font>

Ты знаешь, есть несколько способов, а именно - много , организовать словарь. Я использую описанное на сайте дерево (кстати, через пару лет после того, как я сделал этот анализатор, такой подход был описан какими-то итальянцами или испанцами).

Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.

Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.

B
На сайте с 25.09.2001
Offline
42
#38

<font face="Verdana" size="2">Originally posted by Keva:
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
</font>

да, он поделился этим на 1 странице форума:

<font face="Verdana" size="2">Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.</font>

Дихотомия - это и есть бинарное дерево?

[This message has been edited by baranov (edited 05-10-2001).]

spark
На сайте с 24.01.2001
Offline
130
#39

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
[Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите </font>

вот парадигма слова стул на твоем анализаторе

Парадигма для слова стул:

стул стулы стула стулов стулу стулам стул стулы стулом стулами стуле стулах стул стулы стула стулов стулу стулам стул стулы стулом стулами стуле стулах

VT
На сайте с 27.01.2001
Offline
130
#40

<font face="Verdana" size="2">Originally posted by Keva:
Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) </font>

Я имел в виду только "лес" - полгода назад серьезно за него получил по рукам Стемминг у меня тогда дал баг и давал шаблончик вроде "лес\w+", по которому я и пролетел По тому, как профессионально меня потом в форуме распекли и какой был ник, я и подумал... в общем, сорри, значит ошибся.

<font face="Verdana" size="2">
Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)
</font>

Для этого нужен хороший большой словарь. А пока нету

<font face="Verdana" size="2">
А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))
</font>

Тут нужно хотя бы попытаться нормальную четкую морфологию родить

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий