PHP-версия морфологии

12
K
На сайте с 27.11.2000
Offline
80
3047

Собственно, сделал subj как классическое php-расширение.

Сейчас сделал публичными 4 функции:

function mlmaruCheckWord( $string, $dwsets );

function mlmaruLemmatize( $string, $dwsets );

function mlmaruBuildForm( $string|$lexeme, $formid );

function mlmaruCheckHelp( $szmask );

download: http://www.keva.ru/ling/rus/download.htm

help: http://www.keva.ru/ling/rus/help.htm

С уважением, Андрей Коваленко aka Keva
xXх
На сайте с 19.01.2009
Offline
70
#1

Хм. всю жизнь пользовался phpmorfy, надо будет попробовать. Респект огромный!

K
На сайте с 27.11.2000
Offline
80
#2
xXх:
Хм. всю жизнь пользовался phpmorfy, надо будет попробовать. Респект огромный!

По идее, должно понравиться. Потому как "нативный" для процессора код, "обёрнутый" в PHP.

По запросу могу выложить и версию для *nix. Но, вероятно, только по возвращении из Таиланда :)

S
На сайте с 02.04.2009
Offline
1
#3

Занимательно

G.Vad!k
На сайте с 04.10.2007
Offline
74
#4

C юникодом как я понял не дружит. Да?!

DmitryShustov
На сайте с 27.11.2004
Offline
255
#5

Спасибо. Будем тестить.

S
На сайте с 02.04.2009
Offline
1
#6

Завтра на работе потестирую, идея интересная

Распродажа -50% forum.searchengines.ru/showthread.php?p=4621370
U
На сайте с 17.01.2009
Offline
9
#7

Как с юникодом? Можно прикрутить к другому языку?

Какова производительность?

K
На сайте с 27.11.2000
Offline
80
#8
userad:
Как с юникодом? Можно прикрутить к другому языку?
Какова производительность?

No cyrillic keyboard here, at Koh Samui... Sorry!

The performance of original, C/C++ library is really limited by bus performance, the tests show the performance >>= (no less than) 10,000 words per second, some tests on good computers provide about 100000 words per second and more in sequental plain text lemmatization mode (without normal forms string generation, lemmas only).

The PHP wrapper (PHP extension based on native dictionary), probably, will be slower regardless to API support and variables decoding.

Unicode - no problem, the C/C++ vesrion received UTF16 API 2 years ago. Perhaps, I'll support unicoide and in PHP edition for first request of fully-qualified technology.

Евгений Иванов
На сайте с 26.07.2006
Offline
272
#9

Прошу прошения, подписался на тему :)

Wap.Click / Вап.Клик / Я - рядом!
Alek$
На сайте с 25.06.2008
Offline
34
#10

Keva, как я понимаю, исходники закрыты?

Google Cache Dumper & Bing Cache Dumper (/ru/forum/479980) RegSubmitter - Регистратор аккаунтов в социальных закладках (/ru/forum/300978) Мой блог (http://nevkontakte.org.ru).
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий