Если же интересуют тексты для некоммерческих целей - попробуйте обратиться за ними в РОМИП.
Там будет и легче сравниться - можно, наверное, отдельную дорожку организовать.
Так я не понял, при чем здесь был ruscorpora? (Это наезд? :) )
Почему оттуда нельзя получить такие списки?
Можно также обратиться в Яндекс. Такие списки доступны в рамках программы стипендий.
А нельзя ли по-подробнее?
Я, все-таки, полагаю, что с ruscorpora.ru вполне можно договориться. Либо Вы сообщаете здесь не все детали...
Так это тот же вопрос - что такое ya.ru?
Это ведь не "только ценный мех", но и бизнес проект.
Мало построить систему, надо чтобы она окупалась, желательно хорошо окупалась.
А без денег (своей ниши на рынке) ясное дело - все быстро развалится.
Особенно если были взяты чужие деньги (а где взять свои-то) и их надо возвращать.
А что такое система "типа" Я?
Только программная часть основных алгоритмов (сбор, индексирование, поиск) недорога (для получения первой работоспособной версии).
В зависимости от энтузиазма и квалификации участников разработки от 20 до 50 тыс уе - три-шесть месяцев - имеется в виду, что есть какие-то наработки и знают что делать.
Однако, для поддержки системы, отвечающей на миллион(ы) запросов в день, придется все "доводить", и СТРОИТЬ вычислительную систему специальной архитектуры.
Это будет стоить от 300 до 1000 тыс уе и затянется года на два
(опять же энтузиазм/знания) .
Как всегда можно все суммы помножить на два.
Такое бесплатное чудо чтобы все в одной упаковке лучше искать здесь :) .
Добрый день!
В принципе WN, может быть, и не лучшее решение, но самое прозрачное. Особенно на начальном этапе, где можно быстро править словари самому.
Ну вот Вам простенькая табличка, полученная из 12-17 правил,
преобразований концов слов
=======================
A z %zzer%zzest
A y %ier%iest
A x %xxer%xxest
A v %vver%vvest
A t %tter%ttest
A s %sser%ssest
A r %rrer%rrest
A q %qqer%qqest
A p %pper%ppest
A n %nner%nnest
A m %mmer%mmest
A l %ller%llest
A k %kker%kkest
A j %jjer%jjest
A h %hher%hhest
A g %gger%ggest
A f %ffer%ffest
A e %er%est
A d %dder%ddest
A c %ccer%ccest
A b %bber%bbest
A # %er%est
N z %zes
N y %ies
N x %xes
N sh %shes
N s %ses
N ing %ing
N er %er
N ch %ches
N # %s
V z %zes%zzed%zzing
V y %ies%ied%ying
V x %xes%xxed%xxing
V w %ws%wwed%wwing
V v %vs%vved%vving
V t %ts%tted%tting
V s %ses%ssed%ssing
V r %rs%rred%rring
V q %qs%qqed%qqing
V p %ps%pped%pping
V n %ns%nned%nning
V m %ms%mmed%mming
V l %ls%lled%lling
V k %ks%kked%kking
V j %js%jjed%jjing
V ie %ies%ied%ying
V h %hs%hhed%hhing
V g %gs%gged%gging
V f %fs%ffed%ffing
V e %es%ed%ing
V d %ds%dded%dding
V c %cs%cced%ccing
V b %bs%bbed%bbing
V # %s%ed%ing
1) встречаете слово
2) смотрите в списке исключений (если есть, то ok)
3) если нет - смотрите, что можно отсечь по табличке + контроль того, что получается по спискам по частям речи
+ рекомендуется обработку буферизовать
+ пополнять/чистить словари
+ для незнакомого слова оставлять заодно и входную форму
Мне кажется, это ошибка WN - придется пополнять словари
Да.....
Вам нужны ДРУГИЕ файлы
(это такие файлы, которые лежат РЯДОМ, то есть близко, то есть следующие за теми, которые Вы посмотрели!)
то есть не noun.dat, но noun.exc :
aardwolves aardwolf
abaci abacus
aboideaux aboideau
aboiteaux aboiteau
abscissae abscissa
acanthi acanthus
acari acarus
acciaccature acciaccatura
acetabula acetabulum
achaemenidae achaemenid
achaemenides achaemenid
acicula aciculum
aciculae acicula
....
это и есть исключения при образовании множественного числа
(множественное число - это когда много, в отличие от того когда один!).
а также файлы *.idx откуда легко можно взять списки слов по частям речи
P.S. файлы *.dat содержат информацию о синомических связях по G.Miller'у (синсеты) и связях между синсетами в психолого-лингвистическом контексте (это я пожалуй не буду пояснять, тут есть разные мнения)
Вы, я вижу, издеваетесь...
В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.
Пункт первый, он же последний, берете программиста он Вам все делает за пару-тройку часов.
Вам же сказали про WordNet. Там есть списки исключений и списки слов по частям речи (правда, придется на практике почистить).
А то, что без исключений - описывается 12 или 17 основными, всем известным, правилами (после раскрытия повторов согласных правил 50-100 - точно не помню).
И это вполне работоспособно.
Есть еще Porter Stemming - этим многие пользуются, но мне не нравится.