Как привести слова к нормальной форме?

37

Rusl

10 марта 2005, 17:36

4569

Недавно на форуме спрашивал о морфоанализаторе. Но их способности оказались для моей работы избыточны, да и сложность подключения смущает.

Может кто-нибудь знает, как мне проще всего привести слово к нормальной форме (для английского языка)? Возможно у кого нибудь есть ссылки на словари?

Буду благодарен за каждый ответ.

B

42

bvd

10 марта 2005, 18:29

#1

Как писал Rusl

Может кто-нибудь знает, как мне проще всего привести слово к нормальной форме (для английского языка)? Возможно у кого нибудь есть ссылки на словари?

Вам же сказали про WordNet. Там есть списки исключений и списки слов по частям речи (правда, придется на практике почистить).

А то, что без исключений - описывается 12 или 17 основными, всем известным, правилами (после раскрытия повторов согласных правил 50-100 - точно не помню).

И это вполне работоспособно.

Есть еще Porter Stemming - этим многие пользуются, но мне не нравится.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

10 марта 2005, 19:46

#2

Как писал bvd

Вам же сказали про WordNet. Там есть списки исключений и списки слов по частям речи (правда, придется на практике почистить).

А то, что без исключений - описывается 12 или 17 основными, всем известным, правилами (после раскрытия повторов согласных правил 50-100 - точно не помню).

И это вполне работоспособно.

Все так. Но проблема заключается в подключении WordNet'ой базы к моей программе. Я работаю с FoxPro и соответствующего интерфейса там нет. Возможно я просто не нашел на сайте более простого способа работы с их базой.:(

Не могли бы Вы посоветовать, что мне сделать в этой ситуации? Как получить доступ к его базе?

Ваша помощь мне очень важна.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

11 марта 2005, 07:06

#3

Как писал Rusl

Но проблема заключается в подключении WordNet'ой базы к моей программе. Я работаю с FoxPro ...

Вы, я вижу, издеваетесь...

В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.

Пункт первый, он же последний, берете программиста он Вам все делает за пару-тройку часов.

Инструкция к автомобилю марки Роллс-Ройс

Если Ваш автомобиль неисправен, Ваш шофер знает, что делать.

R

37

Rusl

11 марта 2005, 14:33

#4

Как писал bvd

Вы, я вижу, издеваетесь...
В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.

Вы правы. Я поначалу не обратил на это внимание.

Рискую показаться туповатым, но все ссылки о подробной работе с базой ведут на печатную книгу. Данные в текстовых файлах представлены в таком виде:

00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"

00073785 29 v 03 overtire 0 overweary 0 overfatigue 0 001 @ 00072813 v 0000 02 + 09 00 + 10 00 | tire excessively

00073901 29 v 05 tire 0 pall 0 weary 1 fatigue 1 jade 0 005 @ 00089731 v 0000 + 02295758 n 0502 + 07075951 n 0401 ~ 00096774 v 0000 ~ 01716002 v 0000 01 + 02 00 | get tired of something or somebody

А как интерпретировать данные в этом файле?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Отчет о конференции User

B

42

bvd

11 марта 2005, 19:04

#5

Как писал Rusl

Данные в текстовых файлах представлены в таком виде:

00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"

А как интерпретировать данные в этом файле?

Да.....

Вам нужны ДРУГИЕ файлы

(это такие файлы, которые лежат РЯДОМ, то есть близко, то есть следующие за теми, которые Вы посмотрели!)

то есть не noun.dat, но noun.exc :

aardwolves aardwolf

abaci abacus

aboideaux aboideau

aboiteaux aboiteau

abscissae abscissa

acanthi acanthus

acari acarus

acciaccature acciaccatura

acetabula acetabulum

achaemenidae achaemenid

achaemenides achaemenid

acicula aciculum

aciculae acicula

....

это и есть исключения при образовании множественного числа

(множественное число - это когда много, в отличие от того когда один!).

а также файлы *.idx откуда легко можно взять списки слов по частям речи

P.S. файлы *.dat содержат информацию о синомических связях по G.Miller'у (синсеты) и связях между синсетами в психолого-лингвистическом контексте (это я пожалуй не буду пояснять, тут есть разные мнения)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

12 марта 2005, 14:36

#6

Тоесть Вы хотите сказать, что надо взять *.idx файлы и написать программку, с использованием "12 или 17 основных, всем известных, правил", которая приводит слова к начальной форме? А иначе никак?

Посмотрел на исключения в verb.exc. Все глаголы почему то имеют только две формы, например: seen see или sent send. А где еще одна?

P.s. Кстати, спасибо за разъяснение понятия "другие". Теперь буду им правильно пользоваться. :)

Малоценная или маловостребованная страница Скрыть от всех лишний В Google все еще

R

37

Rusl

13 марта 2005, 10:24

#7

С файлами я кажется разобрался.

Спасибо за разъяснения. :)

B

42

bvd

14 марта 2005, 10:13

#8

Как писал Rusl
Кроме WN просмотрел также:
http://aspell.sourceforge.net/
http://www.aot.ru/download.shtml

и тот что Вы мне посоветовали:
http://www.tartarus.org/~martin/PorterStemmer/

В структуре WN я вроде разобрался.

Добрый день!

В принципе WN, может быть, и не лучшее решение, но самое прозрачное. Особенно на начальном этапе, где можно быстро править словари самому.

Как писал Rusl
Но не понял как быть с окончаниями -ing, -ed, -er и прочими, ведь в файлах представлена только начальная форма.

Ну вот Вам простенькая табличка, полученная из 12-17 правил,

преобразований концов слов

=======================

A z %zzer%zzest

A y %ier%iest

A x %xxer%xxest

A v %vver%vvest

A t %tter%ttest

A s %sser%ssest

A r %rrer%rrest

A q %qqer%qqest

A p %pper%ppest

A n %nner%nnest

A m %mmer%mmest

A l %ller%llest

A k %kker%kkest

A j %jjer%jjest

A h %hher%hhest

A g %gger%ggest

A f %ffer%ffest

A e %er%est

A d %dder%ddest

A c %ccer%ccest

A b %bber%bbest

A # %er%est

N z %zes

N y %ies

N x %xes

N sh %shes

N s %ses

N ing %ing

N er %er

N ch %ches

N # %s

V z %zes%zzed%zzing

V y %ies%ied%ying

V x %xes%xxed%xxing

V w %ws%wwed%wwing

V v %vs%vved%vving

V t %ts%tted%tting

V s %ses%ssed%ssing

V r %rs%rred%rring

V q %qs%qqed%qqing

V p %ps%pped%pping

V n %ns%nned%nning

V m %ms%mmed%mming

V l %ls%lled%lling

V k %ks%kked%kking

V j %js%jjed%jjing

V ie %ies%ied%ying

V h %hs%hhed%hhing

V g %gs%gged%gging

V f %fs%ffed%ffing

V e %es%ed%ing

V d %ds%dded%dding

V c %cs%cced%ccing

V b %bs%bbed%bbing

V # %s%ed%ing

=======================

Как писал Rusl
И как быть с исключениями?

1) встречаете слово

2) смотрите в списке исключений (если есть, то ok)

3) если нет - смотрите, что можно отсечь по табличке + контроль того, что получается по спискам по частям речи

+ рекомендуется обработку буферизовать

+ пополнять/чистить словари

+ для незнакомого слова оставлять заодно и входную форму

Как писал Rusl
Почему в verb.exc слова представлены только в двух формах?

Мне кажется, это ошибка WN - придется пополнять словари

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

R

37

Rusl

14 марта 2005, 15:53

#9

Спасибо большое!

Теперь принципы реализации гораздо яснее. Пожалуй так действительно можно создать эффективный нормализатор.

Еще раз спасибо.

S

0

skv

15 июня 2005, 13:23

#10

Здравствуйте коллеги.

Наша фирма (www.inteltec.ru) как и многие участника данного форума занимается вопросами анализа естественных текстов. В настоящий момент готовится морфологический анализатор обучаемый на большом массиве текстов. Используемый подход детально будет рассмотрен на конференции RCDL'2005. Для достижения приемлемого качества разбора нам необходимо очень много рускоязычных текстов. Имеющиеся в нашем распоряжении базы текстовых документов содержат порядка 400 тысяч текстовых сообщений (~1 млн. словоформ), но для получения независимых результатов нам бы хотелось проверить наши методы обучения на более крупном массиве, взятом со стороны. Мы обращались за помощью к ruscorpora.ru, но понимания не встретили. Если кто-нибдуь сможет предоставить свои текстовые массивы мы будем очень благодарны, Ваши данные не будут использоваться в коммерческих целях.

В итоге для обучения анализатор нам нужны не столько тексты, сколько список используемых словоформ, так что, если у кого-то есть возможность выгрузить ключи индекса поисковой машины без предоставления полноценных текстов, то мы заранее согласны. Результаты и действующий анализатор будут выложены на нашем Web - сайте.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Google: E-E-A-T не является фактором ранжирования