bvd

Рейтинг
42
Регистрация
02.09.2002

Если же интересуют тексты для некоммерческих целей - попробуйте обратиться за ними в РОМИП.

Там будет и легче сравниться - можно, наверное, отдельную дорожку организовать.

skv:

В рамках данной задачи сами тексты нам не нужны, нам нужны только словоформы. Получить доступ к размеченному корпусу было бы тоже неплохо для наших дальнейших разработок, несвязанных с морфологическим анализом, но сейчас это необязательно.

Так я не понял, при чем здесь был ruscorpora? (Это наезд? :) )

Почему оттуда нельзя получить такие списки?

Можно также обратиться в Яндекс. Такие списки доступны в рамках программы стипендий.

Как писал skv
Мы обращались за помощью к ruscorpora.ru, но понимания не встретили.

А нельзя ли по-подробнее?

Я, все-таки, полагаю, что с ruscorpora.ru вполне можно договориться. Либо Вы сообщаете здесь не все детали...

Как писал Vyacheslav Tikhonov

Это при наличии наработок и знаний. Вообще-то я знал команды, которым удавалось сделать более-менее приличный поисковик, но дальше этого дело обычно не заходило и все быстро валилось. :(

Так это тот же вопрос - что такое ya.ru?

Это ведь не "только ценный мех", но и бизнес проект.

Мало построить систему, надо чтобы она окупалась, желательно хорошо окупалась.

А без денег (своей ниши на рынке) ясное дело - все быстро развалится.

Особенно если были взяты чужие деньги (а где взять свои-то) и их надо возвращать.

Как писал 4LF
можно назвать диапазон стоимости разработки системы "типа" ya.ru

А что такое система "типа" Я?

Только программная часть основных алгоритмов (сбор, индексирование, поиск) недорога (для получения первой работоспособной версии).

В зависимости от энтузиазма и квалификации участников разработки от 20 до 50 тыс уе - три-шесть месяцев - имеется в виду, что есть какие-то наработки и знают что делать.

Однако, для поддержки системы, отвечающей на миллион(ы) запросов в день, придется все "доводить", и СТРОИТЬ вычислительную систему специальной архитектуры.

Это будет стоить от 300 до 1000 тыс уе и затянется года на два

(опять же энтузиазм/знания) .

Как всегда можно все суммы помножить на два.

Как писал Sniffysko

Необходим поисковый движок (желательно бесплатный), целью которого есть индексация и поиск по некоторому количеству сайтов. Сайты предположительно с большим количеством страниц (новостные порталы). Желательна мультиязычность. Русский желателен, но не обязателен. Очень желательно ранжирование по релевантности. Индексация скажем раз в сутки. Операционная система -- один из Юниксов. Желательна простота в настройке и конфигурировании.

Ну и как положено хорошая скорость на большом количестве страниц, минимальная загрузка сервера. Готов дать любые уточнения к своему вопросу.

Такое бесплатное чудо чтобы все в одной упаковке лучше искать здесь :) .

Как писал Rusl
Кроме WN просмотрел также:
http://aspell.sourceforge.net/
http://www.aot.ru/download.shtml

и тот что Вы мне посоветовали:
http://www.tartarus.org/~martin/PorterStemmer/

В структуре WN я вроде разобрался.

Добрый день!

В принципе WN, может быть, и не лучшее решение, но самое прозрачное. Особенно на начальном этапе, где можно быстро править словари самому.

Как писал Rusl
Но не понял как быть с окончаниями -ing, -ed, -er и прочими, ведь в файлах представлена только начальная форма.

Ну вот Вам простенькая табличка, полученная из 12-17 правил,

преобразований концов слов

=======================

A z %zzer%zzest

A y %ier%iest

A x %xxer%xxest

A v %vver%vvest

A t %tter%ttest

A s %sser%ssest

A r %rrer%rrest

A q %qqer%qqest

A p %pper%ppest

A n %nner%nnest

A m %mmer%mmest

A l %ller%llest

A k %kker%kkest

A j %jjer%jjest

A h %hher%hhest

A g %gger%ggest

A f %ffer%ffest

A e %er%est

A d %dder%ddest

A c %ccer%ccest

A b %bber%bbest

A # %er%est

N z %zes

N y %ies

N x %xes

N sh %shes

N s %ses

N ing %ing

N er %er

N ch %ches

N # %s

V z %zes%zzed%zzing

V y %ies%ied%ying

V x %xes%xxed%xxing

V w %ws%wwed%wwing

V v %vs%vved%vving

V t %ts%tted%tting

V s %ses%ssed%ssing

V r %rs%rred%rring

V q %qs%qqed%qqing

V p %ps%pped%pping

V n %ns%nned%nning

V m %ms%mmed%mming

V l %ls%lled%lling

V k %ks%kked%kking

V j %js%jjed%jjing

V ie %ies%ied%ying

V h %hs%hhed%hhing

V g %gs%gged%gging

V f %fs%ffed%ffing

V e %es%ed%ing

V d %ds%dded%dding

V c %cs%cced%ccing

V b %bs%bbed%bbing

V # %s%ed%ing

=======================

Как писал Rusl
И как быть с исключениями?

1) встречаете слово

2) смотрите в списке исключений (если есть, то ok)

3) если нет - смотрите, что можно отсечь по табличке + контроль того, что получается по спискам по частям речи

+ рекомендуется обработку буферизовать

+ пополнять/чистить словари

+ для незнакомого слова оставлять заодно и входную форму

Как писал Rusl
Почему в verb.exc слова представлены только в двух формах?

Мне кажется, это ошибка WN - придется пополнять словари

Как писал Rusl

Данные в текстовых файлах представлены в таком виде:

00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"


А как интерпретировать данные в этом файле?

Да.....

Вам нужны ДРУГИЕ файлы

(это такие файлы, которые лежат РЯДОМ, то есть близко, то есть следующие за теми, которые Вы посмотрели!)

то есть не noun.dat, но noun.exc :

aardwolves aardwolf

abaci abacus

aboideaux aboideau

aboiteaux aboiteau

abscissae abscissa

acanthi acanthus

acari acarus

acciaccature acciaccatura

acetabula acetabulum

achaemenidae achaemenid

achaemenides achaemenid

acicula aciculum

aciculae acicula

....

это и есть исключения при образовании множественного числа

(множественное число - это когда много, в отличие от того когда один!).

а также файлы *.idx откуда легко можно взять списки слов по частям речи

P.S. файлы *.dat содержат информацию о синомических связях по G.Miller'у (синсеты) и связях между синсетами в психолого-лингвистическом контексте (это я пожалуй не буду пояснять, тут есть разные мнения)

Как писал Rusl


Но проблема заключается в подключении WordNet'ой базы к моей программе. Я работаю с FoxPro ...

Вы, я вижу, издеваетесь...

В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.

Пункт первый, он же последний, берете программиста он Вам все делает за пару-тройку часов.

Инструкция к автомобилю марки Роллс-Ройс


Если Ваш автомобиль неисправен, Ваш шофер знает, что делать.
Как писал Rusl

Может кто-нибудь знает, как мне проще всего привести слово к нормальной форме (для английского языка)? Возможно у кого нибудь есть ссылки на словари?

Вам же сказали про WordNet. Там есть списки исключений и списки слов по частям речи (правда, придется на практике почистить).

А то, что без исключений - описывается 12 или 17 основными, всем известным, правилами (после раскрытия повторов согласных правил 50-100 - точно не помню).

И это вполне работоспособно.

Есть еще Porter Stemming - этим многие пользуются, но мне не нравится.

Всего: 133