- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Недавно на форуме спрашивал о морфоанализаторе. Но их способности оказались для моей работы избыточны, да и сложность подключения смущает.
Может кто-нибудь знает, как мне проще всего привести слово к нормальной форме (для английского языка)? Возможно у кого нибудь есть ссылки на словари?
Буду благодарен за каждый ответ.
Может кто-нибудь знает, как мне проще всего привести слово к нормальной форме (для английского языка)? Возможно у кого нибудь есть ссылки на словари?
Вам же сказали про WordNet. Там есть списки исключений и списки слов по частям речи (правда, придется на практике почистить).
А то, что без исключений - описывается 12 или 17 основными, всем известным, правилами (после раскрытия повторов согласных правил 50-100 - точно не помню).
И это вполне работоспособно.
Есть еще Porter Stemming - этим многие пользуются, но мне не нравится.
Вам же сказали про WordNet. Там есть списки исключений и списки слов по частям речи (правда, придется на практике почистить).
А то, что без исключений - описывается 12 или 17 основными, всем известным, правилами (после раскрытия повторов согласных правил 50-100 - точно не помню).
И это вполне работоспособно.
Все так. Но проблема заключается в подключении WordNet'ой базы к моей программе. Я работаю с FoxPro и соответствующего интерфейса там нет. Возможно я просто не нашел на сайте более простого способа работы с их базой.:(
Не могли бы Вы посоветовать, что мне сделать в этой ситуации? Как получить доступ к его базе?
Ваша помощь мне очень важна.
Но проблема заключается в подключении WordNet'ой базы к моей программе. Я работаю с FoxPro ...
Вы, я вижу, издеваетесь...
В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.
Пункт первый, он же последний, берете программиста он Вам все делает за пару-тройку часов.
Если Ваш автомобиль неисправен, Ваш шофер знает, что делать.
Вы, я вижу, издеваетесь...
В WN указанные данные в ТЕКСТОВЫХ файлах простым списком.
Вы правы. Я поначалу не обратил на это внимание.
Рискую показаться туповатым, но все ссылки о подробной работе с базой ведут на печатную книгу. Данные в текстовых файлах представлены в таком виде:
00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"
00073785 29 v 03 overtire 0 overweary 0 overfatigue 0 001 @ 00072813 v 0000 02 + 09 00 + 10 00 | tire excessively
00073901 29 v 05 tire 0 pall 0 weary 1 fatigue 1 jade 0 005 @ 00089731 v 0000 + 02295758 n 0502 + 07075951 n 0401 ~ 00096774 v 0000 ~ 01716002 v 0000 01 + 02 00 | get tired of something or somebody
А как интерпретировать данные в этом файле?
Данные в текстовых файлах представлены в таком виде:
00073662 29 v 01 play 4 001 @ 00073208 v 0000 01 + 08 00 | exhaust by allowing to pull on the line; "play a hooked fish"
А как интерпретировать данные в этом файле?
Да.....
Вам нужны ДРУГИЕ файлы
(это такие файлы, которые лежат РЯДОМ, то есть близко, то есть следующие за теми, которые Вы посмотрели!)
то есть не noun.dat, но noun.exc :
aardwolves aardwolf
abaci abacus
aboideaux aboideau
aboiteaux aboiteau
abscissae abscissa
acanthi acanthus
acari acarus
acciaccature acciaccatura
acetabula acetabulum
achaemenidae achaemenid
achaemenides achaemenid
acicula aciculum
aciculae acicula
....
это и есть исключения при образовании множественного числа
(множественное число - это когда много, в отличие от того когда один!).
а также файлы *.idx откуда легко можно взять списки слов по частям речи
P.S. файлы *.dat содержат информацию о синомических связях по G.Miller'у (синсеты) и связях между синсетами в психолого-лингвистическом контексте (это я пожалуй не буду пояснять, тут есть разные мнения)
Тоесть Вы хотите сказать, что надо взять *.idx файлы и написать программку, с использованием "12 или 17 основных, всем известных, правил", которая приводит слова к начальной форме? А иначе никак?
Посмотрел на исключения в verb.exc. Все глаголы почему то имеют только две формы, например: seen see или sent send. А где еще одна?
P.s. Кстати, спасибо за разъяснение понятия "другие". Теперь буду им правильно пользоваться. :)
С файлами я кажется разобрался.
Спасибо за разъяснения. :)
Кроме WN просмотрел также:
http://aspell.sourceforge.net/
http://www.aot.ru/download.shtml
и тот что Вы мне посоветовали:
http://www.tartarus.org/~martin/PorterStemmer/
В структуре WN я вроде разобрался.
Добрый день!
В принципе WN, может быть, и не лучшее решение, но самое прозрачное. Особенно на начальном этапе, где можно быстро править словари самому.
Но не понял как быть с окончаниями -ing, -ed, -er и прочими, ведь в файлах представлена только начальная форма.
Ну вот Вам простенькая табличка, полученная из 12-17 правил,
преобразований концов слов
=======================
A z %zzer%zzest
A y %ier%iest
A x %xxer%xxest
A v %vver%vvest
A t %tter%ttest
A s %sser%ssest
A r %rrer%rrest
A q %qqer%qqest
A p %pper%ppest
A n %nner%nnest
A m %mmer%mmest
A l %ller%llest
A k %kker%kkest
A j %jjer%jjest
A h %hher%hhest
A g %gger%ggest
A f %ffer%ffest
A e %er%est
A d %dder%ddest
A c %ccer%ccest
A b %bber%bbest
A # %er%est
N z %zes
N y %ies
N x %xes
N sh %shes
N s %ses
N ing %ing
N er %er
N ch %ches
N # %s
V z %zes%zzed%zzing
V y %ies%ied%ying
V x %xes%xxed%xxing
V w %ws%wwed%wwing
V v %vs%vved%vving
V t %ts%tted%tting
V s %ses%ssed%ssing
V r %rs%rred%rring
V q %qs%qqed%qqing
V p %ps%pped%pping
V n %ns%nned%nning
V m %ms%mmed%mming
V l %ls%lled%lling
V k %ks%kked%kking
V j %js%jjed%jjing
V ie %ies%ied%ying
V h %hs%hhed%hhing
V g %gs%gged%gging
V f %fs%ffed%ffing
V e %es%ed%ing
V d %ds%dded%dding
V c %cs%cced%ccing
V b %bs%bbed%bbing
V # %s%ed%ing
=======================
И как быть с исключениями?
1) встречаете слово
2) смотрите в списке исключений (если есть, то ok)
3) если нет - смотрите, что можно отсечь по табличке + контроль того, что получается по спискам по частям речи
+ рекомендуется обработку буферизовать
+ пополнять/чистить словари
+ для незнакомого слова оставлять заодно и входную форму
Почему в verb.exc слова представлены только в двух формах?
Мне кажется, это ошибка WN - придется пополнять словари
Спасибо большое!
Теперь принципы реализации гораздо яснее. Пожалуй так действительно можно создать эффективный нормализатор.
Еще раз спасибо.
Здравствуйте коллеги.
Наша фирма (www.inteltec.ru) как и многие участника данного форума занимается вопросами анализа естественных текстов. В настоящий момент готовится морфологический анализатор обучаемый на большом массиве текстов. Используемый подход детально будет рассмотрен на конференции RCDL'2005. Для достижения приемлемого качества разбора нам необходимо очень много рускоязычных текстов. Имеющиеся в нашем распоряжении базы текстовых документов содержат порядка 400 тысяч текстовых сообщений (~1 млн. словоформ), но для получения независимых результатов нам бы хотелось проверить наши методы обучения на более крупном массиве, взятом со стороны. Мы обращались за помощью к ruscorpora.ru, но понимания не встретили. Если кто-нибдуь сможет предоставить свои текстовые массивы мы будем очень благодарны, Ваши данные не будут использоваться в коммерческих целях.
В итоге для обучения анализатор нам нужны не столько тексты, сколько список используемых словоформ, так что, если у кого-то есть возможность выгрузить ключи индекса поисковой машины без предоставления полноценных текстов, то мы заранее согласны. Результаты и действующий анализатор будут выложены на нашем Web - сайте.