Как создать корпус текстов, если есть сам корпус с метатекстовой разметкой в xml и с

D
На сайте с 17.04.2012
Offline
0
1163

Дано:

1) Корпус текстов с метатекстовой разметкой – файл в xml, 10 Мб.

http://cs5841.userapi.com/u11029061/-3/w_e51c2432.jpg

2) Стеммер mystem, который размечает текст вот таким образом (файлы - и тот, который обрабатывается, и тот, который получается на выходе - должны быть в txt либо html):

В{в=PR=|в=S,сокр=им,ед|=S,сокр=им,м н|=S,сокр=род,ед|=S,сокр=род,мн|=S, сокр=дат,ед|=S,сокр=дат,мн|=S,сокр= вин,ед|=S,сокр=вин,мн|=S,сокр=твор, ед|=S,сокр=твор,мн|=S,сокр=пр,ед|=S ,сокр=пр,мн}этом{это=SPRO,ед,сред,н еод=пр|этот=APRO=пр,ед,муж|=APRO=пр ,ед,сред}сезоне{сезон=S,муж,неод=пр ,ед}правят{править=V,несов=непрош,м н,изъяв,3-л,пе|править=V,несов,нп=непрош,мн,и зъяв,3-л}бал{бал=S,муж,неод=им,ед|=S,муж,н еод=вин,ед}ботильоны{ботильон?=S,му ж,неод=им,мн|?=S,муж,неод=вин,мн}эт о{это=SPRO,ед,сред,неод=им|=SPRO,ед ,сред,неод=вин|этот=APRO=им,ед,сред |=APRO=вин,ед,сред|это=PART=}что-то{что-то=SPRO,ед,сред,неод=им|=SPRO,ед,ср ед,неод=вин}среднее{среднее=S,сред, неод=им,ед|=S,сред,неод=вин,ед|сред ний=A=им,ед,полн,сред|=A=вин,ед,пол н,сред}между{между=PR=}полусапожкам и{полусапожки=S,мн,неод=твор}и{и=IN TJ=|и=PART=|и=S,сокр=им,ед|=S,сокр= им,мн|=S,сокр=род,ед|=S,сокр=род,мн |=S,сокр=дат,ед|=S,сокр=дат,мн|=S,с окр=вин,ед|=S,сокр=вин,мн|=S,сокр=т вор,ед|=S,сокр=твор,мн|=S,сокр=пр,е д|=S,сокр=пр,мн|и=CONJ=}туфлями{туф ля=S,жен,неод=твор,мн}Предпочтитель нее{предпочтительно=ADV=срав|предпо чтительный=A=срав}выбирать{выбирать =V=инф,несов,пе}модели{модель=S,жен ,неод=им,мн|=S,жен,неод=род,ед|=S,ж ен,неод=дат,ед|=S,жен,неод=вин,мн|= S,жен,неод=пр,ед|модель=S,жен,од=им ,мн|=S,жен,од=род,ед|=S,жен,од=дат, ед|=S,жен,од=вин,мн|=S,жен,од=пр,ед }из{из=PR=}замши{замша=S,жен,неод=и м,мн|=S,жен,неод=род,ед|=S,жен,неод =вин,мн|замшить=V,сов=ед,пов,2-л,пе}или{или=PART=|или=CONJ=}ткани{ ткань=S,жен,неод=им,мн|=S,жен,неод= род,ед|=S,жен,неод=дат,ед|=S,жен,не од=вин,мн|=S,жен,неод=пр,ед}с{с=PR= |с=S,сокр=им,ед|=S,сокр=им,мн|=S,со кр=род,ед|=S,сокр=род,мн|=S,сокр=да т,ед|=S,сокр=дат,мн|=S,сокр=вин,ед| =S,сокр=вин,мн|=S,сокр=твор,ед|=S,с окр=твор,мн|=S,сокр=пр,ед|=S,сокр=п р,мн}открытыми{открывать=V=прош,тво р,мн,прич,полн,сов,страд|открытый=A =твор,мн,полн}носами{нос=S,муж,неод =твор,мн}или{или=PART=|или=CONJ=}за дниками

Что надо сделать: как-то автоматически морфоразметить корпус и сделать так, чтобы можно было искать тексты по ключевым словам, по источнику, по грамматическим формам (например, человеку нужны все неодушевлённые существительные в творительном падеже – ему бы выдались) и т.д.

Есть какие-нибудь проги для создания размеченных корпусов? Как вообще решаются такие задачи?

G
На сайте с 01.09.2010
Offline
49
#1
Drache:
Дано:
1) Корпус текстов с метатекстовой разметкой – файл в xml, 10 Мб.
http://cs5841.userapi.com/u11029061/-3/w_e51c2432.jpg

2) Стеммер mystem, который размечает текст вот таким образом (файлы - и тот, который обрабатывается, и тот, который получается на выходе - должны быть в txt либо html):

В{в=PR=|в=S,сокр=им,ед|=S,сокр=им,м н|=S,сокр=род,ед|=S,сокр=род,мн|=S, сокр=дат,ед|=S,сокр=дат,мн|=S,сокр= вин,ед|=S,сокр=вин,мн|=S,сокр=твор, ед|=S,сокр=твор,мн|=S,сокр=пр,ед|=S ,сокр=пр,мн}этом{это=SPRO,ед,сред,н еод=пр|этот=APRO=пр,ед,муж|=APRO=пр ,ед,сред}сезоне{сезон=S,муж,неод=пр ,ед}правят{править=V,несов=непрош,м н,изъяв,3-л,пе|править=V,несов,нп=непрош,мн,и зъяв,3-л}бал{бал=S,муж,неод=им,ед|=S,муж,н еод=вин,ед}ботильоны{ботильон?=S,му ж,неод=им,мн|?=S,муж,неод=вин,мн}эт о{это=SPRO,ед,сред,неод=им|=SPRO,ед ,сред,неод=вин|этот=APRO=им,ед,сред |=APRO=вин,ед,сред|это=PART=}что-то{что-то=SPRO,ед,сред,неод=им|=SPRO,ед,ср ед,неод=вин}среднее{среднее=S,сред, неод=им,ед|=S,сред,неод=вин,ед|сред ний=A=им,ед,полн,сред|=A=вин,ед,пол н,сред}между{между=PR=}полусапожкам и{полусапожки=S,мн,неод=твор}и{и=IN TJ=|и=PART=|и=S,сокр=им,ед|=S,сокр= им,мн|=S,сокр=род,ед|=S,сокр=род,мн |=S,сокр=дат,ед|=S,сокр=дат,мн|=S,с окр=вин,ед|=S,сокр=вин,мн|=S,сокр=т вор,ед|=S,сокр=твор,мн|=S,сокр=пр,е д|=S,сокр=пр,мн|и=CONJ=}туфлями{туф ля=S,жен,неод=твор,мн}Предпочтитель нее{предпочтительно=ADV=срав|предпо чтительный=A=срав}выбирать{выбирать =V=инф,несов,пе}модели{модель=S,жен ,неод=им,мн|=S,жен,неод=род,ед|=S,ж ен,неод=дат,ед|=S,жен,неод=вин,мн|= S,жен,неод=пр,ед|модель=S,жен,од=им ,мн|=S,жен,од=род,ед|=S,жен,од=дат, ед|=S,жен,од=вин,мн|=S,жен,од=пр,ед }из{из=PR=}замши{замша=S,жен,неод=и м,мн|=S,жен,неод=род,ед|=S,жен,неод =вин,мн|замшить=V,сов=ед,пов,2-л,пе}или{или=PART=|или=CONJ=}ткани{ ткань=S,жен,неод=им,мн|=S,жен,неод= род,ед|=S,жен,неод=дат,ед|=S,жен,не од=вин,мн|=S,жен,неод=пр,ед}с{с=PR= |с=S,сокр=им,ед|=S,сокр=им,мн|=S,со кр=род,ед|=S,сокр=род,мн|=S,сокр=да т,ед|=S,сокр=дат,мн|=S,сокр=вин,ед| =S,сокр=вин,мн|=S,сокр=твор,ед|=S,с окр=твор,мн|=S,сокр=пр,ед|=S,сокр=п р,мн}открытыми{открывать=V=прош,тво р,мн,прич,полн,сов,страд|открытый=A =твор,мн,полн}носами{нос=S,муж,неод =твор,мн}или{или=PART=|или=CONJ=}за дниками

Что надо сделать: как-то автоматически морфоразметить корпус и сделать так, чтобы можно было искать тексты по ключевым словам, по источнику, по грамматическим формам (например, человеку нужны все неодушевлённые существительные в творительном падеже – ему бы выдались) и т.д.

Есть какие-нибудь проги для создания размеченных корпусов? Как вообще решаются такие задачи?

Хуясе, сказала я себе(извиняюсь за выражение).😕

Шо это такое?

Позиции своих сайтов я снимаю здесь (http://goo.gl/1SQ1Sl)! А тут (http://goo.gl/GfReqm) я чекаю доноров. СМС рассылка (http://smstoyou.sms.ru/) по самой низкой цене.
D
На сайте с 17.04.2012
Offline
0
#2
glafeara:
Хуясе, сказала я себе(извиняюсь за выражение).😕
Шо это такое?

Мне нужно создать работающий аннотированный корпус текстов( Не знаю, как к этому подступиться.

Мож, кто знает, что делать? Или хотя бы подскажет, куда обратиться?

T2
На сайте с 24.02.2008
Offline
151
#3

поделитесь конечной целью, если генератор текста то такой уже есть

поделились здесь на форуме

аамир{аамир=S,имя,ед,муж,од=им}

аарон{аарон=S,имя,муж,од=им,ед|аарон=S,фам,муж,од=им,ед|аарон=S,фам,жен,од=им,ед|=S,фам,жен,од=им,мн|=S,фам,жен,од=род,ед|=S,фам,жен,од=род,мн|=S,фам,жен,од=дат,ед|=S,фам,жен,од=дат,мн|=S,фам,жен,од=вин,ед|=S,фам,жен,од=вин,мн|=S,фам,жен,од=твор,ед|=S,фам,жен,од=твор,мн|=S,фам,жен,од=пр,ед|=S,фам,жен,од=пр,мн}

аарона{аарон=S,имя,муж,од=род,ед|=S,имя,муж,од=вин,ед|аарон=S,фам,муж,од=род,ед|=S,фам,муж,од=вин,ед}

аароне{аарон=S,имя,муж,од=пр,ед|аарон=S,фам,муж,од=пр,ед}

аароном{аарон=S,имя,муж,од=твор,ед|аарон=S,фам,муж,од=твор,ед}

аарону{аарон=S,имя,муж,од=дат,ед|аарон=S,фам,муж,од=дат,ед}

аба{аба=S,жен,неод=им,ед|аба=S,имя,муж,од=им,ед|аба=S,гео,ед,муж,неод=им|

Партнёрка VPN, выплаты 16% - https://c.vpn.how/?p=5442
D
На сайте с 17.04.2012
Offline
0
#4

Не, просто обычный корпус текстов (вручную накопипастенные тексты СМИ, а потом метатекстово размеченные), из которого можно будет извлекать слова, отвечающие какому-то условию.

Может, корпусный менеджер посоветуете?

W8
На сайте с 02.10.2009
Offline
46
#5

Я немного интересовался комп. лингвистикой.

посмотрите тут, может, найдете что-то полезное

http://pages.cs.brandeis.edu/~astubbs/mae.html

http://www.nltk.org/

http://www.nltk.org/book

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий