- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Дано:
1) Корпус текстов с метатекстовой разметкой – файл в xml, 10 Мб.
http://cs5841.userapi.com/u11029061/-3/w_e51c2432.jpg
2) Стеммер mystem, который размечает текст вот таким образом (файлы - и тот, который обрабатывается, и тот, который получается на выходе - должны быть в txt либо html):
В{в=PR=|в=S,сокр=им,ед|=S,сокр=им,м н|=S,сокр=род,ед|=S,сокр=род,мн|=S, сокр=дат,ед|=S,сокр=дат,мн|=S,сокр= вин,ед|=S,сокр=вин,мн|=S,сокр=твор, ед|=S,сокр=твор,мн|=S,сокр=пр,ед|=S ,сокр=пр,мн}этом{это=SPRO,ед,сред,н еод=пр|этот=APRO=пр,ед,муж|=APRO=пр ,ед,сред}сезоне{сезон=S,муж,неод=пр ,ед}правят{править=V,несов=непрош,м н,изъяв,3-л,пе|править=V,несов,нп=непрош,мн,и зъяв,3-л}бал{бал=S,муж,неод=им,ед|=S,муж,н еод=вин,ед}ботильоны{ботильон?=S,му ж,неод=им,мн|?=S,муж,неод=вин,мн}эт о{это=SPRO,ед,сред,неод=им|=SPRO,ед ,сред,неод=вин|этот=APRO=им,ед,сред |=APRO=вин,ед,сред|это=PART=}что-то{что-то=SPRO,ед,сред,неод=им|=SPRO,ед,ср ед,неод=вин}среднее{среднее=S,сред, неод=им,ед|=S,сред,неод=вин,ед|сред ний=A=им,ед,полн,сред|=A=вин,ед,пол н,сред}между{между=PR=}полусапожкам и{полусапожки=S,мн,неод=твор}и{и=IN TJ=|и=PART=|и=S,сокр=им,ед|=S,сокр= им,мн|=S,сокр=род,ед|=S,сокр=род,мн |=S,сокр=дат,ед|=S,сокр=дат,мн|=S,с окр=вин,ед|=S,сокр=вин,мн|=S,сокр=т вор,ед|=S,сокр=твор,мн|=S,сокр=пр,е д|=S,сокр=пр,мн|и=CONJ=}туфлями{туф ля=S,жен,неод=твор,мн}Предпочтитель нее{предпочтительно=ADV=срав|предпо чтительный=A=срав}выбирать{выбирать =V=инф,несов,пе}модели{модель=S,жен ,неод=им,мн|=S,жен,неод=род,ед|=S,ж ен,неод=дат,ед|=S,жен,неод=вин,мн|= S,жен,неод=пр,ед|модель=S,жен,од=им ,мн|=S,жен,од=род,ед|=S,жен,од=дат, ед|=S,жен,од=вин,мн|=S,жен,од=пр,ед }из{из=PR=}замши{замша=S,жен,неод=и м,мн|=S,жен,неод=род,ед|=S,жен,неод =вин,мн|замшить=V,сов=ед,пов,2-л,пе}или{или=PART=|или=CONJ=}ткани{ ткань=S,жен,неод=им,мн|=S,жен,неод= род,ед|=S,жен,неод=дат,ед|=S,жен,не од=вин,мн|=S,жен,неод=пр,ед}с{с=PR= |с=S,сокр=им,ед|=S,сокр=им,мн|=S,со кр=род,ед|=S,сокр=род,мн|=S,сокр=да т,ед|=S,сокр=дат,мн|=S,сокр=вин,ед| =S,сокр=вин,мн|=S,сокр=твор,ед|=S,с окр=твор,мн|=S,сокр=пр,ед|=S,сокр=п р,мн}открытыми{открывать=V=прош,тво р,мн,прич,полн,сов,страд|открытый=A =твор,мн,полн}носами{нос=S,муж,неод =твор,мн}или{или=PART=|или=CONJ=}за дниками
Что надо сделать: как-то автоматически морфоразметить корпус и сделать так, чтобы можно было искать тексты по ключевым словам, по источнику, по грамматическим формам (например, человеку нужны все неодушевлённые существительные в творительном падеже – ему бы выдались) и т.д.
Есть какие-нибудь проги для создания размеченных корпусов? Как вообще решаются такие задачи?
Дано:
1) Корпус текстов с метатекстовой разметкой – файл в xml, 10 Мб.
http://cs5841.userapi.com/u11029061/-3/w_e51c2432.jpg
2) Стеммер mystem, который размечает текст вот таким образом (файлы - и тот, который обрабатывается, и тот, который получается на выходе - должны быть в txt либо html):
В{в=PR=|в=S,сокр=им,ед|=S,сокр=им,м н|=S,сокр=род,ед|=S,сокр=род,мн|=S, сокр=дат,ед|=S,сокр=дат,мн|=S,сокр= вин,ед|=S,сокр=вин,мн|=S,сокр=твор, ед|=S,сокр=твор,мн|=S,сокр=пр,ед|=S ,сокр=пр,мн}этом{это=SPRO,ед,сред,н еод=пр|этот=APRO=пр,ед,муж|=APRO=пр ,ед,сред}сезоне{сезон=S,муж,неод=пр ,ед}правят{править=V,несов=непрош,м н,изъяв,3-л,пе|править=V,несов,нп=непрош,мн,и зъяв,3-л}бал{бал=S,муж,неод=им,ед|=S,муж,н еод=вин,ед}ботильоны{ботильон?=S,му ж,неод=им,мн|?=S,муж,неод=вин,мн}эт о{это=SPRO,ед,сред,неод=им|=SPRO,ед ,сред,неод=вин|этот=APRO=им,ед,сред |=APRO=вин,ед,сред|это=PART=}что-то{что-то=SPRO,ед,сред,неод=им|=SPRO,ед,ср ед,неод=вин}среднее{среднее=S,сред, неод=им,ед|=S,сред,неод=вин,ед|сред ний=A=им,ед,полн,сред|=A=вин,ед,пол н,сред}между{между=PR=}полусапожкам и{полусапожки=S,мн,неод=твор}и{и=IN TJ=|и=PART=|и=S,сокр=им,ед|=S,сокр= им,мн|=S,сокр=род,ед|=S,сокр=род,мн |=S,сокр=дат,ед|=S,сокр=дат,мн|=S,с окр=вин,ед|=S,сокр=вин,мн|=S,сокр=т вор,ед|=S,сокр=твор,мн|=S,сокр=пр,е д|=S,сокр=пр,мн|и=CONJ=}туфлями{туф ля=S,жен,неод=твор,мн}Предпочтитель нее{предпочтительно=ADV=срав|предпо чтительный=A=срав}выбирать{выбирать =V=инф,несов,пе}модели{модель=S,жен ,неод=им,мн|=S,жен,неод=род,ед|=S,ж ен,неод=дат,ед|=S,жен,неод=вин,мн|= S,жен,неод=пр,ед|модель=S,жен,од=им ,мн|=S,жен,од=род,ед|=S,жен,од=дат, ед|=S,жен,од=вин,мн|=S,жен,од=пр,ед }из{из=PR=}замши{замша=S,жен,неод=и м,мн|=S,жен,неод=род,ед|=S,жен,неод =вин,мн|замшить=V,сов=ед,пов,2-л,пе}или{или=PART=|или=CONJ=}ткани{ ткань=S,жен,неод=им,мн|=S,жен,неод= род,ед|=S,жен,неод=дат,ед|=S,жен,не од=вин,мн|=S,жен,неод=пр,ед}с{с=PR= |с=S,сокр=им,ед|=S,сокр=им,мн|=S,со кр=род,ед|=S,сокр=род,мн|=S,сокр=да т,ед|=S,сокр=дат,мн|=S,сокр=вин,ед| =S,сокр=вин,мн|=S,сокр=твор,ед|=S,с окр=твор,мн|=S,сокр=пр,ед|=S,сокр=п р,мн}открытыми{открывать=V=прош,тво р,мн,прич,полн,сов,страд|открытый=A =твор,мн,полн}носами{нос=S,муж,неод =твор,мн}или{или=PART=|или=CONJ=}за дниками
Что надо сделать: как-то автоматически морфоразметить корпус и сделать так, чтобы можно было искать тексты по ключевым словам, по источнику, по грамматическим формам (например, человеку нужны все неодушевлённые существительные в творительном падеже – ему бы выдались) и т.д.
Есть какие-нибудь проги для создания размеченных корпусов? Как вообще решаются такие задачи?
Хуясе, сказала я себе(извиняюсь за выражение).😕
Шо это такое?
Хуясе, сказала я себе(извиняюсь за выражение).😕
Шо это такое?
Мне нужно создать работающий аннотированный корпус текстов( Не знаю, как к этому подступиться.
Мож, кто знает, что делать? Или хотя бы подскажет, куда обратиться?
поделитесь конечной целью, если генератор текста то такой уже есть
поделились здесь на форуме
аамир{аамир=S,имя,ед,муж,од=им}
аарон{аарон=S,имя,муж,од=им,ед|аарон=S,фам,муж,од=им,ед|аарон=S,фам,жен,од=им,ед|=S,фам,жен,од=им,мн|=S,фам,жен,од=род,ед|=S,фам,жен,од=род,мн|=S,фам,жен,од=дат,ед|=S,фам,жен,од=дат,мн|=S,фам,жен,од=вин,ед|=S,фам,жен,од=вин,мн|=S,фам,жен,од=твор,ед|=S,фам,жен,од=твор,мн|=S,фам,жен,од=пр,ед|=S,фам,жен,од=пр,мн}
аарона{аарон=S,имя,муж,од=род,ед|=S,имя,муж,од=вин,ед|аарон=S,фам,муж,од=род,ед|=S,фам,муж,од=вин,ед}
аароне{аарон=S,имя,муж,од=пр,ед|аарон=S,фам,муж,од=пр,ед}
аароном{аарон=S,имя,муж,од=твор,ед|аарон=S,фам,муж,од=твор,ед}
аарону{аарон=S,имя,муж,од=дат,ед|аарон=S,фам,муж,од=дат,ед}
аба{аба=S,жен,неод=им,ед|аба=S,имя,муж,од=им,ед|аба=S,гео,ед,муж,неод=им|
Не, просто обычный корпус текстов (вручную накопипастенные тексты СМИ, а потом метатекстово размеченные), из которого можно будет извлекать слова, отвечающие какому-то условию.
Может, корпусный менеджер посоветуете?
Я немного интересовался комп. лингвистикой.
посмотрите тут, может, найдете что-то полезное
http://pages.cs.brandeis.edu/~astubbs/mae.html
http://www.nltk.org/
http://www.nltk.org/book