skv

Рейтинг
0
Регистрация
15.06.2005
bvd:
Если же интересуют тексты для некоммерческих целей ...

Интересуют именно тексты для некоммерческих целей. Покупать корпусы для исследований, которые в дальнейшем будут опубликованы - занятие неблагодарное.

К яндексу обратиться попробуем. На счет РОМИПа думали, но пока решили не участвовать.

bvd:
Почему оттуда нельзя получить такие списки?

Такие списки можно получить из многих источников, если ruscorpora согласится нами их дать, мы будем только рады. Но пока положительного ответа мы не получили. Вообще для этого и было опубликовано сообщение на данном форуме.

Как писал bvd

Либо Вы сообщаете здесь не все детали...

Как я уже сказал, используемый метод морфологического анализа будет опубликован подробно на конференции RCDL, о которой многие участники данного форма знают не по наслышке.

В рамках данной задачи сами тексты нам не нужны, нам нужны только словоформы. Получить доступ к размеченному корпусу было бы тоже неплохо для наших дальнейших разработок, несвязанных с морфологическим анализом, но сейчас это необязательно. У нас есть своя база, характеристики которой я приводил ранее, но в исследовательских целях было бы интересно опробовать наши методы на чем-нибудь другом. Еще раз повторюсь нам подойдет любой текстовый массив сопоставимый по объему с нашим, а желательно, чтобы он его превосходил. Все у кого есть возможность нам помочь, просьба откликнуться.

Здравствуйте коллеги.

Наша фирма (www.inteltec.ru) как и многие участника данного форума занимается вопросами анализа естественных текстов. В настоящий момент готовится морфологический анализатор обучаемый на большом массиве текстов. Используемый подход детально будет рассмотрен на конференции RCDL'2005. Для достижения приемлемого качества разбора нам необходимо очень много рускоязычных текстов. Имеющиеся в нашем распоряжении базы текстовых документов содержат порядка 400 тысяч текстовых сообщений (~1 млн. словоформ), но для получения независимых результатов нам бы хотелось проверить наши методы обучения на более крупном массиве, взятом со стороны. Мы обращались за помощью к ruscorpora.ru, но понимания не встретили. Если кто-нибдуь сможет предоставить свои текстовые массивы мы будем очень благодарны, Ваши данные не будут использоваться в коммерческих целях.

В итоге для обучения анализатор нам нужны не столько тексты, сколько список используемых словоформ, так что, если у кого-то есть возможность выгрузить ключи индекса поисковой машины без предоставления полноценных текстов, то мы заранее согласны. Результаты и действующий анализатор будут выложены на нашем Web - сайте.