Автоматический рубрикатор.

R
На сайте с 29.04.2003
Offline
37
1284

Интересуют мнения по поводу концептуального подхода к построению автоматического рубрикатора текста.

Какой на ваш взгляд подход к построению автоматического рубрикатора лучше (хуже) и почему:

а) основанный на статистическом подходе (кластерный, дискриминанный анализ, какой то еще..)

б) основанный на лингвистическом подходе (использование тезауруса, семантический разбор текста и т.п.)

Сейчас склоняюсь к мнению, что без использования лингвистики построить качественный рубрикатор не возможно. Но быть может я ошибаюсь.

Что вы можите сказать по этому поводу?

!Иван FXS
На сайте с 16.11.2001
Offline
119
#1

Без статистики не обойтись, а без лингвистики - не построить объект для статистической обработки.

.

R
На сайте с 29.04.2003
Offline
37
#2
!Иван FXS:
Без статистики не обойтись, а без лингвистики - не построить объект для статистической обработки.
.

Ну от чего же без лингвистики не построить обект? Если конечно не считать приведение к нормальной форме - лингвистикой, то можно обойтись и без нее. Работать с частотами одно-, двух-, трехсловных конънктов.

Но у меня ощущение, что лингвистический подход (в частности использование тезауруса для автоматического индесирования) - должен дать гораздо более лучшие результаты, чем использование исключительно статистических методов.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий