Автоматический рубрикатор.

R

37

Rusl

3 августа 2005, 09:52

1293

Интересуют мнения по поводу концептуального подхода к построению автоматического рубрикатора текста.

Какой на ваш взгляд подход к построению автоматического рубрикатора лучше (хуже) и почему:

а) основанный на статистическом подходе (кластерный, дискриминанный анализ, какой то еще..)

б) основанный на лингвистическом подходе (использование тезауруса, семантический разбор текста и т.п.)

Сейчас склоняюсь к мнению, что без использования лингвистики построить качественный рубрикатор не возможно. Но быть может я ошибаюсь.

Что вы можите сказать по этому поводу?

119

!Иван FXS

4 августа 2005, 07:28

#1

Без статистики не обойтись, а без лингвистики - не построить объект для статистической обработки.

.

R

37

Rusl

4 августа 2005, 08:06

#2

!Иван FXS:
Без статистики не обойтись, а без лингвистики - не построить объект для статистической обработки.
.

Ну от чего же без лингвистики не построить обект? Если конечно не считать приведение к нормальной форме - лингвистикой, то можно обойтись и без нее. Работать с частотами одно-, двух-, трехсловных конънктов.

Но у меня ощущение, что лингвистический подход (в частности использование тезауруса для автоматического индесирования) - должен дать гораздо более лучшие результаты, чем использование исключительно статистических методов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов