что можно интересного сделать из?

LD
На сайте с 12.06.2002
Offline
71
1253

Вопрос больше теоретического свойства и не по собственно поиску... Но надеюсь, у сведущих людей найдётся время подсказать, что и про что посмотреть... Тем более, что в одном забавном соседнем топике что-то похожее проскальзывало (про близость каждого объекта каждому etc.)

У меня есть некоторое количество текстов, более-менее близких тематически, с которыми сопоставлены (вручную) "ключевые понятия" (представляющие собой как термины, встречающиеся в текстах, так и термины, которые можно отнести, скорее, к метаданным, то есть я достоверно знаю про текст, что он "об этом" и "так"). Фактически, выглядит и работает так же, как и интересы пользователей в ЖЖ, скажем ;)

Можно ли что-нибудь интересное с этими "клчевыми понятиями" сделать? То есть чего нужно ещё хотеть, кроме того, что уже реализовано? ;)

Искусственный интеллект я конструировать не собираюсь точно ;), и систему (полу)автоматической классификации -- из-за банального отсутствия классификационной сетки и не только -- тоже, но это уже интереснее.

Больше пока интересуют, скажем, какие-то статистические вещи с этими "ключевыми понятиями", но в мат.статистике я пока почти не разбираюсь... Но что-то мне подсказывает, что такие данные можно использовать для, скажем, расчёта близости объектов. Или чего-нибудь в этом роде... Типа "близости" друг другу собственно признаков... И это было бы очень любопытно сделать.

Вопрос только в том, в каком направлении, как и что "копать"... Какие алгоритмы имеются etc. И где можно прочитать об этом (для начала, более-менее доходчиво), учитывая специфику задачи/имеющегося материала...

VT
На сайте с 27.01.2001
Offline
130
#1
Можно ли что-нибудь интересное с этими "клчевыми понятиями" сделать? То есть чего нужно ещё хотеть, кроме того, что уже реализовано?

Например, можно на основе этих терминов генерировать аннотации каждого документа или собрать кластеры документов на одну тему.

LD
На сайте с 12.06.2002
Offline
71
#2

Аннотации -- они как-то не очень красивые получатся, по-моему, а вот кластеры документов на одну тему -- это, конечно, хорошо, но:

1. как я понимаю, для этого нужно иметь, как минимум, некоторые таблицы соответствий "тема - термин". Это сделать, в целом, конечно, можно

2. надо как-то сопоставлять наборы терминов для текста -- с набором терминов для темы. И вот тут я не очень хорошо представляю, в какую сторону смотреть ;)) То есть: что рассчитывать-то надо? ;) И как?

medved
На сайте с 22.03.2003
Offline
184
#3

LakeDaemon,

А , собственно, для чего всё это тебе нужно ?

Практический интерес какой ?

Или из любви к науке ?

LD
На сайте с 12.06.2002
Offline
71
#4

Ну не пропадать же добру ;) Потому что даже то, как это выглядит сейчас, мне и интересно, и нравится... И пользы принести может, как представляется, всё-таки чуть больше, чем сейчас.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий