что можно интересного сделать из?

71

LakeDaemon

26 августа 2004, 23:00

1262

Вопрос больше теоретического свойства и не по собственно поиску... Но надеюсь, у сведущих людей найдётся время подсказать, что и про что посмотреть... Тем более, что в одном забавном соседнем топике что-то похожее проскальзывало (про близость каждого объекта каждому etc.)

У меня есть некоторое количество текстов, более-менее близких тематически, с которыми сопоставлены (вручную) "ключевые понятия" (представляющие собой как термины, встречающиеся в текстах, так и термины, которые можно отнести, скорее, к метаданным, то есть я достоверно знаю про текст, что он "об этом" и "так"). Фактически, выглядит и работает так же, как и интересы пользователей в ЖЖ, скажем ;)

Можно ли что-нибудь интересное с этими "клчевыми понятиями" сделать? То есть чего нужно ещё хотеть, кроме того, что уже реализовано? ;)

Искусственный интеллект я конструировать не собираюсь точно ;), и систему (полу)автоматической классификации -- из-за банального отсутствия классификационной сетки и не только -- тоже, но это уже интереснее.

Больше пока интересуют, скажем, какие-то статистические вещи с этими "ключевыми понятиями", но в мат.статистике я пока почти не разбираюсь... Но что-то мне подсказывает, что такие данные можно использовать для, скажем, расчёта близости объектов. Или чего-нибудь в этом роде... Типа "близости" друг другу собственно признаков... И это было бы очень любопытно сделать.

Вопрос только в том, в каком направлении, как и что "копать"... Какие алгоритмы имеются etc. И где можно прочитать об этом (для начала, более-менее доходчиво), учитывая специфику задачи/имеющегося материала...

VT

130

Vyacheslav Tikhonov

31 августа 2004, 08:08

#1

Можно ли что-нибудь интересное с этими "клчевыми понятиями" сделать? То есть чего нужно ещё хотеть, кроме того, что уже реализовано?

Например, можно на основе этих терминов генерировать аннотации каждого документа или собрать кластеры документов на одну тему.

LD

71

LakeDaemon

3 сентября 2004, 00:15

#2

Аннотации -- они как-то не очень красивые получатся, по-моему, а вот кластеры документов на одну тему -- это, конечно, хорошо, но:

1. как я понимаю, для этого нужно иметь, как минимум, некоторые таблицы соответствий "тема - термин". Это сделать, в целом, конечно, можно

2. надо как-то сопоставлять наборы терминов для текста -- с набором терминов для темы. И вот тут я не очень хорошо представляю, в какую сторону смотреть ;)) То есть: что рассчитывать-то надо? ;) И как?

184

medved

3 сентября 2004, 01:16

#3

LakeDaemon,

А , собственно, для чего всё это тебе нужно ?

Практический интерес какой ?

Или из любви к науке ?

LD

71

LakeDaemon

3 сентября 2004, 04:26

#4

Ну не пропадать же добру ;) Потому что даже то, как это выглядит сейчас, мне и интересно, и нравится... И пользы принести может, как представляется, всё-таки чуть больше, чем сейчас.

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах