тематика текста

L
На сайте с 03.05.2006
Offline
171
4499

Возникла задача - определить тематику текста. Идея вроде простая. Групируем слова по темам - осям в многомерном пространстве темы. строим многомерный вектор и смотрим направление - тематику. Чем ближе к оси - тем лучше подобрана тематика. Остался вопрос - где найти словари по тематикам?

Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.

LL
На сайте с 17.01.2007
Offline
16
#1

Чего? 😮

Вроде по русски, но ничё не понял... :)

[Удален]
#2
luxs:
Возникла задача - определить тематику текста. Идея вроде простая. Групируем слова по темам - осям в многомерном пространстве темы. строим многомерный вектор и смотрим направление - тематику. Чем ближе к оси - тем лучше подобрана тематика. Остался вопрос - где найти словари по тематикам?
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.

Уже в вашем вопросе таится ответ... Подразумевается ведь конечное количество тематик, ну допустим - 20, как в каталоге подкаталогов. Берите с десяток рефератов на каждую из тем, и потом уже чисто статистически определяйте тематику входного текста. Помимо статей подойдут и разные объемные доклады, и даже парсинг на заданную тему выдачи гугла.

L
На сайте с 03.05.2006
Offline
171
#3
claygod:
Уже в вашем вопросе таится ответ... Подразумевается ведь конечное количество тематик, ну допустим - 20, как в каталоге подкаталогов. Берите с десяток рефератов на каждую из тем, и потом уже чисто статистически определяйте тематику входного текста. Помимо статей подойдут и разные объемные доклады, и даже парсинг на заданную тему выдачи гугла.

Да, со сравнительным анализом я както не догадался. Я все на словарях зацикливался. Попробую подумать в этом направлении ☝

VT
На сайте с 27.01.2001
Offline
130
#4
Остался вопрос - где найти словари по тематикам?

Еще есть хороший и быстрый способ получить словарь по нужной тематике. Если есть готовая база, можно прогнать по ней базовый список запросов из семантического ядра и получить поиском список документов - если один и тот же документ будет находиться несколькими характерными запросами, можно с заданной вероятностью относить его к нужной рубрике. Дальше дело техники - разобрать тексты на лексемы и посчитать словари.

Метод хорош тем, что может работать совершенно автономно, дополняя готовые словари новыми терминами.

K
На сайте с 11.07.2008
Offline
2
#5

А есть ли открытый инструментарий для построения многомерных векторов (ну или как ещё говорят векторного пространства) ?

8
На сайте с 28.07.2008
Offline
3
#6

Чем вам семантический анализ не нравится? Сейчас уже есть достаточно много open-source алгоритмов, поищите.

---

http://www.ashmanov.com/tech/semantic/demo/

K
На сайте с 11.07.2008
Offline
2
#7

Семантический анализ ... WordNet вроде есть ...

Но сложно как-то слишком :-)

Нашлось немного инструментариев.

Например Search::VectorSpace на спане. Или уже готовые алгоритмы в dpsearch

S
На сайте с 24.12.2007
Offline
85
#8
luxs:
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.

Нда. Таких сервисов я, увы, не встречал.:)

[Удален]
#9

как я понял вам нужно типа этого istio.com/rus/text/analyz

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий