тематика текста

171

luxs

26 апреля 2008, 01:08

4499

Возникла задача - определить тематику текста. Идея вроде простая. Групируем слова по темам - осям в многомерном пространстве темы. строим многомерный вектор и смотрим направление - тематику. Чем ближе к оси - тем лучше подобрана тематика. Остался вопрос - где найти словари по тематикам?

Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.

LL

16

lik-link

26 апреля 2008, 16:47

#1

Чего? 😮

Вроде по русски, но ничё не понял... :)

[Удален]

27 апреля 2008, 15:49

#2

luxs:
Возникла задача - определить тематику текста. Идея вроде простая. Групируем слова по темам - осям в многомерном пространстве темы. строим многомерный вектор и смотрим направление - тематику. Чем ближе к оси - тем лучше подобрана тематика. Остался вопрос - где найти словари по тематикам?
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.

Уже в вашем вопросе таится ответ... Подразумевается ведь конечное количество тематик, ну допустим - 20, как в каталоге подкаталогов. Берите с десяток рефератов на каждую из тем, и потом уже чисто статистически определяйте тематику входного текста. Помимо статей подойдут и разные объемные доклады, и даже парсинг на заданную тему выдачи гугла.

Сайт с ответами от Яндекс кобласит Оптимальное количество статьей в

L

171

luxs

28 апреля 2008, 15:14

#3

claygod:
Уже в вашем вопросе таится ответ... Подразумевается ведь конечное количество тематик, ну допустим - 20, как в каталоге подкаталогов. Берите с десяток рефератов на каждую из тем, и потом уже чисто статистически определяйте тематику входного текста. Помимо статей подойдут и разные объемные доклады, и даже парсинг на заданную тему выдачи гугла.

Да, со сравнительным анализом я както не догадался. Я все на словарях зацикливался. Попробую подумать в этом направлении ☝

VT

130

Vyacheslav Tikhonov

29 апреля 2008, 23:21

#4

Остался вопрос - где найти словари по тематикам?

Еще есть хороший и быстрый способ получить словарь по нужной тематике. Если есть готовая база, можно прогнать по ней базовый список запросов из семантического ядра и получить поиском список документов - если один и тот же документ будет находиться несколькими характерными запросами, можно с заданной вероятностью относить его к нужной рубрике. Дальше дело техники - разобрать тексты на лексемы и посчитать словари.

Метод хорош тем, что может работать совершенно автономно, дополняя готовые словари новыми терминами.

Как заставить Google быстрее Advse.ru поможет найти своих Мэтт Каттс: Google определит

K

2

kikoin

17 июля 2008, 12:59

#5

А есть ли открытый инструментарий для построения многомерных векторов (ну или как ещё говорят векторного пространства) ?

8

3

8Racer

7 сентября 2008, 20:14

#6

Чем вам семантический анализ не нравится? Сейчас уже есть достаточно много open-source алгоритмов, поищите.

---

http://www.ashmanov.com/tech/semantic/demo/

K

2

kikoin

27 октября 2008, 12:18

#7

Семантический анализ ... WordNet вроде есть ...

Но сложно как-то слишком :-)

Нашлось немного инструментариев.

Например Search::VectorSpace на спане. Или уже готовые алгоритмы в dpsearch

S

85

stakh

28 октября 2008, 21:21

#8

luxs:
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.

Нда. Таких сервисов я, увы, не встречал.:)

[Удален]

29 октября 2008, 15:16

#9

как я понял вам нужно типа этого istio.com/rus/text/analyz

Google: E-E-A-T не является фактором ранжирования

Что делать, чтобы попасть в ответы Google Bard