- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Возникла задача - определить тематику текста. Идея вроде простая. Групируем слова по темам - осям в многомерном пространстве темы. строим многомерный вектор и смотрим направление - тематику. Чем ближе к оси - тем лучше подобрана тематика. Остался вопрос - где найти словари по тематикам?
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.
Чего? 😮
Вроде по русски, но ничё не понял... :)
Возникла задача - определить тематику текста. Идея вроде простая. Групируем слова по темам - осям в многомерном пространстве темы. строим многомерный вектор и смотрим направление - тематику. Чем ближе к оси - тем лучше подобрана тематика. Остался вопрос - где найти словари по тематикам?
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.
Уже в вашем вопросе таится ответ... Подразумевается ведь конечное количество тематик, ну допустим - 20, как в каталоге подкаталогов. Берите с десяток рефератов на каждую из тем, и потом уже чисто статистически определяйте тематику входного текста. Помимо статей подойдут и разные объемные доклады, и даже парсинг на заданную тему выдачи гугла.
Уже в вашем вопросе таится ответ... Подразумевается ведь конечное количество тематик, ну допустим - 20, как в каталоге подкаталогов. Берите с десяток рефератов на каждую из тем, и потом уже чисто статистически определяйте тематику входного текста. Помимо статей подойдут и разные объемные доклады, и даже парсинг на заданную тему выдачи гугла.
Да, со сравнительным анализом я както не догадался. Я все на словарях зацикливался. Попробую подумать в этом направлении ☝
Еще есть хороший и быстрый способ получить словарь по нужной тематике. Если есть готовая база, можно прогнать по ней базовый список запросов из семантического ядра и получить поиском список документов - если один и тот же документ будет находиться несколькими характерными запросами, можно с заданной вероятностью относить его к нужной рубрике. Дальше дело техники - разобрать тексты на лексемы и посчитать словари.
Метод хорош тем, что может работать совершенно автономно, дополняя готовые словари новыми терминами.
А есть ли открытый инструментарий для построения многомерных векторов (ну или как ещё говорят векторного пространства) ?
Чем вам семантический анализ не нравится? Сейчас уже есть достаточно много open-source алгоритмов, поищите.
---
http://www.ashmanov.com/tech/semantic/demo/
Семантический анализ ... WordNet вроде есть ...
Но сложно как-то слишком :-)
Нашлось немного инструментариев.
Например Search::VectorSpace на спане. Или уже готовые алгоритмы в dpsearch
Интересуют английский и китайткий. Английский для работы, а китайский для решения задачи сферического коня в вакууме, чтобы знание языка програмистами не влияло на результат работы алгоритма.
Нда. Таких сервисов я, увы, не встречал.:)
как я понял вам нужно типа этого istio.com/rus/text/analyz