определение вероятности тематики докумета

123
Eddie
На сайте с 12.07.2006
Offline
36
#11

Да, пока другого решения мы не нашли. Если оно появится, и будет озвучено в этой теме, буду премного благодарен.

Блог веселого программиста (http://www.bloged.org)
R
На сайте с 29.04.2003
Offline
37
#12
harlot:
А про это где можно почитать подробнее?

наберите в гугле classification и читайте. или начните отсюда http://en.wikipedia.org/wiki/Document_classification

K
На сайте с 22.04.2003
Offline
31
Ken
#13

Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво

W
На сайте с 23.09.2004
Offline
40
#14
Ken:
Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво

тогда уж не забывать об искусственном интеллекте, DM, BI, и конечно, о серебрянной пуле и чесноке

Абби в 1999 году все обещал сделать глобальную штуку, теперь сейчас обещает - наверное им надо раз в пять-шесть лет обещать, а то все забывают об их глобальных замыслах

K
На сайте с 22.04.2003
Offline
31
Ken
#15

Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.

W
На сайте с 23.09.2004
Offline
40
#16
Ken:
Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.

дело не в степени абстрагирования, а в подходе

на паровозе до луны не доехать

YK
На сайте с 14.03.2005
Offline
138
#17

Про классификацию... Мы строили разные решения, одно из них построено на нашем продукте Document Comparator - который определяет проксимацию (близость) смыла 2-х и более документов. Тогда решение задачи сводится к созданию базы эталонных документов в ручную «разложенных» по разным темам. Далее, каждый новый документ сравнивается с эталонными тематическими документами, в результате чего получаем веса которые задают степень близости документа к той или иной теме (шаблонному документу или их группе). И можно сказать, что на столько-то % документ близок в одной теме, а настолько % - к другой. Такой салюшен назван у нас категоризатор, демки нету, вот демка (вернее игрушка) компаратора, на основе которой построен категоризатор.

http://comparator.intellexer.com/demo_comp.php

Другое решение называется кластеризатор - определение смысла документа. Часто используется для группировки результатов поиска. Наша тула работает очень похоже на результаты поиска clusty.com (насколько я помню они для AOL батрачили)

Вот как выглядят результаты работы кластеризатора.

http://clusty.com/search?input-form=clusty-simple&v%3Asources=webplus&query=summarizer

Ну и еще одно решение – суммаризация (автореферирование) – задача вытянуть из текста n предложений содержащих передающий основной смысл документа. На основе таких summary намного легче делать классификацию документа.

Для анг. текстов нашу online демку можно посмотреть тут: http://summarizer.intellexer.com/summ_demo_v2.php

K
На сайте с 22.04.2003
Offline
31
Ken
#18

Когнитивно:)

W
На сайте с 23.09.2004
Offline
40
#19
Yuri_K:
Мы строили разные решения, одно из них построено на нашем продукте ...

Другое решение называется ...

Ну и еще одно решение ...

Опять реклама.

Хочется рассказать о своем - пожалуйста, но хоть имейте совесть, приводите результаты сравнительного с другими подходами evaluation, хотя бы обсуждайте достоинства и недостатки, хотя бы ссылки на тех (западных) людей, кто публиковался с подобными подходами ранее, а то скоро пойдет в ход "семантический анализ" и т.д.

Кстати, если что-то называется "решение", а не просто "экспериментальный алгоритм", то должно быть хотя бы одно масштабное внедрение, или несколько не столь масштабных.

Тщательнее надо...

!Иван FXS
На сайте с 16.11.2001
Offline
119
#20

"... нужны доки только определённой тематики, как определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики?"

AdultGO, Вы не сказали ни слова о том, КАК (ЧЕМ) у Вас задана "определённость тематики" ...

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий