Наберите в гугле classification и читайте - Поисковые технологии

определение вероятности тематики докумета

AdultGO · 2006-10-27T20:34:32.0000000Z

Я конечно понимаю, что нельзя точно определить тематику докумета машинніми средствами, кроме анализа всего контента по большому словарю :D, что не целесообразно, когда таких документов много. Есть к примеру док, мне нужны доки только определённой тематики, как определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики? :gm:

36

Eddie

31 октября 2006, 13:10

#11

Да, пока другого решения мы не нашли. Если оно появится, и будет озвучено в этой теме, буду премного благодарен.

Блог веселого программиста (http://www.bloged.org)

R

37

Rusl

1 ноября 2006, 11:42

#12

harlot:
А про это где можно почитать подробнее?

наберите в гугле classification и читайте. или начните отсюда http://en.wikipedia.org/wiki/Document_classification

K

31

Ken

2 ноября 2006, 17:22

#13

Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво

W

40

walker

2 ноября 2006, 18:45

#14

Ken:
Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво

тогда уж не забывать об искусственном интеллекте, DM, BI, и конечно, о серебрянной пуле и чесноке

Абби в 1999 году все обещал сделать глобальную штуку, теперь сейчас обещает - наверное им надо раз в пять-шесть лет обещать, а то все забывают об их глобальных замыслах

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

3 ноября 2006, 17:55

#15

Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.

W

40

walker

4 ноября 2006, 14:59

#16

Ken:
Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.

дело не в степени абстрагирования, а в подходе

на паровозе до луны не доехать

YK

138

Yuri_K

9 ноября 2006, 12:54

#17

Про классификацию... Мы строили разные решения, одно из них построено на нашем продукте Document Comparator - который определяет проксимацию (близость) смыла 2-х и более документов. Тогда решение задачи сводится к созданию базы эталонных документов в ручную «разложенных» по разным темам. Далее, каждый новый документ сравнивается с эталонными тематическими документами, в результате чего получаем веса которые задают степень близости документа к той или иной теме (шаблонному документу или их группе). И можно сказать, что на столько-то % документ близок в одной теме, а настолько % - к другой. Такой салюшен назван у нас категоризатор, демки нету, вот демка (вернее игрушка) компаратора, на основе которой построен категоризатор.

http://comparator.intellexer.com/demo_comp.php

Другое решение называется кластеризатор - определение смысла документа. Часто используется для группировки результатов поиска. Наша тула работает очень похоже на результаты поиска clusty.com (насколько я помню они для AOL батрачили)

Вот как выглядят результаты работы кластеризатора.

http://clusty.com/search?input-form=clusty-simple&v%3Asources=webplus&query=summarizer

Ну и еще одно решение – суммаризация (автореферирование) – задача вытянуть из текста n предложений содержащих передающий основной смысл документа. На основе таких summary намного легче делать классификацию документа.

Для анг. текстов нашу online демку можно посмотреть тут: http://summarizer.intellexer.com/summ_demo_v2.php

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

9 ноября 2006, 17:51

#18

Когнитивно:)

W

40

walker

9 ноября 2006, 21:33

#19

Yuri_K:
Мы строили разные решения, одно из них построено на нашем продукте ...

Другое решение называется ...

Ну и еще одно решение ...

Опять реклама.

Хочется рассказать о своем - пожалуйста, но хоть имейте совесть, приводите результаты сравнительного с другими подходами evaluation, хотя бы обсуждайте достоинства и недостатки, хотя бы ссылки на тех (западных) людей, кто публиковался с подобными подходами ранее, а то скоро пойдет в ход "семантический анализ" и т.д.

Кстати, если что-то называется "решение", а не просто "экспериментальный алгоритм", то должно быть хотя бы одно масштабное внедрение, или несколько не столь масштабных.

Тщательнее надо...

119

!Иван FXS

22 ноября 2006, 07:28

#20

"... нужны доки только определённой тематики, как определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики?"

AdultGO, Вы не сказали ни слова о том, КАК (ЧЕМ) у Вас задана "определённость тематики" ...

Все что нужно знать о DDоS-атаках грамотному менеджеру

Вышел новый Яндекс Браузер с YandexGPT и YandexART

определение вероятности тематики докумета