Автоматическая фильтрация и рубрикация документов в коллекции. Помогите разобраться.

12
S
На сайте с 18.11.2005
Offline
32
#11
Но в работе например некрестьянинова, читаю что классическая задача автоматической классификации - это распихать документы по рубрикам, при условии что документы не являются мусором, то есть принадлежат хотя бы одной рубрике.

А что (для начала, по крайне мере) мешает считать мусор отдельной рубрикой? Вопрос, конечно, сразу возникнет о разнообразии семейства разделяющих поверхностей. Но, если оно позволяет отделить "сложный" мусор, то такой подход разделит и его, и настояшие рубрики.

Например в классическом СВМ у вас вряд ли получится исключить нерелевантные документы (исходя из того, что количество классов к кторым приписываются документы будет равно числу классов обучающего множества и невозможно построить гиперплоскость между релевантными и всеми остальными документами)

Да, но попытаться можно. Например, SoftSVM или пытаться угадать ядро, которые разделит классы.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий