Если Вас серьезно интересует эта тема, советую съездить в октябре на РОМИП. Там соберуться "столпы" и Вы сможете обсудить любые вопросы, которые у Вас есть по классификации.
http://romip.narod.ru/
На опыте можно будет сказать точно. А до экспериментов лишь общие соображения.
Вообще, умные люди говорят, что все зависит от коллекции. Бывает так, что Байес ничють не хуже опорных векторов (а скорости конечно не сравнить), бывает, что хватает бинарного взвешивания, бывает, что одна рубрика никак не хочет работать, бывает примитивный алгоритм работает гораздо лучше более совершенного... Многое бывает.
Критерием на самом деле может быть только опыт.
А, тогда быть может в ней и есть какой толк...
TF*IDF это все таки метод взвешивания термов, а не ММО
Есть два пути, либо идти по уровням (сначала определять к какой из тем верхнего уровня относится документ, потом все ниже и ниже), либо считать что все рубрики принадлежат к одному уровню.
Она хороша как систематизирующая знания в области классификации.
Да у всех разные. Надо смотреть конкретную.
Мне конечно приятно, что вы считаете меня экспертом в классификации, но это не совсем верно. На этом форуме есть люди смыслящие в этом вопросе гораздо больше моего.
Если нужно качество - СВМ, kNN, если скорость - Байес.
А по поводу изврата, сам не пробовал - поэтому сказать наверняка не могу, но все это пахнет как то не хорошо. Ошибки опять же будут накапливаться. Вообщем я бы так наверное не делал, а поискал бы более простой путь.
Вообще такая подборка (если она существует) очень странное явление. какой в ней практический смысл?
Во первых наверное все же Некрестьянов.
Во вторых у Вас некая каша в голове. Все зависит от метода. Например в классическом СВМ у вас вряд ли получится исключить нерелевантные документы (исходя из того, что количество классов к кторым приписываются документы будет равно числу классов обучающего множества и невозможно построить гиперплоскость между релевантными и всеми остальными документами), а вот например в ближайшем соседе вполне. Если значение "близости" к ближайшему документу будет меньше определенного порога то выкидываем.
А вообще хорошим введением будет http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf
А поподробнее можно? Идея, насколько я понял в том, что эти слова передают суть документа и при незначительных изменениях теста страницы остаются не изменными?
В этом разделе обсуждаются иные вещи. Вам сюда: /ru/forum/search-engines
Я наверное не так выразился - "как работает Information gain В ЗАДАЧЕ уменьшения размерности про-ва признаков". Точне как уменьшить размерность с помощью Information gain.
Но я уже разобрался. Спасибо за ответ. :)