Специально для Вас: http://community.livejournal.com/ru_ir/48146.html
Может быть реальные примеры помогут разобраться: http://romip.narod.ru/romip2006/appendix_a_metrics.pdf
наберите в гугле classification и читайте. или начните отсюда http://en.wikipedia.org/wiki/Document_classification
Вариант номер раз: взять общедоступную коллекцию (тот же Reuters, благо работ сделанных на основе коллекции полно и будет с чем сравнивать).
Вариант второй: поехать таки на РОМИП в следующем году (в марте наверное начнется сезон 2007 (будут доступны коллекции), а к тому времени и начитаться можно уже будет вдоволь :)
Третий вариант: учавствовать в Яндекс-грантах.
А почему нет? Если есть реальная выборка с разбиением по категориям и достаточным количеством примеров в рубрике - вперед и с песней! :)
Не совсем понятен формат. Выложите, что бы вы хотели.
Я представляю компанию под названием Балтийский Государственный Технический Университет :)
От себя хочу добавить, что помимо возможности пообщаться с ведущими специалистами России в области информационного поиска и получения бесплатно сборника трудов, этот семинар представляет собой хорошую возможность для собственного роста. Люди, так или иначе интересующиеся информационным поиском, найдут для себя много интересного. Всем очень рекомендую.
Да почему грубого?! Вы попробуйте на практике потроить классификатор по большой выборке и посмотрите что за слова будут встречаться 1-2 раза.
Вот, к примеру, что за слова на НАРОДовской коллекции (слово после стемминга, после двоеточия количество страниц коллекции, на которых оно встречается):
оелтпжймпч: 6
руссок: 6
2sd: 6
единк: 6
соправлен: 6
рaсстоян: 6
обрхзбмп: 6
elus: 6
бегyщ: 6
a420: 6
Так эти термы стречаются не 1-2 раза, а 6(!), и при этом размерность 450 000 (то есть, если оставить только слова, встречающиеся не реже чем в 6 документах, размерность про-ва будет 450 тысяч)! Зачем таскать этот мусор за собой и обсчитывать выборку по полгода?!
На опыте. Проверьте про-ва различной размерности и их влияние на полноту/точность/F-меру. А вообще, лично мне кажется, что использовать пр-ва выше 500 000 тысяч - заведомый перебор.
Существует куча методов. Себастиани о них (если ничего не путаю) также упоминает. МОжно еще посмотреть A comparative study on feature selection in text categorization
Собственно, чтд.
Я думаю тут речь о другом. Есть такой закон распределения Ципфа (-Мандельброта). Если утрировать, то наибольшее количество слов в языке это низкоранговые слова (иными словами - основная масса слов встречается в текстах чрезвычайно редко).
Тут он говорит, что сократив размерность исходного пр-ва признаков в 10 раз качество практически не ухудшилось. Естественно, если, к примеру в народовской коллекции РОМИПа словарь (уже после стемминга и удаления слов, встречающихся реже чем в 5 документах) составляет около 500 000 термов, то сократив его в 10 раз (до 50 000 за счет удаления более низкоранговых термов) мы вряд ли особо потеряем в качестве. Тем более если количество рубрик невелико.
Так, что думаю, здесь речь шла именно об этом (если я правильно понял Себастиани), а не о том, чтобы оставить 100 наиболее высокоранговых слов.