Доброе время суток!
Я занимаюсь тематической кластеризацией полнотекстовых документов в институте. Пока все достаточно примитивно: частотный анализ, кластерный анализ...
Вот собственно в чем дело: для проведения исследований необходима исходная база полнотекстовых документов на русском языке. Около 250 документов. Количество тем - 5 или 6.
Я понимаю, что формирование такой базы дело не минутное, но буду очень благодарен за помощь.
Даже если есть документов 50 на одну тему, буду очень благодарен.
Также приветствуются ссылки на публичные базы.
Заранее спасибо за помощь. ChasovskyAV@mpei.ru