"Распределение Ципфа выражает некие фундаментальные свойства замкнутых связных текстов (такими обычно являются тексты, написанные одним автором, в едином стиле и т.д.), поскольку именно для таких текстов распределение частот слов (если частоты выстроены в порядке их убывания) близко к нему [6]. Таким образом, выполнение этого закона может выступать как критерий системности текста"
интересно, разрабатывал ли кто-нибудь это предположение..
вроде как может сгодиться для построения кластеров (дубликатов, или, например, стилистических, тематических..)
интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?
каковы тестовые результаты? проверяли на больших наборах текстов?
"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?