dfo

Рейтинг

Регистрация

21.11.2005

Поиск похожих документов - примитивный алгоритм

6 декабря 2005, 22:13

"Распределение Ципфа выражает некие фундаментальные свойства замкнутых связных текстов (такими обычно являются тексты, написанные одним автором, в едином стиле и т.д.), поскольку именно для таких текстов распределение частот слов (если частоты выстроены в порядке их убывания) близко к нему [6]. Таким образом, выполнение этого закона может выступать как критерий системности текста"

интересно, разрабатывал ли кто-нибудь это предположение..

вроде как может сгодиться для построения кластеров (дубликатов, или, например, стилистических, тематических..)

Шинглы и динамические блоки на сайте

6 декабря 2005, 19:52

интересный метод, немного неконкретное описание. Вы не описали его в какой-нибудь статье?

каковы тестовые результаты? проверяли на больших наборах текстов?

"больший вес имеют слова из "редких" букв" - это Ваша идея, или где-то уже описана?

Курс биткоина превысил $50 тысяч

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

dfo