Еще раз пофторяю что очень интересен сам алгоритм а не формулы
А зачем еще делить?????
Норм наверное можно придумать множество
Мне интересен сам алгоритм выемки сортировки и прочее
Прочитал статьи которые вы посоветовали
Там описан классический алгоритм центров тяжести который применяется для кластеризации в прикладной статистике с поправкой на гиперсвязи
Его основной недостаток на мой взгляд в том что он слабоприменительный к большим обьемам данных
В нем есть следующие критичные операции:
подсчет центров кластера(нужно просумировать и нормировать словарные образы всех документов кластера)
непонятно когда он закончится Нету никаких результатов говорящих что критерий p(t + 1) = p(t) должен обязательно быть достигнут и за приемлемое количество шагов
Это делает метод слабоприменимым на больших обьемах данных а на маленьких учет гиперсвязей мало помогает потому что два документа из маленькой выборки качественно связаны с очень малой вероятностью
К тому же в нем нет рекомендаций о начальном выборе количества кластеров что тоже очень важно Хотя возможно в результате итеративного выполнения алгоритма лишние кластера сольются или опустеют
Все это понятно лишь мое мнение
В этом отношении некоторые считают перспективным использовать латентный поиск и кластеризацию когда матрица образов документов апраксимируется так называемой инфинитизимальной матрицей за счет чего ее размерность существенно уменьшается но я еще не успел сделать какие то опыты по этому поводу
Я планирую занятся обоими подходами в каком то будущем(счас не могу спланировать еще когда)
По поводу предоставления доступа к вашим ресурсам как это можно было бы осуществить????
Я нахожусь в Киеве