trink

Рейтинг
36
Регистрация
15.04.2003

Еще раз пофторяю что очень интересен сам алгоритм а не формулы

А зачем еще делить?????

Норм наверное можно придумать множество

Мне интересен сам алгоритм выемки сортировки и прочее

Прочитал статьи которые вы посоветовали

Там описан классический алгоритм центров тяжести который применяется для кластеризации в прикладной статистике с поправкой на гиперсвязи

Его основной недостаток на мой взгляд в том что он слабоприменительный к большим обьемам данных

В нем есть следующие критичные операции:

подсчет центров кластера(нужно просумировать и нормировать словарные образы всех документов кластера)

непонятно когда он закончится Нету никаких результатов говорящих что критерий p(t + 1) = p(t) должен обязательно быть достигнут и за приемлемое количество шагов

Это делает метод слабоприменимым на больших обьемах данных а на маленьких учет гиперсвязей мало помогает потому что два документа из маленькой выборки качественно связаны с очень малой вероятностью

К тому же в нем нет рекомендаций о начальном выборе количества кластеров что тоже очень важно Хотя возможно в результате итеративного выполнения алгоритма лишние кластера сольются или опустеют

Все это понятно лишь мое мнение

В этом отношении некоторые считают перспективным использовать латентный поиск и кластеризацию когда матрица образов документов апраксимируется так называемой инфинитизимальной матрицей за счет чего ее размерность существенно уменьшается но я еще не успел сделать какие то опыты по этому поводу

Я планирую занятся обоими подходами в каком то будущем(счас не могу спланировать еще когда)

По поводу предоставления доступа к вашим ресурсам как это можно было бы осуществить????

Я нахожусь в Киеве

1 234
Всего: 33