Кластеризация облака точек в n-мерном пространстве. Какие есть подходы?

12
mustafa
На сайте с 28.10.2005
Offline
202
3056

Интересуют алгоритмы кластеризации облак точек в n-мерном пространстве. Пусть n=3. Количество точек N=10^7. Кто что может посоветовать почитать?

Первое что приходит в голову: "рассеивание веса" с радиусом R возле каждой точки. И дальше играться с порогом "плотности" для вхождения в кластер....

через полчаса раздумий :)

М-да... Он везде будет разным, порог этот.... И можно небольшие облачка пропустить...

S
На сайте с 19.05.2005
Offline
103
#1

Существует множество стандартных методов решения подобных задач. Ищите "Кластерный анализ". Найти источник легко, а вот нужный метод выбрать будет трудно.

юни
На сайте с 01.11.2005
Offline
933
#2

<off>

теперь ясно... всё ясно..... :) :) я аж прям испугался, когда название прочитал... :)

</off>

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Yaroslav_Adv
На сайте с 27.09.2005
Offline
199
#3

По такому запросу нашлось немного:

Летели два облака в далекую страну Америку, и повстречались с другими облаками. А те возьми, да и спроси: - Кто вы, и куды летите? А облаки возьми, да и ответь:
- А мы облаки, летим в далекую страну Америку.
- Давай вместе лететь.
- Ну, давай.
Ну, летят они целым стадом, а навстречу им другие облаки, и говорят: - Мы облаки-грабители, а ну гоните нам деньги. А облаки испугались, и лепечут:
- А у нас денег нет.
- Как это нет?
- А мы летим в далекую страну Америку, и деньги забыли с собой взять.
- Да как же вы в Америке, да без денег жить то будете? – удивляются облаки-грабители.
Облаки остановились, и задумались. Тут налетел сильный ветер, и сдул облак-грабителей. Стоят облаки, и думают-размышляют, и вдруг вспомнили, что у них мозгов то нет, чтобы думать, и отправились дальше.

И т.д. и т.п. 😂

С уважением, Ярослав Деревягин Веб-агентство "Found (http://found-it.ru)"
Kolyaj
На сайте с 28.03.2006
Offline
69
#4

http://forest.akadem.ru/library/matlab/fuzzylogic/book1/12.html

Вот тут есть по нечеткой кластеризации. В отличие от четкой, при нечеткой кластеризации каждая точка будет относится к каждому кластеру с какой-нибудь вероятностью.

SE
На сайте с 26.02.2006
Offline
71
#5

Алгоритмов много, область хорошо раскопана.

Рекомендую ознакомиться с курсом Юрия Лифшица:

http://logic.pdmi.ras.ru/~yura/internet.html

там есть материалы как и по кластеризации (слайды, конспект, ссылки) так и по многим другим любопытным темам.

pro-maker
На сайте с 08.12.2003
Offline
281
#6
mustafa:
Интересуют алгоритмы кластеризации облак точек в n-мерном пространстве. Пусть n=3. Количество точек N=10^7.

Володя, с трудом представляю капчи пространственные. :)

mustafa
На сайте с 28.10.2005
Offline
202
#7
pro-maker:
Володя, с трудом представляю капчи пространственные. :)

я если честно тоже :) Все немного хитрее и немного из другой оперы ;)

Раскрою чуть-чуть карты :)

p{x,y,z...}

p - это ключевик=вектор

x,y,z... - свойства ключевика = координаты. Частота запросов, конкурентность, цена клика....

Вот собственно это и хочу кластеризировать :)

saint_evil, Kolyaj, спасибо, много интересного там нашел :)

A0
На сайте с 29.10.2006
Offline
114
#8
mustafa:
Интересуют алгоритмы кластеризации облак точек в n-мерном пространстве. Пусть n=3. Количество точек N=10^7. Кто что может посоветовать почитать?

Первое что приходит в голову: "рассеивание веса" с радиусом R возле каждой точки. И дальше играться с порогом "плотности" для вхождения в кластер....


через полчаса раздумий :)
М-да... Он везде будет разным, порог этот.... И можно небольшие облачка пропустить...

Заранее сказать что подходит не могу: надо смотреть, пробовать. Сейчас для кластеризации используются следующие методы:

-Иерархическая группировка

-Итеративная оптимизация

-К внутригрупповых средних

-Метод локальной оптимизации

-Коллективные решения

Кратко о них:

Метод локальной оптимизации

Метод кластеризации и поиска оптимального для данной выборки объектов числа кластеров, использующий минимизацию функционала штрафа для кластеризации и экстремума второй производной функционала штрафа для выбора оптимального числа кластеров.

К внутригрупповых средних

Данный метод кластеризации основан на на минимизации показателя качества, определяемого как сумма квадратов расстояний всех объектов, входящих в классовую область, до центров классов. Итерационный алгоритм решения состоит из следующих шагов:

1. Выбор центров класслв.

2. Изменение центров классов до тех пор, пока происходит улучшение функционала.

Ожидать приемлимых результатов можно в тех случаях, когда данные образуют характерные гроздья, отстояще друг от друга достаточно далеко. В практических случаях полезно проводить серию экспериментов, связанных с выбором различных начальных приближений классов.

Итеративная оптимизация

Данный метод кластеризации состоит в определении такого разделения объектов по кластерам, при котором достигается минимум функционала качества. В качестве последнего выступает сумма квадратов отклонений объектов от центров кластеров. Оптимизация функционала производится путем последовательного перебрасывания объекта из одного кластера в другой с целью максимально возможного уменьшения значения функционала качества разбиения. При такой процедуре оптимизации велика вероятность нахождения локального экстремума. Поэтому в данный метод заложена процедура выбора серии случайных начальных приближений с целью нахождения минимального значения функционала.

Данный метод сходен с методом кластеризации К-средних и отличается от последнего способом оптимизации функционала качества разбиения.

Иерархическая группировка

Данный метод кластеризации основан на процедуре последовательного объединения кластеров. На каждом шаге процедуры объединяется та пара кластеров, элементы которой наиболее близки друг к другу при выбранном способе вычисления расстояния между кластерами. Процесс останавливается, когда остается необходимое число кластеров.

В этот метод заложен достаточно простой и эффективный механизм поиска кластеров, а процедура поиска занимает небольшое количество времени. Поэтому данный метод может быть использован при любых начальных данных. Выбор способа введения расстояния между кластерами придает методу достаточную гибкость и учитывает различные интуитивные подходы исследователя к формированию кластеров.

Коллективные решения задачи классификации

Данный метод строит коллективные решения задачи классификации, основываясь на результах, получемых в результате обработки данных другими методами классификации.

Исходными данными являются информационные матрицы классифицирующих алгоритмов. Суть данного подхода состоит в поиске разбиения выборки объектов на такие подмножества, элементы каждого из которых принадлежали бы “значительному” числу классов, полученных исходными алгоритмами.

Нахождение таких подмножеств осуществляется путем итерационного решения задачи дискретной оптимизации. При этом производится серия вычислений, начинающихся от различных начальных приближений.

pro-maker
На сайте с 08.12.2003
Offline
281
#9
mustafa:
p - это ключевик=вектор
x,y,z... - свойства ключевика = координаты. Частота запросов, конкурентность, цена клика....
Вот собственно это и хочу кластеризировать

Млин, ну и зашифровал. Для оцифровки используй вектора (векторный анализ). itman объяснял кое-что похожее.

Dreammaker
На сайте с 20.04.2006
Offline
569
#10
pro-maker:
Млин, ну и зашифровал. Для оцифровки используй вектора (векторный анализ). itman объяснял кое-что похожее.

А-а-а-а... mustafa и ХРНС скооперировались.. Теперь их двое 😂

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий