发展:
们每次选簇的平均值作为新的中心,迭代直到簇中对象分布不再变化。因此一个具有很大极端值的对象会扭曲数据分布,造成算法对极端值敏感
在聚类分析中,异常值通常会引起问题,因为它们可能会被分配到一个独立的聚类,从而干扰正常的聚类结果。这可能导致聚类算法产生不合理或不稳定的结果
定义:
K-Medoids(中心点)算法不选用平均值,转而采用 簇中位置最中心的对象,即中心点(medoids) 作为参照点,算法步骤也和 K-means 类似,其实质上是对 K-means算法的改进和优化。
medoids怎么得到的?
K-medoids使用中心点到聚类内的点的距离之和来衡量聚类的质量
算法步骤
-
初始化:选择K个数据点作为初始的中心点,这些点可以从数据集中随机选择,或者采用一些启发式方法来选择。
-
分配:将每个数据点分配到距离其最近的中心点所代表的聚类。
-
选择Medoid:对于每个聚类,计算所有数据点到其中每一个点的距离之和。然后,选择代表该聚类的数据点,以最小化这个距离之和。这个代表点就是所谓的"medoid"。
-
更新中心点:将选择的medoids作为新的聚类中心。
-
重复步骤2和步骤4,直到聚类不再发生变化或者达到预定的迭代次数。
衍生算法PAM
PAM算法(Partitioning Around Medoids)是为了解决K-medoid算法中的初始Medoid选择问题而出现的。K-medoid算法是一种用于聚类分析的算法,其核心概念是将数据点分为K个不同的聚类,其中每个聚类由一个数据点(Medoid)代表。这个算法需要选择初始的Medoid,以便构建聚类。
PAM算法的主要作用是改进初始Medoid的选择,以便更好地寻找数据的内在结构和生成质量更高的聚类。具体来说,PAM算法通过以下方式解决K-medoid中的问题:
-
初始Medoid的选择:K-medoid算法最初的Medoid选择通常是随机的,这可能会导致算法收敛到次优的聚类解决方案。PAM算法引入了更智能的Medoid初始化方法,以选择更有代表性的初始Medoids,从而改进了算法的性能。
-
Medoid的更新:K-medoid算法中,Medoids会随着算法的迭代而更新,PAM算法采用一种更有效的方法来选择新的Medoid,以减小聚类的代价(损失函数)。
标签:medoids,算法,medoid,聚类,Medoid,PAM From: https://www.cnblogs.com/mxleader/p/17783126.html