首页 > 其他分享 >k-means k均值聚类的弱点/缺点

k-means k均值聚类的弱点/缺点

时间:2023-11-07 11:35:19浏览次数:29  
标签:use means may 均值 cluster 聚类 data mean

Similar to other algorithm, K-mean clustering has many weaknesses:

 

1 When the numbers of data are not so many, initial grouping will determine the cluster significantly.  当数据数量不是足够大时,初始化分组很大程度上决定了聚类,影响聚类结果。
2 The number of cluster, K, must be determined before hand.  要事先指定K的值。
3 We never know the real cluster, using the same data, if it is inputted in a different order may produce different cluster if the number of data is a few. 数据数量不多时,输入的数据的顺序不同会导致结果不同。
4 Sensitive to initial condition. Different initial condition may produce different result of cluster. The algorithm may be trapped in the local optimum. 对初始化条件敏感。
5 We never know which attribute contributes more to the grouping process since we assume that each attribute has the same weight. 无法确定哪个属性对聚类的贡献更大。
6 weakness of arithmetic mean is not robust to outliers. Very far data from the centroid may pull the centroid away from the real one. 使用算术平均值对outlier不鲁棒。
7 The result is circular cluster shape because based on distance.  因为基于距离,故结果是圆形的聚类形状。

 

One way to overcome those weaknesses is to use K-mean clustering only if there are available many data. To overcome outliers problem, we can use median instead of mean.  克服缺点的方法: 使用尽量多的数据;使用中位数代替均值来克服outlier的问题。

Some people pointed out that K means clustering cannot be used for other type of data rather than quantitative data. This is not true! See how you can use multivariate data up to n dimensions (even mixed data type) here. The key to use other type of dissimilarity is in the distance matrix.

 

http://people.revoledu.com/kardi/tutorial/kMean/Weakness.htm



标签:use,means,may,均值,cluster,聚类,data,mean
From: https://blog.51cto.com/emanlee/8228743

相关文章

  • [机器学习复习笔记] Clustering 聚类 (K-means实现)
    Cluster(KMeans实现)1.KMeans介绍及符号说明给定样本集\(D=\{x_1,x_2,...,x_m\}\),\(\text{KMeans}\)算法针对聚类所得的簇划分\(\mathcalC=\{C_1,C_2,...,C_k\}\)(分为\(k\)类)最小化平方差:平方差其中\(x\)为当前簇\(C_i\)中的样本向量,\(\mu_i\)......
  • [机器学习复习笔记] Spectral Clustering 谱聚类
    SpectralClustering谱聚类1.邻接矩阵无向图\(G=(V,E)\),所有顶点之间的权重构成一个\(n\timesn\)的矩阵:\[W=\begin{bmatrix}w_{11}&w_{12}&\cdots&w_{1n}\\w_{21}&w_{22}&\cdots&w_{2n}\\\vdots&\vdots&\ddots......
  • K-means聚类算法
    目录K-means聚类算法聚类和分类的区别找相似簇是什么K-means和KNN中理解K的含义如何量化“相似”1)随机选择质心%20%E9%9A%8F%E6%9C%BA%E9%80%89%E6%8B%A9%E8%B4%A8%E5%BF%83)2)求出新质心点%20%E6%B1%82%E5%87%BA%E6%96%B0%E8%B4%A8%E5%BF%83%E7%82%B9)总结Sklearn使用K-means算......
  • 关于“聚类算法”
        今天我在csdn上看到一篇文章关于聚类算法的文章。我了解到聚类算法是一类无监督学习的算法,用于将数据集中的对象按照相似性进行分组或聚集。聚类算法的目标是将相似的数据点归为一类,同时将不相似的数据点分开。        常见的聚类算法包括:1.K-means聚类算法。......
  • R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化|附代码数据
    互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个尝试。文本聚类其实也就是聚类分析在文本方向上的应用,首先我们要把一个个文档的自然语言转......
  • R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申
    最近我们被客户要求撰写关于有限混合模型聚类FMM的研究报告,包括一些图形和统计输出。摘要有限混合模型是对未观察到的异质性建模或近似一般分布函数的流行方法。它们应用于许多不同的领域,例如天文学、生物学、医学或营销。本文给出了这些模型的概述以及许多应用示例。介绍有限混合......
  • 【scipy 基础】--聚类
    物以类聚,聚类算法使用最优化的算法来计算数据点之间的距离,并将它们分组到最近的簇中。Scipy的聚类模块中,进一步分为两个聚类子模块:vq(vectorquantization):提供了一种基于向量量化的聚类算法。vq模块支持多种向量量化算法,包括K-means、GMM(高斯混合模型)和WAVG(均匀分布)。hierar......
  • R : 数据范围、数据均值、标准误差
    #创建一个示例数据向量data<-c(10.48,3.6,10.15,12.325,10.46,4.6,9.4,6.15,11.625,9.733333,12,17.5)#计算数据的范围data_range<-round(range(data),3)cat("数据范围:",data_range[1],"-",data_range[2],"\n")#计算数据的均值dat......
  • SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘|附代码数据
    全文链接:http://tecdat.cn/?p=32633原文出处:拓端数据部落公众号物流发货明细数据在现代物流业中扮演着至关重要的角色。通过对这些数据进行挖掘和分析,我们可以发现隐含在背后的供应链运营规律和商业模式,从而指导企业在物流策略、成本管理和客户服务等方面做出更加科学和有效的决......
  • 排序&平均值
    #include<iostream>usingnamespacestd;intm[5],n,num=0;voidp1_2(inttf){ for(intj=0;j<5;j++){ for(inti=0;i<5;i++){ if(tf==1){ if(m[j]<m[i]){ num=m[j]; m[j]=m[i]; m[i]=num; } }elseif(tf==2){ if(m[j......