首页 > 编程语言 >聚类算法中聚类数量的确定方法

聚类算法中聚类数量的确定方法

时间:2022-09-28 21:14:19浏览次数:54  
标签:簇内 中聚类 算法 聚类 SSE 方法

聚类算法中聚类数量的确定方法

聚类算法是对实体进行分组归类的有效方法,也是有利于降低人力工作量的有效手段,例如先用AI聚类方法对实体数据进行聚类分组,再由人工介入指认,能有效降低工作成本,但是聚类数量的确定是个很客观的问题,到底聚多少类才算合适呢
本文就此问题介绍几种方法:

1.手肘法

本质上是计算误差平方和(SSE),具体如下:
\(SSE = \sum_{i=1}^{K}\sum_{j\in C_{i}}\left | j-m_{i} \right |^{2}\)
注意\(K\)为聚类数,\(m_{i}\)为第\(i\)个聚类中心,\(j\)是第\(i\)类类簇的第\(i\)个数据点。公式可以理解为在聚类数为\(K\)下每个类簇内的点到相应类簇中心点的误差平方和。
可以假想一下,当所有点都聚在一起的时候,\(SSE\)是最大的,而当每个数据点为一类时,\(SSE=0\),也就是说,当聚类数不断增加时,\(SSE\)会逐渐趋近于0,在随着聚类数增加的过程中,\(SSE\)有下降速度最大的一个点,而这个点就是聚类数最佳的点。实际应用过程中,会把\(SSE-K值\)曲线画出来,在\(SSE\)下降速度最大的点作为\(K\)值最优点。

2. Calinski Harabasz系数

CH系数公式如下:
\(CH(K) = \frac{trB(K)/(k-1)))}{trW(K)/n-k)}\),\(K\)表示当前聚类数,\(trB(K)\)表示类簇间的离差矩阵的迹,\(trW(K)\)表示类内离差矩阵的迹,\(n\)表示聚类数量

3. Silhouette Coefficient(轮廓系数)

具体公式如下:
\(S(i) = \frac{b(i)-a(i)}{max(a(i),b(i))}\),其中\(a(i)\)是点\(i\)与所在类簇内其他所有点的距离平均值,\(b(i)\)为点\(i\)到非包含它的类簇内所有点距离平均值的最小值,可以知道\(a(i)\)越小说明聚类内聚度越好,\(b(i)\)越大说明类间分离程度越好。

标签:簇内,中聚类,算法,聚类,SSE,方法
From: https://www.cnblogs.com/bonne-chance/p/16739552.html

相关文章

  • 荷兰国旗问题与快速排序算法
    荷兰国旗问题与快速排序算法作者:Grey原文地址:博客园:荷兰国旗问题与快速排序算法CSDN:荷兰国旗问题与快速排序算法荷兰国旗问题问题描述给定一个整数数组,给定一个值K......
  • GC 清除算法--常用垃圾回收算法和常用垃圾回收器
    1:Mark-Sweep(标记清除)缺点-- 碎片话特别严重2:Copying(拷贝)找到可用的一半复制到另外一半,再把以前的一半给清除掉; 缺点:浪费内存3:Mark-Compact(标记压缩) --......
  • AcWing 算法提高课 treap平衡树
    1、基本性质tree+heap=treap平衡树包含treap红黑树splaysbtAVL等等splay比较常用treap=①BST二叉搜索树+②heap2、set不能做的操作  ⑤和⑥这种与排名相......
  • DFS算法练习 POJ1111; POJ1129; POJ2245; POJ2657
    POJ1111:importjava.util.Scanner;/***@Authorjinjun99*@DateCreatedin2022/9/279:49*@Description*@Sinceversion-1.0*/publicclassMain{......
  • 16 -- 排序算法之插入排序
    算法介绍:插入排序属于内部排序法,时对于待排序的元素以插入的方式找到改元素的适当位置,以达到排序的目的。【类似于生活中的斗地主游戏,每抓起一张牌按照便把改张牌按照指定......
  • 克鲁斯卡尔算法
    应用场景某城市新增7个站点(A,B,C,D,E,F,G),现在需要修路把7个站点连通各个站点的距离用边线表示(权),比如A–B距离12公里问:如何修路保证各个站点都能连通......
  • AcWing 算法提高课 可持久化
    可持久化的前提:数据结构本身的拓扑结构不变trie、线段树、树状数组、堆等都可持久化平衡树(一般)需要左旋和右旋,不可持久化  可持久化希望将数据结构的全部修改记录下......
  • 分布式自增ID算法Snowflake简介
    背景过去的项目开发中,我们常常选用的数据库是mysql,mysql以其体积小、速度快等优势,备受中小型项目的青睐。随着项目数据量的迅速增长,mysql已无法满足我们的项目需求,数据迁移......
  • 贪心算法
    应用实例假设存在如下表的需要付费的广播台,以及广播台信号可以覆盖的地区。如何选择最少的广播台,让所有的地区都可以接收到信号思路分析目前并没有算法可以快速......
  • 基于遗传算法的物流管理系统
    原型是车辆路径规划问题(VRP)使用SpringBoot+ElementUI+MySQL搭建网站。登录页面:有三个选项,对应三种用户登录,会进入不同页面。修改密码页面:可以修改多项用户信息,和登......