首页 > 其他分享 >聚类评价指标

聚类评价指标

时间:2024-12-29 23:30:19浏览次数:6  
标签:真实 标签 衡量 指标 聚类 评价 值越

聚类评价指标分为 内部指标外部指标 两大类,用于评估聚类算法的性能。


一、内部评价指标

内部评价指标不依赖真实标签,主要通过聚类结果本身的紧凑性和分离性进行评估。

  1. 轮廓系数(Silhouette Coefficient, SC)

    • 衡量数据点与其簇内点的紧密程度,以及与最近簇的分离程度。
    • 公式:
      • a(i): 数据点 i 到其簇内其他点的平均距离。
      • b(i): 数据点 i 到最近簇的平均距离。
    • 值域:[-1, 1],值越大表示聚类效果越好。
  2. DB指数(Davies-Bouldin Index, DBI)

    • 衡量簇内紧密性与簇间分离性的比值。
    • 公式:
      • k: 簇的数量。
      • σi,σj: 簇 i 和 j 的内部散度。
      • dij: 簇 i和 j 的中心距离。
    • 值越小表示聚类效果越好。
  3. CH指数(Calinski-Harabasz Index)

    • 衡量簇间分离度与簇内紧密度的比值。
    • 公式:
      • k: 簇数。
      • n: 数据总数。
    • 值越大表示聚类效果越好。

二、外部评价指标

外部指标依赖真实标签,衡量聚类结果与真实类别的匹配程度。

  1. 准确率(Accuracy, ACC)

    • 衡量聚类结果与真实标签的最大匹配程度。
    • 公式:
      • yi: 数据点 i 的真实标签。
      • ci: 数据点 i 的聚类标签。
      • map(ci): 聚类标签与真实标签的最佳映射。
    • 值域:[0, 1],值越大表示聚类效果越好。
  2. 归一化互信息(Normalized Mutual Information, NMI)

    • 衡量真实类别与聚类结果的互信息量。
    • 公式:
      • I(Y;C): 真实标签 Y 和聚类结果 C 的互信息。
      • H(Y),H(C): 真实标签和聚类结果的熵值。
    • 值域:[0, 1],值越大表示聚类效果越好。
  3. 调整兰德指数(Adjusted Rand Index, ARI)

    • 衡量数据点对间一致性的调整比例。
    • 公式:
    • 值域:[-1, 1],值越大表示聚类效果越好。

三、总结

不同指标适用于不同场景:

  • 内部指标适合无标签数据的聚类评估。
  • 外部指标适合已知真实类别的数据,用于对比不同算法的表现。
    选择合适的指标有助于全面分析聚类算法的优劣。

目前的深度聚类领域的论文大多采用的是ACC、NMI、ARI三种,并且大多以NMI的值为准来衡量一个模型的聚类性能。也有部分论文采用了分类的F1指标来作为一种参考指标(个人认为可以不用)。当然,内部指标也可以用,我刚刚有一篇论文就被专家建议增加内部指标。。。。。。

标签:真实,标签,衡量,指标,聚类,评价,值越
From: https://blog.csdn.net/dundunmm/article/details/144812573

相关文章

  • INFINI Console 指标采集优化
    前言在Easysearch/Elasticsearch/Opensearch管理系统中,对于不同集群不同指标数据进行采集是一个常规任务。但是采集过程中不仅会对采集系统CPU和访问性能造成不少压力,也会对Easysearch/Elasticsearch/Opensearch集群造成资源消耗,从而影响集群本身的健康运行。因此,......
  • 上机实验七:K 均值聚类算法实现与测试
    上机实验七:K均值聚类算法实现与测试1、实验目的深入理解K均值聚类算法的算法原理,进而理解无监督学习的意义,能够使用Python推荐参考书:[1]范淼,李超.Python机器学习及实践,清华大学出版社.[2]PeterHarrington.机器学习实战,人民邮电出版社。语言实现K均值聚类算......
  • 基于PSO粒子群优化的配电网可靠性指标matlab仿真
    1.程序功能描述基于PSO粒子群优化的配电网可靠性指标matlab仿真,指标包括saifi,saidi,caidi,aens四个。2.测试软件版本以及运行结果展示MATLAB2022A版本运行 3.核心程序%初始化种群并评估初始适应度%初始化最佳成本记录数组ybest=zeros(Miter,1);forit......
  • 聚类时过滤点云
    为过滤车体和车体旁可能影响规划的障碍物,在lidar_euclidean_cluster_detect功能包中新增filteredPointsBydistance函数。voidfilteredPointsBydistance(constpcl::PointCloud<pcl::PointXYZ>::Ptrin_cloud_ptr,pcl::PointCloud<pcl::PointXYZ>......
  • 优化css性能的指标有哪些?
    优化CSS性能的指标主要包括以下几个方面:选择器效率:使用简洁的选择器,避免过于复杂的选择器链,以减少匹配时间和提高渲染速度。尽量避免使用通配符*选择器,因为它会匹配所有元素,消耗大量计算资源。优先使用ID选择器和类选择器,它们比标签选择器的效率更高。减少全局选择器的使......
  • 【概要】聚类的评估
    聚类的评估是用来衡量聚类算法在将数据分成不同类别(或簇)时的效果。由于聚类通常是无监督学习,它没有明确的标签作为参考,因此评估聚类的好坏通常依赖于簇内的紧密度和簇间的分离度。聚类评估的指标大致可以分为两类:内部评估指标和外部评估指标。一、内部评估指标内部评估指......
  • Python作业有效性评价系统(Pycharm Flask Django Vue mysql)
    文章目录项目介绍和开发技术介绍具体实现截图开发技术开发与测试:设计思路系统测试可行性分析核心代码部分展示文章目录/写作提纲参考源码/演示视频获取方式项目介绍和开发技术介绍通过开发人员和系统使用方的沟通,本系统的用户主要有如下几类,教师和学生。(1)教师子系......
  • 基于K均值聚类的自适应混合采样方法确实可以对样本中的类别数量进行均衡处理
    基于K均值聚类的自适应混合采样方法确实可以对样本中的类别数量进行均衡处理。这种方法结合了K均值聚类算法和自适应混合采样策略,旨在解决机器学习中的类别不平衡问题。以下是对该方法的详细解释:K均值聚类算法K均值聚类是一种基于划分的聚类方法,其目标是将数据集划分为K个簇,使得......
  • 龙哥量化:通达信文华技术指标-双均线固定止盈的期货量化策略思路详细分析
    如果您需要代写技术指标公式,请联系我。龙哥QQ:591438821龙哥微信:Long622889也可以把您的通达信,文华技术指标改成TB交易开拓者、金字塔、文华8的自动交易量化策略开始分享一些细致化的思路和写法,我常用的是TB交易开拓者。对量化感兴趣的朋友可以多交流这篇介绍重点介绍固定止......
  • R语言层次聚类
    层次聚类最佳簇数量的划分 1、GapStatistic方法gap_stat<-clusGap(as.data.frame(Fdist),FUN=hclust,K.max=10,B=50)#Fdist为距离矩阵,FUN选择聚类的算法是hclust(层次聚类)还是kmeans(k-means聚类),GapStatistic会计算从1到KmaxK_{\text{max}}Kmax​的聚类效......