首页 > 其他分享 >聚类分析

聚类分析

时间:2024-10-11 19:45:59浏览次数:8  
标签:bar sum jk sqrt 距离 聚类 聚类分析

聚类分为两种:对样品分类,Q型;对变量(指标)分类,R类。

Q型

样品空间的相似度——距离

常见的距离描述方法:

  1. 欧几里得距离:

    MATLAB自带函数计算

d = pdist(x)%每个行向量代表一个坐标
  1. 绝对距离:\(d(x_i,y_i)=\sum_{k=1}^p|x_{ik}-x_{jk}|\)

    d = pdist(x,'cityblock')%也叫曼哈顿距离
    
  2. 闵可夫斯基距离:\(d(x_i,y_i)=[\sum_{k=1}^p|x_{ik}-x_{jk}|^m]^{\frac{1}{m}}\)

    d = pdist(x,'minkowski',r)%r表示指数
    
  3. 切比雪夫距离:\(d(x_i,x_j)=\underset{a\leq k\leq p}{max}|x_{ik}-x_{jk}|\)

    d = max(abs(xi-xj))
    
  4. 马氏距离\(d(x_i,y_i)=\sqrt{(x_i-x_j)^T\sum^{-1}(x_i-x_j)}\) 其中\(\sum^{-1}\)指x和y的协方差矩阵的逆矩阵

    d = pdist(x,mahal)
    
S2=tril(suqareform(d)) %将数据转化为三角阵形式,更直观。

样品相似性度数

  1. 最短距离法: 以两类中距离最近的两点确定
  2. 最长距离法:以两类中距离最远的两点确定
  3. 重心法:以两类的重心确定
  4. 类平均法:以两类的样本点距离的平均确定
  5. 离差平方和法 \(D=\underset{x_k\in G_1 \cup G_2} \sum (x_k-\bar x)^T(x_k-\bar x)-\\\underset{x_k\in G_1} \sum (x_k-\bar x_1)^T(x_k-\bar x_1)-\underset{x_k\in G_2} \sum (x_k-\bar x_2)^T(x_k-\bar x_2)\)

R型

变量相似性度数

  1. 夹角余弦计算

    空间中两个列向量计算夹角余弦值 \(r_{jk}=cos\alpha_{ij}=\displaystyle {\large\frac{\sum_{t=1}^{n}x_{ti}x_{tj}}{ \sqrt{\sum_{t=1}^nx_{ti}^2} \sqrt{\sum_{t=1}^nx_{tj}^2}}}\)

2.相关系数

\(r_{jk}= \displaystyle \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}\)

变量聚类法

  1. 最长距离法 : \(d_{jk}^2=1-r_{jk}^2\) , 取最大\(d_{jk}\)
  2. 最短距离法 : 同理,取最小\(d_{jk}\).

Q,R型的区别

Q型是样品聚类,得到的参数是各个样品(向量)间的

R是变量聚类,得到的参数是各个元素(指标)间的

详见《数学建模算法与应用》第二版

P226

例题10.1.3

matlab函数

Y = linkage(X,'method')%以不同的方法生成聚类树,默认最短距离

T = cluster(Y,'maxclust',r)%创建聚类, 将对象分为r类

标签:bar,sum,jk,sqrt,距离,聚类,聚类分析
From: https://www.cnblogs.com/cxy1114blog/p/18459138

相关文章

  • [Python数据分析]最通俗入门Kmeans聚类分析,可视化展示代码。
     什么是k-means分析?【头条@William数据分析,看原版】    想象一下,你有一堆五颜六色的糖果,你想把它们按照颜色分成几堆。k-means分析就是这么一个自动分类的过程。它会根据糖果的颜色特征,把它们分成若干个组,每个组里的糖果颜色都比较相似。更专业一点说,k-means分析是一......
  • 聚类分析 | FCM模糊c均值聚类,三种优化算法(SSA、PSO、GA)对FCM初始中心点寻优
    聚类分析|FCM模糊c均值聚类,三种优化算法(SSA、PSO、GA)对FCM初始中心点寻优目录聚类分析|FCM模糊c均值聚类,三种优化算法(SSA、PSO、GA)对FCM初始中心点寻优效果一览基本介绍程序设计参考资料效果一览基本介绍聚类分析|FCM模糊c均值聚类,三种优化算法(SSA、PSO、GA)对FCM初始中心点......
  • 聚类分析 | BIRCH(Python)
    BIRCH聚类(BIRCH是平衡迭代减少的缩写,聚类使用层次结构)包括构造一个树状结构,从中提取聚类质心。birch聚类fromnumpyimportuniquefromnumpyimportwherefromsklearn.datasetsimportmake_classificationfromsklearn.clusterimportBirchfrommatplotlibim......
  • 聚类分析 | K均值(Python)
    K-均值聚类可以是最常见的聚类算法,并涉及向群集分配示例,以尽量减少每个群集内的方差。k-means聚类fromnumpyimportuniquefromnumpyimportwherefromsklearn.datasetsimportmake_classificationfromsklearn.clusterimportKMeansfrommatplotlibimportpyp......
  • 聚类分析 数模打卡
    聚类分析1.聚类任务无监督学习:通过对无标记训练样本的学习来揭示数据的内在性质及规律。聚类:把数据集中的样本划分为若干互斥子集,每个子集称一个簇cluster。两个基本问题:性能度量与距离计算。2.性能度量vslidityindex.作为判断和优化目标。外部指标:将聚类结果与某......
  • 聚类分析方法(三)
    目录五、聚类的质量评价(一)簇的数目估计(二)外部质量评价(三)内部质量评价六、离群点挖掘(一)相关问题概述(二)基于距离的方法(三)基于相对密度的方法七、其它聚类方法五、聚类的质量评价  聚类分析是将一个数据集分解成若于个子集,每个子集称为一个簇,所有子集形成的集合称......
  • 聚类分析方法(一)
    目录一、聚类分析原理(一)聚类分析概述(二)聚类的数学定义(三)簇的常见类型(四)聚类框架及性能要求(五)簇的距离二、划分聚类算法(一)划分聚类框架(二)划分聚类的质量(三)k-means算法(四)空簇与离群点(五)k-中心点算法  聚类分析(clusteringanalysis)是数据挖掘研究最为活跃、内......
  • python数据分析-房价数据集聚类分析
    一、研究背景和意义随着房地产市场的快速发展,房价数据成为了人们关注的焦点。了解房价的分布特征、影响因素以及不同区域之间的差异对于购房者、房地产开发商、政府部门等都具有重要的意义。通过对房价数据的聚类分析,可以深入了解房价的内在结构和规律,为相关决策提供科学依据......
  • R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验|附代
    全文链接:http://tecdat.cn/?p=32747原文出处:拓端数据部落公众号随着我国经济的快速发展,上市公司的经营绩效成为了一个备受关注的话题。本文旨在探讨上市公司经营绩效的相关因素,并运用数据处理、图示、检验和分析等方法进行深入研究,帮助客户对我国45家上市公司的16项财务指标进行......
  • 基于聚类分析的医学图像分割算法研究在医学领域,图像分割是医学影像诊断中的关键步骤,其
    基于聚类分析的医学图像分割算法研究在医学领域,图像分割是医学影像诊断中的关键步骤,其目的在于从复杂的图像背景中准确提取出病灶区域,为医生提供更为精确的病变信息。近年来,随着计算机技术的飞速发展,基于聚类分析的医学图像分割算法逐渐受到了广泛关注。聚类分析是一种无监督......