聚类分为两种:对样品分类,Q型;对变量(指标)分类,R类。
Q型
样品空间的相似度——距离
常见的距离描述方法:
-
欧几里得距离:
MATLAB自带函数计算
d = pdist(x)%每个行向量代表一个坐标
-
绝对距离:\(d(x_i,y_i)=\sum_{k=1}^p|x_{ik}-x_{jk}|\)
d = pdist(x,'cityblock')%也叫曼哈顿距离
-
闵可夫斯基距离:\(d(x_i,y_i)=[\sum_{k=1}^p|x_{ik}-x_{jk}|^m]^{\frac{1}{m}}\)
d = pdist(x,'minkowski',r)%r表示指数
-
切比雪夫距离:\(d(x_i,x_j)=\underset{a\leq k\leq p}{max}|x_{ik}-x_{jk}|\)
d = max(abs(xi-xj))
-
马氏距离\(d(x_i,y_i)=\sqrt{(x_i-x_j)^T\sum^{-1}(x_i-x_j)}\) 其中\(\sum^{-1}\)指x和y的协方差矩阵的逆矩阵
d = pdist(x,mahal)
S2=tril(suqareform(d)) %将数据转化为三角阵形式,更直观。
样品相似性度数
- 最短距离法: 以两类中距离最近的两点确定
- 最长距离法:以两类中距离最远的两点确定
- 重心法:以两类的重心确定
- 类平均法:以两类的样本点距离的平均确定
- 离差平方和法 \(D=\underset{x_k\in G_1 \cup G_2} \sum (x_k-\bar x)^T(x_k-\bar x)-\\\underset{x_k\in G_1} \sum (x_k-\bar x_1)^T(x_k-\bar x_1)-\underset{x_k\in G_2} \sum (x_k-\bar x_2)^T(x_k-\bar x_2)\)
R型
变量相似性度数
-
夹角余弦计算
空间中两个列向量计算夹角余弦值 \(r_{jk}=cos\alpha_{ij}=\displaystyle {\large\frac{\sum_{t=1}^{n}x_{ti}x_{tj}}{ \sqrt{\sum_{t=1}^nx_{ti}^2} \sqrt{\sum_{t=1}^nx_{tj}^2}}}\)
2.相关系数
\(r_{jk}= \displaystyle \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}\)
变量聚类法
- 最长距离法 : \(d_{jk}^2=1-r_{jk}^2\) , 取最大\(d_{jk}\)
- 最短距离法 : 同理,取最小\(d_{jk}\).
Q,R型的区别
Q型是样品聚类,得到的参数是各个样品(向量)间的
R是变量聚类,得到的参数是各个元素(指标)间的
详见《数学建模算法与应用》第二版
P226
例题10.1.3
matlab函数
Y = linkage(X,'method')%以不同的方法生成聚类树,默认最短距离
T = cluster(Y,'maxclust',r)%创建聚类, 将对象分为r类
标签:bar,sum,jk,sqrt,距离,聚类,聚类分析
From: https://www.cnblogs.com/cxy1114blog/p/18459138