1. 聚类

给定样本集 \(D = \{ \bm{x}_1, \bm{x}_2, ..., \bm{x}_n \}\)，\(\bm{x}_i \in \mathbb{R}^d\)。

通过聚类将 \(n\) 个样本划分为 \(k\) 个 簇划分 \(\mathcal C = \{ C_1, C_2, ..., C_k \}\)，使得：

\[C_i \cap C_j = \emptyset, \ \forall i \not = j \ 且 \ \bigcup_{i=1}^{k}C_i = D \]

找到一个划分 \(\mathcal C = \{ C_1, C_2, ..., C_k \}\) ，最小化误差平方和:

\[\min J(C_1, \ldots, C_k) = \sum_{i = 1}^{k} \sum_{\bm{x} \in C_i} ||\bm{x} - \bm{\mu}_i||^2 \]

其中 \(\bm{\mu}_i\) 为第 \(i\) 个簇 \(C_i\) 的均值向量：

\[\bm{\mu}_i = \frac{1}{|C_i|}\sum_{\bm{x} \in C_i} \bm{x} \]

样本向量 \(\bm{x}_j\) 与均值向量 \(\bm{\mu}_i\) 之间的距离，\(d_{ji} = \text{dist}_f(\bm{x}_j, \bm{\mu}_i)\)，其中函数 \(f\) 可以是 欧几里得距离 或者 曼哈顿距离。

2. \(k\text{-means}\)

2.1 算法步骤

随机选取 \(k\) 个簇中心 \(\bm{\mu}_1, \ldots, \bm{\mu}_k\)。
计算各个样本 \(\bm{x}_j\) 到各个簇中心 \(\bm{\mu}_i\) 的距离。并距离 \(\bm{x}_j\) 找到 最近的簇中心：

\[\lambda_j = \text{argmin}_{i = 1, 2, \ldots, k} d_{ji} \]
将 \(\bm{x}_j\) 划分到该簇中：\(C_{\lambda_j} = C_{\lambda_j}\cup \bm{x}_j\)
重新计算每个簇的簇中心 \(\bm{\mu}_i, \ i = 1, \ldots, k\)：

\[\bm{\mu}_i^{'} = \frac{1}{|C_i|}\sum_{\bm{x}\in C_i}\bm{x}_i \]
用重新计算的簇中心（均值向量）对簇中心进行更新。
如果簇中心没有发生变化，停止算法；否则，并回到步骤 2。

时间复杂度为 \(O(tkn)\)，其中 \(n\) 是样本数，\(k\) 是簇的数目，\(t\) 是算法迭代次数。一般 \(t\) 和 \(k\) 较小，因此时间复杂度近似为 \(O(n)\)。

2.2 算法的缺点

对于非凸/非球形的簇，聚类效果不佳。
对于各簇中样本规模差异太大、不同密度的簇，聚类效果不佳。
最终的聚类结果 受初始簇中心的影响，因此 聚类结果不唯一。
对 噪声/离群点很敏感。（因此通常在利用K-Means算法执行聚类分析前，要去除离群点。）

3. \(k\text{-medoids}\)

3.1 算法步骤

随机选取 \(k\) 个样本 作为初始的簇中心 \(\bm{\mu}_1, \ldots, \bm{\mu}_k\)。
计算剩余的各个样本 \(\bm{x}_j\) 到各个簇中心 \(\bm{\mu}_i\) 的距离。并距离 \(\bm{x}_j\) 找到 最近的簇中心：

\[\lambda_j = \text{argmin}_{i = 1, 2, \ldots, k} d_{ji} \]
将 \(\bm{x}_j\) 划分到该簇中：\(C_{\lambda_j} = C_{\lambda_j}\cup \bm{x}_j\)
重新计算每个簇的簇中心 \(\bm{\mu}_i, \ i = 1, \ldots, k\)：

找到一个样本点 \(j\)，满足该簇中所有其他点到该样本点 \(j\) 距离之和最小。（称为 \(\text{medoid}\)）

\[j = \text{argmin}_{\bm{x} \in C_i}\sum_{\bm{x}^{'} \in C_i} ||\bm{x} - \bm{x}^{'}||^2 \]
用重新计算的簇中心（一个样本点）对簇中心进行更新。
如果簇中心没有发生变化，停止算法；否则，并回到步骤 2。

3.2 算法特点

对噪声/离群点更鲁棒。但簇的medoid可以削弱离群点的影响。
算法的时间复杂度更高，为 \(O(tkn^2)\)。每次重新计算所有簇中心需要枚举所有的样本点，并计算到簇中其他样本点的距离之和，因此是 \(n^2\) 的。

补充

基于 密度的聚类算法（如 \(\text{DBSCAN}\)）能 发现任意形状的簇，且 对噪声/离群点不敏感；

而 基于划分（如 \(k\text{-means}, k\text{-medoids}\)）和基于层次的聚类算法 只能发现 球状簇。

标签：样本,复习,模式识别,聚类,mu,算法,text,bm
From： https://www.cnblogs.com/MarisaMagic/p/18260789

神经网络与模式识别课程报告-卷积神经网络(CNN)算法的应用
=======================================================================================完整的神经网络与模式识别课程报告文档下载：https://wenku.baidu.com/view/393fbc7853e2524de518964bcf84b9d528ea2c92?aggId=393fbc7853e2524de518964bcf84b9d528ea2c92&fr=catalogM......
[模式识别复习笔记] 第6章 PCA
1.主成分分析PCAPCA：寻找最能够表示原始数据的投影方法，对数据进行降维，除去冗余的信息。——不考虑类别1.1PCA主要步骤计算散布矩阵\(S\)（或者样本的协方差矩阵）\[S=\sum_{i=1}^{n}(\bm{x}_i-\bm{\mu})(\bm{x}_i-\bm{\mu})^{\text{T}}\]其中\(\bm{\mu}=\frac......
[模式识别复习笔记] 第5章贝叶斯分类器
1.贝叶斯分类器1.1贝叶斯公式假设有一个试验的样本空间为\(S\)，记\(B_1,B_2,\ldots,B_c\)为\(S\)的一个划分，\(A\)为试验的条件，且\(P(A)\not=0\)，则：\[P(B_i|A)=\frac{P(B_i)P(A|B_i)}{P(A)}=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{c}P(B_j)P(A|B_j)}\]\(P(B_i)......
代码随想录刷题复习day01
day01数组-二分查找classSolution{publicintsearch(int[]nums,inttarget){//左闭右闭intleft=0;intright=nums.length-1;intmid=0;while(right>=left){mid=left+(right-le......
人工智能系列：一文让你读懂什么是模式识别
目录1.什么是模式识别1.1人工智能和模式识别1.2信息感知1.3计算机模式识别1.4模式识别应用1.5模式识别发展简史1.6相关问题和领域2.模式识别形式化2.1模式和模式识别2.2模式表示2.3特征空间2.4特征空间中的分类2.5一个例子3.模式识别系统流程4.模式分类器设计4......
计算机体系结构期末复习（一二章）
计算机体系结构期末复习（一二章）由于内容比较多，分为两次发出注意：可能有部分考点遗漏，可能有部分例题没有匹配正确的知识点或被遗漏，欢迎各位补充第一章1.计算机系统的层次性知识点：例题：(单选题)在计算机系统层次结构中，从低层到高层，各层相对顺序正确的是（）A.传统机......
Python期末复习题库（下）
如果你对Python感兴趣，想要学习pyhton，这里给大家分享一份**Python全套学习资料**，都是我自己学习时整理的，希望可以帮到你，一起加油！1.(单选题)下列关于文件打开模式的说法,错误的是(C)。A.r代表以只读方式打开文件B.w代表以只写方式打开文件C.a代表以二进制形式打开......
单细胞测序最好的教程（五）：聚类
我们前面四次教程，已经完成单细胞数据的预处理了，包括质控，归一化，高可变基因筛选，降维。现在，我们就要开始单细胞测序的正式分析了，细胞类型注释等，在开始介绍细胞类型注释前，我们先来了解一下聚类。对于生物学家而言，聚类一词可能有点晦涩，因为这个词是机器学习领域里的概念。所以本章将详......
[模式识别复习笔记] 第1-2章基本概念
1.模式识别系统的各个设计环节模式采集：借助物理设备（传感器、摄像头）进行数据的采集和存储。预处理：数据清洗、降噪，增强数据中有用的信息。特征提取：提取数据中对识别有用的特征。分类器学习：根据训练数据特点，选择何时的分类器模型，利用训练集学习得到参数。2.模式......
[模式识别复习笔记] 第3章线性判别函数
1.线性判别函数1.1定义在\(d\)维特征空间中，有线性判别函数：\[G(x)=w^{\text{T}}x+b\]其中，\(w=[w_1,w_2,\ldots,w_d]^T\)称为权值向量，\(b\)称为偏置，都是需要学习的参数。\(G(x)=0\)为决策边界方程。PS：只能解决二分类问题。1.2几何意义\(w\)为超......

[模式识别复习笔记] 第7章聚类

1. 聚类

2. \(k\text{-means}\)

2.1 算法步骤

2.2 算法的缺点

3. \(k\text{-medoids}\)

3.1 算法步骤

3.2 算法特点

补充

相关文章

赞助商

阅读排行

[模式识别复习笔记] 第7章 聚类

1. 聚类

2. \(k\text{-means}\)

2.1 算法步骤

2.2 算法的缺点

3. \(k\text{-medoids}\)

3.1 算法步骤

3.2 算法特点

补充

相关文章

赞助商

阅读排行

[模式识别复习笔记] 第7章聚类