首页 > 其他分享 >[模式识别复习笔记] 第7章 聚类

[模式识别复习笔记] 第7章 聚类

时间:2024-06-21 16:33:50浏览次数:12  
标签:样本 复习 模式识别 聚类 mu 算法 text bm

1. 聚类

给定样本集 \(D = \{ \bm{x}_1, \bm{x}_2, ..., \bm{x}_n \}\),\(\bm{x}_i \in \mathbb{R}^d\)。

通过聚类将 \(n\) 个样本划分为 \(k\) 个 簇划分 \(\mathcal C = \{ C_1, C_2, ..., C_k \}\),使得:

\[C_i \cap C_j = \emptyset, \ \forall i \not = j \ 且 \ \bigcup_{i=1}^{k}C_i = D \]

找到一个划分 \(\mathcal C = \{ C_1, C_2, ..., C_k \}\) ,最小化误差平方和:

\[\min J(C_1, \ldots, C_k) = \sum_{i = 1}^{k} \sum_{\bm{x} \in C_i} ||\bm{x} - \bm{\mu}_i||^2 \]

其中 \(\bm{\mu}_i\) 为第 \(i\) 个簇 \(C_i\) 的均值向量:

\[\bm{\mu}_i = \frac{1}{|C_i|}\sum_{\bm{x} \in C_i} \bm{x} \]

  • 样本向量 \(\bm{x}_j\) 与均值向量 \(\bm{\mu}_i\) 之间的距离,\(d_{ji} = \text{dist}_f(\bm{x}_j, \bm{\mu}_i)\),其中函数 \(f\) 可以是 欧几里得距离 或者 曼哈顿距离


2. \(k\text{-means}\)

2.1 算法步骤

  1. 随机选取 \(k\) 个簇中心 \(\bm{\mu}_1, \ldots, \bm{\mu}_k\)。

  2. 计算各个样本 \(\bm{x}_j\) 到各个簇中心 \(\bm{\mu}_i\) 的距离。并距离 \(\bm{x}_j\) 找到 最近的簇中心

    \[\lambda_j = \text{argmin}_{i = 1, 2, \ldots, k} d_{ji} \]

    将 \(\bm{x}_j\) 划分到该簇中:\(C_{\lambda_j} = C_{\lambda_j}\cup \bm{x}_j\)

  3. 重新计算每个簇的簇中心 \(\bm{\mu}_i, \ i = 1, \ldots, k\):

    \[\bm{\mu}_i^{'} = \frac{1}{|C_i|}\sum_{\bm{x}\in C_i}\bm{x}_i \]

    用重新计算的簇中心(均值向量)对簇中心进行更新。

  4. 如果簇中心没有发生变化,停止算法否则,并回到步骤 2

时间复杂度为 \(O(tkn)\),其中 \(n\) 是样本数,\(k\) 是簇的数目,\(t\) 是算法迭代次数。一般 \(t\) 和 \(k\) 较小,因此时间复杂度近似为 \(O(n)\)。



2.2 算法的缺点

  • 对于非凸/非球形的簇,聚类效果不佳。

  • 对于各簇中样本规模差异太大、不同密度的簇,聚类效果不佳。

  • 最终的聚类结果 受初始簇中心的影响,因此 聚类结果不唯一

  • 噪声/离群点很敏感。(因此通常在利用K-Means算法执行聚类分析前,要去除离群点。)



3. \(k\text{-medoids}\)

3.1 算法步骤

  1. 随机选取 \(k\) 个样本 作为初始的簇中心 \(\bm{\mu}_1, \ldots, \bm{\mu}_k\)。

  2. 计算剩余的各个样本 \(\bm{x}_j\) 到各个簇中心 \(\bm{\mu}_i\) 的距离。并距离 \(\bm{x}_j\) 找到 最近的簇中心

    \[\lambda_j = \text{argmin}_{i = 1, 2, \ldots, k} d_{ji} \]

    将 \(\bm{x}_j\) 划分到该簇中:\(C_{\lambda_j} = C_{\lambda_j}\cup \bm{x}_j\)

  3. 重新计算每个簇的簇中心 \(\bm{\mu}_i, \ i = 1, \ldots, k\):

    找到一个样本点 \(j\),满足该簇中所有其他点到该样本点 \(j\) 距离之和最小。(称为 \(\text{medoid}\))

    \[j = \text{argmin}_{\bm{x} \in C_i}\sum_{\bm{x}^{'} \in C_i} ||\bm{x} - \bm{x}^{'}||^2 \]

    用重新计算的簇中心(一个样本点)对簇中心进行更新。

  4. 如果簇中心没有发生变化,停止算法否则,并回到步骤 2



3.2 算法特点

  • 对噪声/离群点更鲁棒。但簇的medoid可以削弱离群点的影响。

  • 算法的时间复杂度更高,为 \(O(tkn^2)\)。每次重新计算所有簇中心需要枚举所有的样本点,并计算到簇中其他样本点的距离之和,因此是 \(n^2\) 的。



补充

基于 密度的聚类算法(如 \(\text{DBSCAN}\))能 发现任意形状的簇,且 对噪声/离群点不敏感

基于划分(如 \(k\text{-means}, k\text{-medoids}\))和基于层次的聚类算法 只能发现 球状簇

标签:样本,复习,模式识别,聚类,mu,算法,text,bm
From: https://www.cnblogs.com/MarisaMagic/p/18260789

相关文章

  • 神经网络与模式识别课程报告-卷积神经网络(CNN)算法的应用
     =======================================================================================完整的神经网络与模式识别课程报告文档下载:https://wenku.baidu.com/view/393fbc7853e2524de518964bcf84b9d528ea2c92?aggId=393fbc7853e2524de518964bcf84b9d528ea2c92&fr=catalogM......
  • [模式识别复习笔记] 第6章 PCA
    1.主成分分析PCAPCA:寻找最能够表示原始数据的投影方法,对数据进行降维,除去冗余的信息。——不考虑类别1.1PCA主要步骤计算散布矩阵\(S\)(或者样本的协方差矩阵)\[S=\sum_{i=1}^{n}(\bm{x}_i-\bm{\mu})(\bm{x}_i-\bm{\mu})^{\text{T}}\]其中\(\bm{\mu}=\frac......
  • [模式识别复习笔记] 第5章 贝叶斯分类器
    1.贝叶斯分类器1.1贝叶斯公式假设有一个试验的样本空间为\(S\),记\(B_1,B_2,\ldots,B_c\)为\(S\)的一个划分,\(A\)为试验的条件,且\(P(A)\not=0\),则:\[P(B_i|A)=\frac{P(B_i)P(A|B_i)}{P(A)}=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{c}P(B_j)P(A|B_j)}\]\(P(B_i)......
  • 代码随想录刷题复习day01
    day01数组-二分查找classSolution{publicintsearch(int[]nums,inttarget){//左闭右闭intleft=0;intright=nums.length-1;intmid=0;while(right>=left){mid=left+(right-le......
  • 人工智能系列:一文让你读懂什么是模式识别
    目录1.什么是模式识别1.1人工智能和模式识别1.2信息感知1.3计算机模式识别1.4模式识别应用1.5模式识别发展简史1.6相关问题和领域2.模式识别形式化2.1模式和模式识别2.2模式表示2.3特征空间2.4特征空间中的分类2.5一个例子3.模式识别系统流程4.模式分类器设计4......
  • 计算机体系结构期末复习(一二章)
    计算机体系结构期末复习(一二章)由于内容比较多,分为两次发出注意:可能有部分考点遗漏,可能有部分例题没有匹配正确的知识点或被遗漏,欢迎各位补充第一章1.计算机系统的层次性知识点:​​例题:(单选题)在计算机系统层次结构中,从低层到高层,各层相对顺序正确的是()A.传统机......
  • Python期末复习题库(下)
    如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份**Python全套学习资料**,都是我自己学习时整理的,希望可以帮到你,一起加油!1.(单选题)下列关于文件打开模式的说法,错误的是(C)。A.r代表以只读方式打开文件B.w代表以只写方式打开文件C.a代表以二进制形式打开......
  • 单细胞测序最好的教程(五):聚类
    我们前面四次教程,已经完成单细胞数据的预处理了,包括质控,归一化,高可变基因筛选,降维。现在,我们就要开始单细胞测序的正式分析了,细胞类型注释等,在开始介绍细胞类型注释前,我们先来了解一下聚类。对于生物学家而言,聚类一词可能有点晦涩,因为这个词是机器学习领域里的概念。所以本章将详......
  • [模式识别复习笔记] 第1-2章 基本概念
    1.模式识别系统的各个设计环节模式采集:借助物理设备(传感器、摄像头)进行数据的采集和存储。预处理:数据清洗、降噪,增强数据中有用的信息。特征提取:提取数据中对识别有用的特征。分类器学习:根据训练数据特点,选择何时的分类器模型,利用训练集学习得到参数。2.模式......
  • [模式识别复习笔记] 第3章 线性判别函数
    1.线性判别函数1.1定义在\(d\)维特征空间中,有线性判别函数:\[G(x)=w^{\text{T}}x+b\]其中,\(w=[w_1,w_2,\ldots,w_d]^T\)称为权值向量,\(b\)称为偏置,都是需要学习的参数。\(G(x)=0\)为决策边界方程。PS:只能解决二分类问题。1.2几何意义\(w\)为超......