首页 > 其他分享 >贝叶斯分类

贝叶斯分类

时间:2022-10-27 15:03:28浏览次数:43  
标签:right vert 分类 贝叶斯 mu pmb Sigma left

贝叶斯分类器

\[\begin{align*} y&=\underset{c_i}{\arg\max}\left\lbrace{P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\over\sum_kP[\pmb X=\pmb x\mid Y=c_k]P[Y=c_k]}\right\rbrace\\ &=\underset{c_i}{\arg\max}\left\lbrace P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\right\rbrace\\ &=\underset{c_i}{\arg\max}\ln\left\lbrace P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\right\rbrace \end{align*} \]

多元高斯分布

如果数据服从多元高斯分布

\[\begin{align*} \pmb x&=\left[x^{(1)},x^{(2)},\dots,x^{(n)}\right]^T\\ \pmb\mu&=E[\pmb x]=\left[\mu^{(1)},\mu^{(2)},\dots,\mu^{(n)}\right]^T\\ \pmb\Sigma&=E\left[(\pmb x-\pmb\mu)(\pmb x-\pmb\mu)^T\right]\\ &=\begin{bmatrix} \sigma(x^{(1)},x^{(1)})&\sigma(x^{(1)},x^{(2)})&\cdots&\sigma(x^{(1)},x^{(n)})\\ \sigma(x^{(2)},x^{(1)})&\sigma(x^{(2)},x^{(2)})&\cdots&\sigma(x^{(2)},x^{(n)})\\ \vdots&\vdots&\ddots&\vdots\\ \sigma(x^{(n)},x^{(1)})&\sigma(x^{(n)},x^{(2)})&\cdots&\sigma(x^{(n)},x^{(n)})\\ \end{bmatrix}\\ P(\pmb x;\pmb\mu,\pmb\Sigma)&=\frac1{(2\pi)^{n/2}\cdot\vert\pmb\Sigma\vert^{1/2}}\exp\left[-\frac12(\pmb x-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x-\pmb\mu)\right] \end{align*} \]

\(\pmb\mu,\sigma,\pmb\Sigma,\vert\pmb\Sigma\vert\) 分别为平均值、协方差、协方差矩阵和协方差矩阵的行列式。

判别式

那么判别式 \(g(i)=\ln\left\lbrace P[\pmb X=\pmb x\mid Y=c_i]P[Y=c_i]\right\rbrace\) 变为

\[\begin{align*} g(i)&=-\frac12(\pmb x-\pmb\mu_i)^T\pmb\Sigma^{-1}_i(\pmb x-\pmb\mu_i)-\frac n2\ln2\pi-\frac12\ln\vert\pmb\Sigma_i\vert+\ln P[Y=c_i]\\ \end{align*} \]

考虑 \(\Sigma\) 的几种不同情况,舍弃对结果没有影响的项来简化判别式

  • \(\pmb\Sigma_i=\sigma^2\pmb I\)

    意味着所有类的平均数 \(\mu_i\) 不同,但所有特征两两独立且具有相同的方差 \(\sigma\)。

    反映在图形上就是此多元高斯分布只是在各个维度上进行了相同的尺度缩放,没有进行旋转等操作,因此所有维度都是独立的。

    简化后 \(g(i)=\frac1{2\sigma^2}\left(2\pmb\mu_i^T\pmb x-\pmb\mu_i^T\pmb\mu_i\right)+\ln P[Y=c_i]\)。

    考虑两个类的判别式相同的情况 \(g(i)=g(j),i\ne j\)

    \[\begin{align*} \left(\pmb\mu_i^T-\pmb\mu_j^T\right)\pmb x&=\frac12\left(\pmb\mu_i^T\pmb\mu_i-\pmb\mu_j^T\pmb\mu_j\right)-\sigma^2\ln{P[Y=c_i]\over P[Y=c_j]}\\ \left(\pmb\mu_i^T-\pmb\mu_j^T\right)\pmb x&=\frac12\left(\pmb\mu_i^T-\pmb\mu_j^T\right)\left(\pmb\mu_i+\pmb\mu_j\right)\\&\quad-\sigma^2{\left(\pmb\mu_i^T-\pmb\mu_j^T\right)\left(\pmb\mu_i-\pmb\mu_j\right)\over\left\vert\left\vert\pmb\mu_i-\pmb\mu_j\right\vert\right\vert^2}\ln{P[Y=c_i]\over P[Y=c_j]}\\ \end{align*} \]

    \[\begin{align*} \text{let }\pmb w&=\pmb\mu_i-\pmb\mu_j,\\ \pmb x_0&=\frac12\left(\pmb\mu_i+\pmb\mu_j\right)-{\ln{P[Y=c_i]\over P[Y=c_j]}\over\left\vert\left\vert\pmb\mu_i-\pmb\mu_j\right\vert\right\vert^2}\sigma^2\left(\pmb\mu_i-\pmb\mu_j\right),\\ &\!\!\!\!\!\!\!\!\!\!\!\!\text{then }\pmb w^T(\pmb x-\pmb x_0)=0,\text{ namely }\pmb w\bot(\pmb x-\pmb x_0) \end{align*} \]

    \(\pmb w\) 相当于划分两个类的超平面,通过正负判断向量在超平面的两侧;\(\pmb x_0\) 为偏置,相当于将两个类的移动到原点周围,并用两个类出现的概率 \(P[Y=c_k]\) 给予数量较多的类更多的可能性。

  • \(\pmb\Sigma_i=\pmb\Sigma\)

    所有类具有同样的协方差矩阵。

    现在所有类都经过某些相同的旋转缩放操作,因此它们的分布函数形状是相同的。

    简化后 \(g(i)=\pmb\mu^T_i\pmb\Sigma^{-1}\pmb x-\frac12\pmb\mu_i^T\pmb\Sigma^{-1}\pmb\mu_i+\ln P[Y=c_i]\)

    用以上同样的方法求出 \(\pmb w,\pmb x_0\)

    \[\begin{align*} \pmb w&=\pmb\Sigma^{-1}(\pmb\mu_i-\pmb\mu_j),\\ \pmb x_0&=\frac12\left(\pmb\mu_i+\pmb\mu_j\right)-{\ln{P[Y=c_i]\over P[Y=c_j]}\over\left\vert\left\vert\pmb\mu_i-\pmb\mu_j\right\vert\right\vert^2}\pmb\Sigma\left(\pmb\mu_i-\pmb\mu_j\right) \end{align*} \]

    超平面经过 \(\pmb\Sigma^{-1}\) 变换。

  • \(\pmb\Sigma_i\ne\pmb\Sigma_j\)

    所有类的位置不同,形状也不同。

    前面两种情况所得到的 \(\pmb w\) 都是向量,因此是超平面 ;但这第三种情况不一定有超平面,而会是超球体、超椭圆、超双曲线等超二次曲线,之所以是二次曲线是因为多元高斯分布是二次的。

    \(g(i)=-\frac12(\pmb x-\pmb\mu_i)^T\pmb\Sigma^{-1}_i(\pmb x-\pmb\mu_i)-\frac12\ln\vert\pmb\Sigma_i\vert+\ln P[Y=c_i]\)

最大似然估计

\[\begin{align*} \mathcal L(\pmb\mu,\pmb\Sigma)&=\ln\prod_iP(\pmb x_i;\pmb\mu,\pmb\Sigma)\\ &=\sum_{i=1}^N\ln P(\pmb x_i;\pmb\mu,\pmb\Sigma)\\ &=\sum_{i=1}^N\ln\frac1{(2\pi)^{n/2}\cdot\vert\pmb\Sigma\vert^{1/2}}\exp\left[-\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\right]\\ &=-\sum_{i=1}^N\frac n2\ln(2\pi)-\frac12\ln\vert\pmb\Sigma\vert-\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\\ &\overset{\cancel{\ln(2\pi)}}{\longrightarrow}\sum_{i=1}^N-\frac12\ln\vert\pmb\Sigma\vert-\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\\ \hat{\pmb\mu},\hat{\pmb\Sigma}&=\underset{\pmb\mu,\pmb\Sigma}{\arg\max}\mathcal L(\pmb\mu,\pmb\Sigma)\\ &=\underset{\pmb\mu,\pmb\Sigma}{\arg\min}\sum_{i=1}^N\frac12\ln\vert\pmb\Sigma\vert+\frac12(\pmb x_i-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x_i-\pmb\mu)\\ \nabla_{\pmb\mu}\mathcal L&=\pmb\Sigma^{-1}\sum_{i=1}^N(\pmb\mu-\pmb x_i)\\ \nabla_{\pmb\Sigma}\mathcal L&=\frac12\pmb\Sigma^{-1}\left\lbrace-\left[\sum_{i=1}^N(\pmb x_i-\pmb\mu)(\pmb x_i-\pmb\mu)^T\right]\pmb\Sigma^{-1}+N\pmb I\right\rbrace\\ \hat{\pmb\mu}&=\frac1N\sum_{i=1}^N\pmb x_i\\ \hat{\pmb\Sigma}&=\frac1N\sum_{i=1}^N(\pmb x_i-\hat{\pmb\mu})(\pmb x_i-\hat{\pmb\mu})^T \end{align*} \]

应用

  1. 通过大量数据,学习不同类的多元高斯分布的似然函数,得到每个类的多元高斯分布;
  2. 在测试数据上分类。

朴素贝叶斯分类器

如果每个变量都需要得出先验概率,那么 \(P(\pmb x\mid y)=P(x^{(1)},x^{(2)},\dots,x^{(n)}\mid y)\) 需要 \(\prod_{i\in[1..n]}C(x^{(i)})\),其中 \(C(x^{(i)})\) 为这一维的可能值,这个数据量可能会相当的大。除非这些变量满足多元高斯分布等特殊分布可以简化结果,否则无法使用。

假设所有特征都是独立的,也可以简化这一结果。

\[\begin{align*} P(\pmb x\mid y)=P(x^{(1)},x^{(2)},\dots,x^{(n)}\mid y)=\prod_{i\in[1..n]}P(x^{(i)}\mid y) \end{align*} \]

贝叶斯分类器和逻辑回归的关联性

先考虑二分类的情况 \(y\in\lbrace0,1\rbrace\)

\[\begin{align*} P(y=0\mid\pmb x)&={P(\pmb x\mid y=0)P(y=0)\over P(\pmb x\mid y=0)P(y=0)+P(\pmb x\mid y=1)P(y=1)}\\ &=\frac1{1+\exp(-a)},\\ a&=\ln{P(\pmb x\mid y=0)P(y=0)\over P(\pmb x\mid y=1)P(y=1)}\\ &=\ln{P(\pmb x\mid y=0)\over P(\pmb x\mid y=1)}+\ln{P(y=0)\over P(y=1)} \end{align*} \]

如 果 \(\pmb x\) 服从多元高斯分布,那么 \(P(\pmb x;\pmb\mu,\pmb\Sigma)=\frac1{(2\pi)^{n/2}\cdot\vert\pmb\Sigma\vert^{1/2}}\exp\left[-\frac12(\pmb x-\pmb\mu)^T\pmb\Sigma^{-1}(\pmb x-\pmb\mu)\right]\)

\[\begin{align*} a&=\ln{P(\pmb x\mid y=0)\over P(\pmb x\mid y=1)}+\ln{P(y=0)\over P(y=1)}\\ &=\ln{P(\pmb x\mid \pmb\mu_0,\pmb\Sigma_0)\over P(\pmb x\mid \pmb\mu_1,\pmb\Sigma_1)}+\ln{P(y=0)\over P(y=1)}\\ &=\pmb w^T(\pmb x-\pmb x_0) \end{align*} \]

其中 \(\pmb w,\pmb x_0\) 对应上面多元高斯分布的三种情况。

对于多分类的情况,将多分类分为多个二分类即可。

标签:right,vert,分类,贝叶斯,mu,pmb,Sigma,left
From: https://www.cnblogs.com/violeshnv/p/16832224.html

相关文章

  • 数据结构 - 树的分类
    BT树:二叉树度为2的树AVL树:平衡二叉树左右两个子树的高度差绝对值不超过1BST树:二叉排序树、二叉查找树、二叉搜索树左子树的所有节点的值均小于它的根节点的值右......
  • 分类列表的归类错误的问题
       如图,游戏列表出现了没有在游戏中的场景,归类不准确步骤1 查看接口,前端传参为0,准确响应值:相关赛事,状态为0,0确实是游戏中的状态步骤二,查看数据库发现数据库......
  • PyTorch-RNN循环神经网络实现分类-回归
    一、RNN1.1简介循环神经网络(RecurrentNeuralNetwork,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网......
  • PyTorch实现神经网络分类
    一、分类1.1数据创建一些假数据来模拟真实的情况.比如两个二次分布的数据,不过他们的均值都不一样.importtorchimportmatplotlib.pyplotasplt#假数据n_data=torch......
  • 求助各位大佬,有没有低代码平台自己开发一个进销存的系统?[要求:计算重量单价金额、打印
    给你推荐xPlus(3UCS)的,就是3UCS与武科大联合打造的软件应用快速定制平台,用来定制进销存、CRM之类的系统比较轻松,一方面,系统可以自动读取数据库结构表自动生成代码,另一方面,......
  • 多光谱遥感分类(二):VGG微调
    继上篇。CNN模型使用VGG16预训练模型。fromkeras.preprocessing.imageimportImageDataGeneratorfromkeras.callbacksimportTensorBoardfromkeras.applicationsimpor......
  • 多光谱遥感分类(四):使用GLCM+RF
    所用数据:​​多光谱遥感分类:使用CNN1(一)​​提取纹理特征。importnumpyasnpimportcv2importosfromskimage.featureimportgreycomatrix,greycopropsimportpandasas......
  • R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化|附代码数据
    全文下载链接: tecdat.cn/?p=26105 在本文中,潜类别轨迹建模(LCTM)是流行病学中一种相对较新的方法,用于描述生命过程中的暴露,它将异质人群简化为同质模式或类别。然而,对......
  • keras分类猫狗数据(中)使用CNN分类模型
    ​​keras分类猫狗数据(上)数据预处理​​​​​​keras分类猫狗数据(中)使用CNN分类模型​​​​​​keras分类猫狗数据(下)迁移学习​​​​​​keras分类猫狗数据(番外篇)深度......
  • keras分类猫狗数据(下)finetune
    ​​keras分类猫狗数据(上)数据预处理​​​​​​keras分类猫狗数据(中)使用CNN分类模型​​​​​​keras分类猫狗数据(下)迁移学习​​​​​​keras分类猫狗数据(番外篇)深度......