有监督学习:从有标记的数据中学习推断函数
目标函数:\(Y=f(x)\)或\(P(Y|X)\)
注意:条件概率用小写p表示,先验概率用大写P表示。
贝叶斯判别原则
给定观测值X,判断其属于\(\omega 1\)类还是\(\omega 2\)类,最小化误差概率条件下,\(P(\omega1|X) > P(\omega2|X)\)则判断成\(X\in\omega 1\),否则\(X\in\omega 2\)(哪一类概率大就判断成哪一类)
贝叶斯判别:\(P(\omega_1|X)\quad?\quad P(\omega_2|X)\)
由贝叶斯公式:
得到\(P(\omega i|x) = \Large \frac{p(x|\omega i)P(\omega i)}{p(x)}\)
由全概率公式:
得到\(P(\omega_i|x) = \Large \frac{p(x|\omega_i)P(\omega_i)}{\sum p(x|\omega_i)P(\omega_i)}\)
由于分母都是\(p(x)\),只需比较分子的大小
即\(p(x|\omega_1)P(\omega_1)\ >\ p(x|\omega_2)P(\omega_2)\)则判断为\(\large\omega_1\)
若\(p(x|\omega_1)P(\omega_1)\ <\ p(x|\omega_2)P(\omega_2)\)则判断为\(\large\omega_2\)
似然的概念参考知乎回答如何理解似然函数? - HiTao的回答 - 知乎
https://www.zhihu.com/question/54082000/answer/470252492
似然函数:\(P(x|\theta)\),将X看为常量,以\(\theta\)为变量的函数。=>对于已知的情况x,找到一个\(\theta\)使x出现的概率最大
似然比:\(l_{12}(x)=\large\frac{p(x|\omega_1)}{p(x|\omega_2)}\)
判决阈值:\(\large\frac{P(\omega_2)}{P(\omega_1)}\)
似然比>判决阈值,则属于\(\large\omega_1\),否则属于\(\large\omega_2\)
贝叶斯最小风险判别
如果分类器判别x属于\(\omega_j\)类,但它实际来自\(\omega_i\)类,也就是说分类失败,此时\(L_{ij}\)为失分,对应的条件风险为后验概率进行\(L_{ij}\)的加权运算\(L_{ij}P(\omega_i|x)\)
\(r_j = \sum_{i=1}^{M}L_{ij}P(\omega_i|x)\)
\(L_{ij}\) 称为将本应属于\(ω_i\)类的模式判别成属于\(ω_j\) 类的是非代价。
\(L_{ij}\)的取值:
若i==j,则判别正确,得分,取负值或者零,表示不失分
否则判别错误,失分,取正值
最小平均条件风险分类器
分类器对每一个模式x有M种可能的类别可供选择。
若对每一个x计算出全部类别的平均风险值\(r_1(x), r_2(x),…, r_M(x)\),并且将x指定为是具有最小风险值的那一类,则这种分类器称为最小平均条件风险分类器。
\(\large r_j(x)=\frac{1}{p(x)} \sum_{i=1}^{M}L_{ij}p(x|\omega_i)P(\omega_i)\)
一般多类(M类)的情况
\(r_j(x) = \large\sum_{i=1}^M L_{ij}p(x|\omega_i)P(\omega_i)\)
特例:当i==j时,\(L_{ij} = 0\),不相等时,\(L_{ij}=1\)
则\(r_j(x)=\sum_{i=1}^{M}p(x|\omega_i)P(\omega_i) - p(x|\omega_j)P(\omega_j) = p(x)-p(x|\omega_j)P(\omega_j)\)
补一个\(L_{jj}\)项凑成全概率公式,再减掉,就得到了贝叶斯判别
判别函数为:\(d_j(x)=p(x|\omega_j)P(\omega_j)\),d大,\(r_j\)就小
所以\(\forall i\neq j, d_i(x)>d_j(x)\),则\(x\in \omega_i\)
朴素贝叶斯
在特征\(x=(x_1, x_2, x_3, ..., x_d)\) 是多维向量时,朴素贝叶斯算法是假设各个特征之间相互独立。
不独立时需要计算\(2^d\)次,独立只需要算d次
\(p(x_1, x_2, x_3, ..., x_d|\omega)=\prod_{i=1}^{d}p(x_i|\omega)\)
概率分布参数估计
预先假设每一个类别的概率密度函数的形式已知,而具体的参数未知。
矩估计:用样本的矩去估计总体的矩,即用样本一阶原点矩去估计总体的一阶原点矩,用样本的二阶原点矩去估计总体的二阶原点矩。
最大似然估计(MLE):把参数看作是非随机变量,寻找使似然最大的参数的值。
最大后验估计(MAP):把这些参数看成是随机变量时,最大化参数的后验分布。
贝叶斯参数估计:将参数看成是随机变量,估计参数的后验分布。
将参数看成随机变量意味着参数服从某种分布
最大似然估计(MLE)
独立同分布假设:样本集D中包含N个样本,样本是独立同分布的随机变量\(p(D|\theta)=\prod_{i=1}^Np(x_i|\theta)\) D确定且\(\theta\)是参数=>似然函数
对似然函数求对数,把乘法转为加法:\(l(\theta)=logp(D|\theta)=\sum_{i=1}^{n}logp(x_i|\theta)\)
最大似然估计:寻找使\(l(\theta)\)最大的参数\(\theta\)=>求导
\(\hat{\theta}=arg \mathop{max}\limits_{\theta}l(\theta)\)
最大后验估计(MAP)
将参数看作随机变量,对其有一个先验的分布认知。通过观测到的样本数据,计算样本的后验分布,对先验概率进行调节。
最大化参数的后验分布\(\Large\frac{p(D|\theta)p(\theta)}{p(D)}\)
贝叶斯参数估计
贝叶斯也认为参数是一个随机变量,根据样本集D和参数\(\theta\)的先验分布\(p(\theta)\),估计参数的后验分布\(p(\theta|D)\),能过提高小样本集条件下估计的准确性,但计算比较复杂
-
确定参数\(\theta\)的先验分布\({p(\theta)}\)
-
由样本集\(D=(x_1, x_2, x_3, ..., x_N)\),求出样本联合分布\(p(D|\theta)=\large\prod_{n=1}^N p(x_n|\theta)\)
-
利用贝叶斯公式求\(\theta\)的后验分布\(p(\theta|D)=\Large\frac{p(D|\theta)p(\theta)}{\int_\theta p(D|\theta)p(\theta)d\theta}\)
-
求出贝叶斯估计值\(\hat{\theta}=\large \int_\theta \theta p(\theta|D)d\theta\)
贝叶斯估计
\(D=(x_1, x_2, ......)\)表示用于估计参数的样本集,其中\(x_i\)逐次给出。\(\theta\)表示给出前N个样本后估计的参数。\(p(\theta_N)=p(\theta|x_1, x_2, x_3, ..., x_N)\)
\(p(\theta|x_1, x_2) = \Large\frac{p(x_2|\theta, x_1)p(\theta|x_1)}{p(x_2|x_1)}=\frac{p(x_1, x_2|\theta)p(\theta)}{p(x_1, x_2)}\)
对于\(p(\theta|x_1, x_2)\)而言,\(p(\theta|x_1)\)相当于它的先验
正态分布模式的贝叶斯分类器
待续……
标签:样本,模式识别,生成式,贝叶斯,分类器,ij,参数,theta,omega From: https://www.cnblogs.com/moomight/p/17724444.html