朴素贝叶斯方法基于贝叶斯公式,之所以朴素(Naive)是因为它有一个较强的假设,让自己包含的条件概率数量大大减少,有助于模型的训练与预测,这个假设是:条件独立
注意:朴素贝叶斯估计和贝叶斯估计是不同的概念,下文会提到贝叶斯估计
Naive Bayes法的训练与分类
朴素贝叶斯法的基本思路:
- 对于给定的训练集,基于特征之间条件独立的假设去学习条件概率分布P(X=x|Y=c_k),先验概率分布P(Y=c_k)
- 对于测试集(或新数据)中的输入x,基于训练得到的模型(上述概率分布),利用贝叶斯定理求出使后验概率最大的输出y
具体点就是:
后验概率计算公式:
朴素贝叶斯分类器:
为什么需要假设条件独立
后验概率最大化的含义
朴素贝叶斯分类中,后验概率最大化等价于期望风险最小化
进一步有:
朴素贝叶斯法的参数估计
极大似然估计
极大似然估计属于频率派的想法
先验概率估计
条件概率估计
算法流程
Naive Bayes algorithm
贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概率的计算结果,使分类产生偏差.
可以使用贝叶斯估计解决这一问题
参数及可行性说明
参考:
李航,统计学习方法