首页 > 其他分享 >朴素贝叶斯——实现垃圾邮件分类

朴素贝叶斯——实现垃圾邮件分类

时间:2022-12-12 23:22:43浏览次数:55  
标签:概率 贝叶斯 垃圾邮件 文档 朴素 列表 append

一、贝叶斯定理
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:
P(A∩B) = P(A)P(B|A)=P(B)P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。
二、朴素贝叶斯分类器
先验概率P(X):先验概率是指根据以往经验和分析得到的概率。
后验概率P(Y|X):事情已发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,后验分布P(Y|X)表示事件X已经发生的前提下,事件Y发生的概率,称事件X发生下事件Y的条件概率。
后验概率P(X|Y):在已知Y发生后X的条件概率,也由于知道Y的取值而被称为X的后验概率。
朴素:朴素贝叶斯算法是假设各个特征之间相互独立,也是朴素这词的意思,那么贝叶斯公式中的P(X|Y)可写成:

朴素贝叶斯公式:

朴素贝叶斯分类器:朴素贝叶斯分类器(Naïve Bayes Classifier)采用了“属性条件独立性假设” ,即每个属性独立地对分类结果发生影响。为方便公式标记,不妨记P(C=c|X=x)为P(c|x),基于属性条件独立性假设,贝叶斯公式可重写为:

三、朴素贝叶斯分类的优缺点:
优点:
1、对待预测样本进行预测,过程简单速度快。
2、对于多分类问题也同样很有效,复杂度也不会有大程度上升。
3、在分布独立这个假设成立的情况下效果好。
4、对于类别类的输入特征变量效果好。
缺点:
1、对于测试集中的一个类别变量特征,如果在训练集里没见过,直接算的话概率就是0了,预测功能就失效了。
2、朴素贝叶斯有分布独立的假设前提。
四、拉普拉斯修正
由于若某个属性值在训练集中没有与某个类同时出现过,则训练后的模型会出现 over-fitting 现象,为了避免其他属性携带的信息,被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“拉普拉斯修正”:令 N 表示训练集 D 中可能的类别数,

标签:概率,贝叶斯,垃圾邮件,文档,朴素,列表,append
From: https://www.cnblogs.com/wzjian/p/16967756.html

相关文章