首页 > 其他分享 >贝叶斯

贝叶斯

时间:2022-08-22 16:22:57浏览次数:52  
标签:概率 特征 贝叶斯 类别 先验概率 属性

贝叶斯算法

引言

机器学习中,如KNN,逻辑回归,决策树等模型都是判别方法, 也就是直接学习出输出特征y和输入特征x之间的关系(决策函数:y = f(x) 或者条件分布P(Y|X))。

朴素贝叶斯是生成方法,直接找出输出特征y和输入特征x的联合分布P(X, Y),进而通过P(Y|X)=P(X, Y)/P(x)计算出结果判定。

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯(Naive Bayes)分类是贝叶斯分类中最简单,也是常见的一种分类方法

原理

贝叶斯公式:

简单来说,贝叶斯定理(Bayes Theorem,也称贝叶斯公式)是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法。在人工智能领域,有一些概率型模型会依托于贝叶斯定理,比如我们今天的主角「朴素贝叶斯模型」。

P(A|B) = (P(B|A)/P(A))/P(B)

P(A)是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。

P(B)是先验概率,在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。

P ( B ∣ A ) P(B \mid A)P(B∣A)是条件概率,又叫似然概率,一般是通过历史数据统计得到。

P(A∣B)是后验概率,一般是我们求解的目标

  • 先验概率: 事件发生前的预判概率。可以是基于历史数据的统计,可以是背景常识得出,也可以是人主观观点给出,一般是单独事件概率。

  • 后验概率:事件发生后求的反向条件概率。或者说,基于先验概率求得的反向条件概率。概率形式和条件概率相同。

  • 条件概率: 一个事件发生后,另一个事件发生的概率, 一般形式P(B|A), 表示A发生条件下B发生的概率。P(B|A) = P(AB)/P(A)

朴素贝叶斯

之所以命名朴素贝叶斯原因:

  • 假设样本之间是独立互不相干的
  • 样本所属类别是受特征属性取值影响的

核心思想:

通过考虑特征概率来预测分类,即对于给出的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别

直接利用贝叶斯公式,计算当x给定时,y取值的概率值;
选择最大的取值作为最终的预测类型

训练过程

  1. 训练中,计算各个类别的先验概率p(y=k)
  2. 计算各个类别中,各个特征属性的取值概率,也就是当类别给定时,x的条件概率p(x=i|y=k)

预测过程

直接把类别的先验概率以及属性的条件概率做一个累乘,选择累乘结果最大的类别作为最终输出预测类别

朴素贝叶斯的类别

高斯贝叶斯

假定特征属性取值是服从高斯贝叶斯, 模型比较适合连续的特征属性

模型训练条件概率时,会对背个类别,每个特征属性都分别的均值和方差,得到该类别该特征属性所满足的高斯概率密度函数。

伯努利贝叶斯

假设特征属性是稀疏的,也就是将有值的属性认为是1,没有值的数星星认为是0,所以认为特征属性服从伯努利分布,训练条件的时候,也就是计算伯努利概率密度函数,该算法比较适合高度稀疏的特征矩阵。

多项式贝叶斯

假设特征属性取值服从多项式分布,所以模型比较适合离散型特征属性

模型训练条件概率时,直接计算每个类别的每个特征属性的取值样本数目占类别总样本数目的概率最为条件概率

Note:

为了防止概率为0,需要做一个平滑转换,一般为拉普拉斯变换。

标签:概率,特征,贝叶斯,类别,先验概率,属性
From: https://www.cnblogs.com/01black-white/p/16613200.html

相关文章

  • 基于朴素贝叶斯的垃圾邮件分类算法
    ​ 本篇文章的内容都是基于以下作者“等我复活再拆塔”的博客来写的,记录自己学完之后的总结以及学习过程中遇到的困惑。 利用朴素贝叶斯原理过滤垃圾邮件(TF-IDF算法)_等......
  • 贝叶斯自举法Bayesian Bootstrap
    “自举”(翻译自bootstrap)这个词汇在多个领域可能见到,它字面意思是提着靴子上的带子把自己提起来,这当然是不可能的,在机器学习领域可以理解为原样本自身的数据再抽样得出新的......