首页 > 其他分享 >task5----贝叶斯分类

task5----贝叶斯分类

时间:2024-07-22 23:01:18浏览次数:9  
标签:概率 task5 分类 贝叶斯 ---- 样本 朴素 属性

一、简述贝叶斯定理

 1.1什么是分类算法

   通俗地讲分类算法就是把大量已知特征及类别的样本对象输入计算机,让计算机根据这些已知的类别与特征归纳出类别与特征之间的规律(准确地说应该是分类模型),最终目的是运用得到的分类模型对新输入的对象(该对象已知特征,类别是不知道的)判断出该对象所属分类。   

  1.2 朴素贝叶斯分类算法

     分类算法常用的有很多种,朴素贝叶斯算法是其中一个比较常用的,之所以称为朴素贝叶斯算法主要是因为该算法最基本的原理是基于贝叶斯定理的,称为朴素是因为该算法成立的前提是特征之间必须得是独立的。朴素贝叶斯(Naive Bayes)算法理论基础是基于贝叶斯定理和条件独立性假设的一种分类方法。 

1.3贝叶斯定理公式解说

P(A)是先验概率,表示每种类别分布的概率;

P(B|A)是条件概率,表示在某种类别前提下,某事发生的概率;该条件概率可通过统计而得出,这里需要引入极大似然估计概念。

P(A|B)是后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,便可对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,便越有理由把它归到这个类别下。

1.4贝叶斯定理推导

由上图可以看出,在事件B已经发生的情况下,事件A发生的概率为事件A和事件B的交集除以事件B:                                   

同理,在事件A已经发生的情况下,事件B发生的概率为事件A和事件B的交集除以事件A:             

  公式解说:

           通过上图图形面积可以比较形象地得出上面的公式。

          由上面的公式可以得到:

                                              

          上式通过转换便可得到贝叶斯定理。

二、 贝叶斯分类器

2.1 . 贝叶斯分类器 :

① 原理 : 基于统计学方法贝叶斯 ( Bayes ) 理论 , 预测样本某个属性的分类概率 ;

② 性能分析 : 朴素贝叶斯 分类器 , 与 决策树 , 神经网络 分类器 性能基本相同 , 性能指标处于同一数量级 , 适合大数据处理 ;

2.2 . 贝叶斯分类器的类型 :

① 朴素贝叶斯分类器 : 样本属性都是独立的 ;

② 贝叶斯信念网络 : 样本属性间有依赖关系的情况 ;

2.3 . 正向概率 与 逆向概率 :

① 正向概率 : 盒子中有 N 个白球 ,  M 个黑球 , 摸出黑球的概率是 M /N + M ;

② 逆向概率 : 事先不知道盒子中白球和黑球的数量 , 任意摸出X 个球 , 通过观察这些球的颜色 , 推测盒子中有多少白球 , 多少黑球 ;

2.4 . 多属性特征 :

如果要处理的样本数据的特征有 n 个属性 , 其取值{X1​,X2​,⋯,Xn​} 组成了向量 X  ;

2.5 . 后验概率 :

计算最终分类为  C1​ 时 , 多个属性的取值为 X 向量的概率 , 即 P(X∣C1​)

2.6. 朴素贝叶斯由来 :

朴素地认为这些属性之间不存在依赖关系 , 就可以使用乘法法则计算这些属性取值同时发生的概率 

三、 贝叶斯分类器分类的流程

已知样本 : 已知若干个样本

未知样本 : 给定 1  个未知样本 , 其有 4 个属性组成向量 X , 样本的分类有两种 , Y 和  N ; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为 X 向量时 , 分类为  Y 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y )/ P ( X ) , 其中 P ( X ∣ Y ) P ( Y )  含义是 : 样本分类  Y 的概率  P(Y) , 乘以 样本分类为 YY 前提下样本取值 X X 时的概率 P ( P(X∣Y) , 是  P(XY) 共同发生的概率 ;

② 样本取值为 X 向量时 , 分类为 N 的概率 , 公式为  P(N∣X)=P(X)P(X∣N)/P(N)​ , 其中 P ( X ∣ N ) P ( N )含义是 : 样本分类为 N 的概率  P(N) , 乘以 样本取值 N 时的概率  P(X∣N) , 是  P(XN) 共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 : P ( Y ) , P ( N ) ;

后验概率 : P ( X ∣ Y ) P ( Y ) , P ( X ∣ N ) P ( N )  ;

上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) / P ( X )  和 P ( N ∣ X ) = P ( X ∣ N ) P ( N )/ P ( X )  , 分母都是 P ( X )  , 只比较分子即可; 其中先验概率 P ( Y )  , P ( N )  很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y )  , P ( X ∣ N ) P ( N )  ;

后验概率 P ( X ∣ Y )  求法 : 针对 X  向量中 4 个分量属性的取值 , 当样品类型是 Y  时 , 分量  1 取值为该分量属性时的概率 , 同理计算出 4 个分量属性对应的 4 个概率 , 最后将 四个概率相乘 ;

后验概率 P ( X ∣ Y ) 再乘以先验概率 P ( Y )  , 就是最终的 未知样本分类为  Y 类型的概率 ;

最终对比样本 , ① 未知样本分类为 Y  类型的概率 , ② 未知样本分类为 N  类型的概率 , 哪个概率大 , 就分类为哪个类型 ;
 

四、贝叶斯网

4.1-概念

贝叶斯网(Bayesian network)亦称信念网,它借助有向无环图DAG,来刻画属性自己建得依赖关系,并使用条件概率表来描述属性得联合概率分布。是一种经典的概率图模型。

贝叶斯网络(BN)是一种概率图形模型,用于在医学,生物学,流行病学,经济和社会科学等各个领域的不确定性下进行推理。

具体来说,BN用于回答诸如“这种干预的可能效果是什么?”或“哪些因素与这种影响相关?”之类的问题
一个贝叶斯网B由结构有向无环图(DAG)G和参数θ两部分构成。B=<G,θ>

网络结构G是一个有向无环图,每个节点对应一个属性,若两个属性有直接依赖关系,则它们由一条边连接起来 G=(X,E)
参数θ定量描述这种依赖关系

4.2-DAG示例

在癌症DAG中,“污染”和“吸烟者”是“癌症”的父母,他们也被称为“癌症”的直接原因。这种有向边缘编码依赖性独立性的关系,例如,“污染”和“吸烟者”是独立的,“吸烟者”和“癌症”是依赖的。

参数集 θ 表示基于这些依赖性和独立性的条件概率

概率分布可以是离散的,也可以是连续的。如果分布是离散的,则通常表示为表格概率。

推断DAG,G和参数集θ,是BN两个主要问题。参数集是在知道DAG后确定的,因此我们专注与Bayesian network structure learning

西瓜书种给出一个例子,西瓜问题的一种贝叶斯网结构和属性"根蒂"的条件概率表 从图中网络结构可看出 色泽" 直接依赖于 "好瓜 “和"甜度”,而"根蒂"则直接依赖于"甜度"进一步从条件概率表能得到"根蒂"对"甜度"量化依赖关系?如 P( 根蒂=硬挺 |甜度=高)= 0.1等。

4.3-BN结构

学习BN的结构是一个NP-hard问题,Robinson(1973)表明递归关系:

它是 n 个变量的可能 DAG 数。如果我们有8个变量,则可能的DAG数将为7.8e11,随着变量数的增加,DAG的数量呈超指数级增长。

4.4-BN中3个变量之间的依赖关系


同父结构:给定父结点町的取值,则x3​,x4​条件独立.

顺序结构:给定x的值,则y和z条件独立                

V型结构:亦称为冲撞结构,给定子节点x4​的取值,x1​和x2​必不独立。

奇妙的是,若x4​的取值 完全未知,则V型结构下xl​,x2​却是相互独立的:

由于BN的网络结构是不知道的,因此BN learning 的首要任务是根据训练数据集找出结构最”恰“的BN,评分搜索是求解这一问题的常用办法。

评分搜索,我们先定义一个评分函数(score function) ,以此来评估BN与训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网.

4.5-吉布斯采样算法

推断-这样通过已知变量观测值来推测待查询变量的过程
证据-己知变量观测值

在现实应用中,BN的近似推断常使用吉布斯采样(Gibbs sampling)来完成。

需注意的是,由于马尔可夫链通常需很长时间才能趋于平稳分布,因此吉布斯采样算法的收敛速度较慢.
此外,若贝叶斯网中存在极端概率 “0"或"1” ,则不能保证马尔可夫链存在平稳分布,此时吉布斯采样会给出错误的估计结果。

基于约束的方法,基于一系列条件独立性测试(CI tests)消除和定向边缘。基于分数的方法代表了一种传统的机器学习方法,其目的是搜索不同的图形,从而最大化目标函数。结合基于分数和基于约束的方法的混合算法。

五、朴素贝叶斯的主要优点有:

1)朴素贝叶斯模型有稳定的分类效率。
2)对小规模的数据表现很好,能处理多分类任务,适合增量式训练,尤其是数据量超出内存时,可以一批批的去增量训练。
3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。
朴素贝叶斯的主要缺点有:   
1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
4)对输入数据的表达形式很敏感。

标签:概率,task5,分类,贝叶斯,----,样本,朴素,属性
From: https://blog.csdn.net/2301_79707153/article/details/140620879

相关文章

  • go语言Gin框架的学习路线(八)
    目录GORMModel定义使用 Model 结构体的自定义数据模型理解并记忆GORM的Model结构体可以通过以下几个步骤和技巧:1. 理解基本概念2. 熟悉基本字段3. 记忆技巧4. 使用场景结构体标记支持的结构体标记(Structtags)关联相关标记(tags)GROM(默认行为)主键、表名的......
  • hi.高等数学
    高等数学课程简介高等数学是一门涵盖极限理论、微积分学、线性代数、常微分方程等内容的大学基础学科。下面将具体介绍高等数学课程:课程特点和重要性定义和组成:高等数学是相对于初等和中等数学而言,包含内容更为复杂和深入的数学领域。它主要研究的是变量及其关系,不同于......
  • hi.大学英语
    大学英语课程简介大学英语是非英语专业大学生的公共基础课,主要内容包括英语语言知识与应用技能、学习策略和跨文化交际等。下面将具体介绍大学英语课程:课程特点和重要性定义和组成:大学英语课程以英语语言知识与应用技能、学习策略和跨文化交际为主要内容,集多种教学模式......
  • 烟道等双翼旋转闸板气路图
    元器件总述:过滤器:过滤减压阀定位器:阀门定位器(规格:SIEMENS:SIPARTPS2i/pPositioner;6DR5020-0NG00-0AA0)气控阀:闭锁阀(规格:TB/BS1;物料编码:51021000000104;货位:G4030113)机控阀(1)机控阀(2):联通切换阀(规格:TB/LQ.0;物料编码:51021000000105;货位:G3020104)闭锁阀工作原理:保位阀也叫......
  • Qt 实战(7)元对象系统 | 7.5、QMetaProperty详解
    文章目录一、QMetaProperty详解1、QMetaProperty的作用2、使用QMetaProperty2.1、声明属性2.2、访问属性3、QMetaProperty成员方法4、示例4.1、通过名称获取指定属性4.2、遍历全部属性(包含从基类继承下来的)4.3、遍历当前类的全部属性(不包含从基类继承下来的)5、动态属性......
  • WPS入门(一、文件,文字,段落、样式)
    一、总述在打开WPS后我们将看到工如下的图。这次主要从文件,文字,段落入手,讲述如何运用WPS二、文件打开文件后:这里主要有两个比较重要的功能,即上述画上了红方框的功能。1、输出为PDF点击输出为PDF后,如下页面:此处再讲解一下PDF文档设置情况。当点击设置后,如图:这里要......
  • ImageEn v10.2.0 for Delphi 5-12 Crack
    ImageEnv10.2.0forDelphi5-12CrackKeyFeaturesofImageEn:Extensivecomponentsuiteforimageediting,display,andanalysisCompatiblewithDelphiandC++Builder5-7,2005-2010,XE-XE8,10,11,12,and.NET2.0ornewerSup......
  • 随机数生成
    目录一、rand函数二、srand函数三、time函数一、rand函数    我们想要生成一个随机数,可以使用rand函数,rand函数定义在<stdlib.h>头文件中。它的函数原型如下:intrand(void)    它能返回一个0~RAND_MAX之间的整数,RAND_MAX的大小由编译器厂商设定,但......
  • C语言的数据类型、变量、操作符、printf、scanf详解
    目录一、数据类型1.1、什么是数据类型1.2、数据类型有哪些(1)字符型(2)整型(3)浮点型(4)布尔型1.3、有符号signed和无符号unsigned1.4、sizeof操作符二、变量2.1、变量的创建2.2、变量的分类2.3、变量的初始化三、操作符3.1、算术操作符3.2、赋值操作符3.3、单目操作......
  • 《Java初阶数据结构》----1.<时间复杂度&空间复杂度计算>
    目录算法效率:一、时间复杂度的计算1.1时间复杂度的表示1.2常见时间复杂度大小排序 1.3计算示例冒泡排序的时间复杂度二分查找的时间复杂度 阶乘递归factorial的时间复杂度斐波那契递归的时间复杂度二、空间复杂度的计算冒泡排序的空间复杂度计算fibonacci的空间复......