2-2 贝叶斯与信息理论
条件概率
假设试验E的样本空间为S,事件包括A、B,要考虑在B已经发生的条件下A发生的概率,这就是条件概率问题。
设A、B是两个事件,且P(A)>0,称:
全概率
全概率是指一个事件发生的总概率,可以通过多个互不相交的事件的概率之和来计算。全概率公式通常用于计算条件概率,在这种情况下,我们需要考虑所有可能发生的情况,这些情况通常是互不相交的。
全概率适合分析具有多层结构的随机试验的情况
举一个简单的例子
贝叶斯定理
贝叶斯定理是概率论中的一个结果,他跟随机变量的条件概率以及边缘概率分布有关。贝叶斯定理描述了从证据或数据推断信息的过程,特别是当这个过程涉及条件概率时。在贝叶斯推理中,已知P(A|B),我们可以使用贝叶斯定理计算另一个条件概率P(B|A)。
信息论-什么是熵
信息论是一门研究信息传输、变换和处理的科学。它以数学方法研究通讯技术中关于信息的传输和变换规律,为控制论,自动化技术和现代化通讯技术奠定了理论基础。
而信息熵的概念是用来解决信息的度量问题。也就是量化信息。
一个事件或者一个系统,准确来说是一个随机变量,它有着一定的不确定性。要消除这个不确定性,就要引入更多的信息,这个更多的信息的度量就需要用信息熵来表达。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。
对于任意一个随机变量X,它的信息熵定义如下,单位为比特(bit):
再举一个更加贴合实际情况的例子
用户输入:110
路人甲的理解:这是用户觉得这个对话系统在骚扰他,所以想打110报警举报,是不需要我们服务的客户
路人乙的理解:这是用户在陈述他家的面积户型,是我们的潜在需求客户
路人丙的理解:这是咨询或陈述我们活动套餐,110元每平
路人丁的理解:这就是一个电话
我们可以发现110造成的歧义是非常多的,那么也就意味着他需要更多的信息,而需要完善的信息越多,那么也就是信息熵越高
信息熵与自然语言处理