首页 > 其他分享 >概率估计方法

概率估计方法

时间:2023-04-29 17:33:36浏览次数:45  
标签:似然 概率 后验 概率分布 贝叶斯 估计 参数 theta 方法

概率估计方法

在实践中,概率分布通常是未知的,如何从样本中识别出潜在的概率分布是统计估计。

  • 参数方法

    • 极大似然估计MLE
    • 最大化后验估计MAP
  • 非参数方法

    • 直方图方法

    • 核密度估计KDE

    • 最近邻密度估计NNDE

两种观点(关于参数方法\(\theta\))

假设我们有一个样本数据集合\(D=\{X^1,X^2,\dots,X^n\}\),其中每个样本\(X^i=(x_1^i,x_2^i,\dots,x_m^i)\)都是从一个未知分布\(p(X;\theta)\)中独立地抽取得到的。我们要通过这些样本数据,估计出这个未知分布的某些参数\(\theta=(\theta_1,\theta_2,\dots,\theta_b)\)。

频率派和贝叶斯派是概率统计学中两个主要的派别,它们对于统计推断的基本假设和方法有不同的观点。

  • 频率派认为,概率是事件在长期重复试验中出现的频率,因此概率是客观存在的,不依赖于任何主观假设。在频率派的框架下,统计推断的目标是从样本中推断出总体的未知参数,并通过置信区间和假设检验等方法对统计结论进行评估。频率派的方法通常基于假设检验和置信区间,强调的是样本的规模和可靠性,而不考虑先验知识和主观因素。

  • 贝叶斯派则认为,概率是在已知先验知识的情况下,根据新的数据更新后验概率的一种度量。因此,贝叶斯派方法强调的是先验知识和主观因素的重要性。在贝叶斯派的框架下,统计推断的目标是基于已知的数据和先验知识,推断出未知参数的后验分布,并通过后验分布的点估计和区间估计等方法对统计结论进行评估。

一般来说\(p(X;\theta)\)结构是给定的,例如假设\(p\)为高斯分布,\(\theta\)就是\(\mu,\Sigma\);假设\(p\)为一个神经网络模型,\(\theta\)就是所有神经网络参数

1. 频率派观点(参数\(\theta\)是未知常量)

极大似然估计(Maximum Likelihood Estimation,简称MLE)是一种常用的参数估计方法。其基本思想是在给定观测数据的情况下,寻找一个能够最大化样本似然函数的参数值,作为总体参数的估计值。

对于给定的样本数据,我们可以计算出其似然函数 \(L(\theta)\),它表示在给定参数 \(\theta\) 的情况下,这个样本数据出现的概率密度函数值的乘积。

\[L(\theta)=\prod_{i=1}^{n}p(X^i;\theta) \]

其中 \(X^i\) 表示样本数据中的第 \(i\) 个样本观测值。

MLE的核心思想就是在所有可能的参数取值中,寻找一个能够最大化似然函数 \(L(\theta)\) 的参数 \(\hat\theta_{MLE}\),此时的密度估计\(p(X;\hat\theta_{MLE})\),即:

\[\begin{aligned} \hat\theta_{MLE}&=\underset{\theta}{\operatorname{arg max}} L(\theta) \cr &=\underset{\theta}{\operatorname{arg max}} \log L(\theta) \cr &=\underset{\theta}{\operatorname{arg max}} \log \prod_{i=1}^{n}p(X^i;\theta) \cr &=\underset{\theta}{\operatorname{arg max}} \sum_{i=1}^{n}\log p(x^i;\theta) \end{aligned} \]

简单情况下,如果\(L(\theta)\)可微,我们会使用数值优化方法来求解上式,以找到最大化对数似然函数的参数 \(\hat\theta_{MLE}\)。求解的方法是直接对对数似然函数求导,并令其等于 0,得到:

\[\frac{\partial }{\partial \theta}\log L(\theta)=\sum_{i=1}^{n}\frac{\partial}{\partial \theta}\log p(X^i;\theta)=0 \]

极大似然估计可能存在多个估计值,这时需要根据具体情况选择最优的估计值。另外,极大似然估计也可能出现无解或者不稳定的情况,需要进行额外的处理或者使用其他的估计方法。

MLE具有良好的渐进性质,当样本量充分大时,MLE的估计结果具有一致性渐进无偏性渐进正态性渐进有效性等性质。

参数计算:梯度下降、EM算法

模型选择:KL散度、AIC信息论准则(大样本)、交叉检验

2. 贝叶斯派观点(参数\(\theta\)是随机变量)

在贝叶斯统计学中,参数的估计是通过后验概率分布来实现的,\(\theta \sim p(\theta)\)。在给定数据集 \(D\) 的情况下,参数 \(\theta\) 的后验概率分布可以表示为:

\[p(\theta|D) = \frac{p(D|\theta) p(\theta)}{p(D)} \]

其中,\(p(D|\theta)\) 表示数据集 \(D\) 在给定参数 \(\theta\) 的条件下的似然函数,\(p(\theta)\) 表示参数 \(\theta\) 的先验分布,\(p(D)\) 表示数据集 \(D\) 的边缘概率分布。

  • 先验分布:贝叶斯统计学中,将参数视为随机变量,引入了先验分布用于描述参数的不确定性信息。先验分布可以是任何概率分布,通常是基于领域知识或历史数据来选择的。

  • 后验概率分布:在贝叶斯统计学中,参数的估计不再是一个点估计值,而是一个后验概率分布。后验概率分布表示参数在给定数据的情况下的不确定性,它可以用于计算置信区间、预测区间等信息。

  • 边缘概率分布:在贝叶斯统计学中,边缘概率分布是指在所有可能参数值上的联合概率分布的积分,边缘概率分布是计算后验概率分布时的归一化常数,通常可以通过数值积分或MCMC等方法进行计算。

\[p(D) =\int p(D,\theta) d\theta =\int p(D|\theta)p(\theta) d\theta=\int \prod_{i=1}^{n}p(X^i;\theta)p(\theta)d\theta \]

  • 贝叶斯因子:贝叶斯因子是用于比较两个模型相对拟合数据的相对证据的指标。贝叶斯因子等于两个模型的边缘概率分布的比值,即:

\[\text{BF}_{ij} = \frac{p(D|M_i)}{p(D|M_j)} \]

其中,\(M_i\) 和 \(M_j\) 分别表示两个模型,\(p(D|M_i)\) 和 \(p(D|M_j)\) 分别表示数据集 \(D\) 在模型 \(M_i\) 和 \(M_j\) 下的边缘概率分布。当 \(\text{BF}_{ij}\) 大于1时,说明模型 \(M_i\) 比模型 \(M_j\) 更能解释数据。

贝叶斯预测分布(Bayesian predictive distribution)是贝叶斯统计学中的一个概念,它描述了基于已知数据和模型参数的情况下,对未知数据的预测分布。贝叶斯预测分布是一种计算密度的方法,即计算参数模型\(p(X|\theta)\)在后验概率\(p(\theta|D)\)上的期望。

\[\begin{aligned} \hat p_{Bayes}(X)&=\int p(X|\theta)p(\theta|D) d\theta \cr &=\int p(X|\theta)\frac{p(D|\theta) p(\theta)}{p(D)} d\theta \cr &=\int p(X|\theta)\frac{\prod_{i=1}^{n}p(X^i;\theta) p(\theta)}{\int \prod_{i=1}^{n}p(X^i;\theta')p(\theta') d\theta'} d\theta \end{aligned} \]

如果参数模型\(p(X|\theta)\)和先验概率\(p(\theta)\)是给定的,那贝叶斯推测分布原理上可以不通过任何学习计算出来,然而,如果\(\theta\)的维数过高,那么上面两个积分式计算起来会很复杂。因此,在贝叶斯推理中一个主要的技术问题是如何高效地处理高维积分。

为了简单地处理上面的积分,解析地获得后验概率 \(p(\theta|D)\)是一种好方式。一种可能的方式是手动选择先验概率\(p(\theta)\),然后就可以清楚地得到后验概率\(p(\theta|D)\)的参数形式。另一种可能的方式是求积分式的解析近似。此外还有方法就是直接使用后验概率求单点的\(p(\theta|D)\),即最大化后验估计。

最大化后验概率 (Maximum a posteriori estimation,MAP) 是另一种一种常用的参数估计方法,它的本质是在贝叶斯统计学框架下,使用后验概率最大化来确定参数的点估计值。在 MAP 方法中,通过最大化后验概率 \(p(\theta|D)\) 来确定参数的点估计值。如果样本是独立同分布的取出来的,计算公式为

\[\begin{aligned} \hat{\theta}_{MAP}&=\underset{\theta}{\operatorname{arg max}} p(\theta|D) \cr &=\underset{\theta}{\operatorname{arg max}} p(D|\theta) p(\theta) \cr &=\underset{\theta}{\operatorname{arg max}} \prod_{i=1}^{n}p(X^i;\theta) p(\theta) \cr &=\underset{\theta}{\operatorname{arg max}} \sum_{i=1}^{n}\log p(X^i;\theta) + \log p(\theta) \end{aligned} \]

此时的密度估计为\(p(X;\hat\theta_{MAP})\)。前一项就是MLE,后一项是正则化项,因此MAP也被称为修正的极大似然估计。

模型选择:在贝叶斯推理里面先验概率决定了贝叶斯推理的解,即\(p(\theta;\beta)\)

3. 总结比较

各种都在想尽办法计算\(p(X)\)

  • 第一种方式是\(p(X;\theta)\),其中\(\theta\)是计算出来的常量,例如\(\hat\theta_{MLE}、\hat\theta_{MAP}\)
  • 第二种方式是\(p(X|D)\),即贝叶斯预测分布

频率派--->统计机器学习--->优化问题--->(损失函数是什么;优化算法是什么)

贝叶斯派--->概率图模型--->积分问题和概率计算--->(精确计算;近似计算)

标签:似然,概率,后验,概率分布,贝叶斯,估计,参数,theta,方法
From: https://www.cnblogs.com/jijunhao/p/17364244.html

相关文章

  • 用户故事与敏捷方法阅读笔记03
    第11章测量并监控速率我们将项目分成一系列迭代来做发布计划,每轮迭代中安排一定故事点的任务。一轮迭代完成的故事点就是项目的速率。因为速率是非常重要的度量,所以怎么测量它变得很重要,而且速率在初期的迭代可能很不稳定,经过两三轮迭代后,才能获得一个长期的、比较稳定的速率。......
  • 用户故事与敏捷方法阅读笔记02
    第6章用户故事验收测试比起写冗长的需求列表,可以用测试来充实很多用户故事的细节。测试是一个两步走的流程:第一,将测试要点记录在故事卡的背面,任何时候发现新的测试,都可以记录到故事卡的背面;第二,将测试要点变成全面的测试,这些测试可以用来演示故事已正确、完整地实现。测试验收......
  • #yyds干货盘点# LeetCode面试题:解码方法
    1.简述:一条包含字母 A-Z 的消息通过以下映射进行了 编码 :'A'->"1"'B'->"2"...'Z'->"26"要 解码 已编码的消息,所有数字必须基于上述映射的方法,反向映射回字母(可能有多种方法)。例如,"11106" 可以映射为:"AAJF" ,将消息分组为 (11106)"KJF......
  • 利用snpEff对基因型VCF文件进行变异注释的详细方法
    利用snpEff对VCF文件进行变异注释群体遗传研究中,在获得SNP位点后,我们需要对SNP位点进行注释,对这些SNP位点进行更深的了解。snpEff是一个用于对基因组单核苷酸多态性(SNP)进行注释的软件,snpEff软件可以用于对VCF文件进行变异注释,使用时需要先进行安装,然后构建参考基因组数据库,即......
  • valgrind使用方法
    valgrind使用1.Preface valgrind是一套Linux下开源的程序仿真调试和分析工具的集合;集合中的每个工具负责执行某种类型的仿真,调试,或者分析任务;它的主要结构包括一个内核(软件模拟CPU环境)以及一系列的小工具。valgrind包含的工具主要如下:Memcheck主要针对C和C++程序的......
  • js封装深拷贝方法
    deepCopy:function(data){ if(data===null||data===undefined){ returnnull; } letresult=Array.isArray(data)?[]:{}; if(data&&typeofdata==='object'){ for(letkeyindata){ if(data[key]&&typeof......
  • LWC属性变化时的一种处理方法
    LWC(LightningWebComponent)的属性name,role发生变化,或者要删除某个属性时,Salesforce会自动检查是否有Flow引用这个lwc,如果有,则会提示,不能删除。手工操作,需要在Flow中先去掉这个lwc,然后发布修改后的lwc,再在Flow中加回去。问题是Flow往往有好几个版本(version),一个个地手工调整,非......
  • 动态增加表单方法--ff/ie
    ---------------------增加方法----------------------------<h3><center>批量增加评论</center></h3><BR><formaction=""method="post"οnsubmit="returncheck_form();"><inputtype="button"va......
  • 用户故事与敏捷方法读后感
    《用户故事与敏捷方法》这本书是一本介绍敏捷开发方法中用户故事的基本概念、应用和实践的书籍。作为一名从事软件开发的人员,我非常喜欢这本书,因为它为我们提供了一种更加敏捷、更加用户导向的开发方法。首先,这本书非常清晰地介绍了用户故事的基本概念,从用户需求的角度出发,阐述了......
  • 示波器数据导入MATLAB进行FFT分析的方法
      http://blog.sina.com.cn/s/blog_710421fa0101crm1.htmlpower_fftscope;示波器保存为.csv格式文件,然后用matlab导入新建.mdl模型文件,示波器里面变量保存为uuuu.time=seconduu.signals.values=Volt在工作台运行上面两条指令,直到FFT分析几面里面出现波形,就可以分析了!1......