首页 > 其他分享 >Kolmogorov-Smirnov 检验 + k 样本 Anderson-Darling 检验 + 贝叶斯估计 + 期望/方差

Kolmogorov-Smirnov 检验 + k 样本 Anderson-Darling 检验 + 贝叶斯估计 + 期望/方差

时间:2024-08-11 09:54:55浏览次数:8  
标签:right frac int dfrac Kolmogorov Smirnov 检验 mathrm left

KS 检验是基于 Kolmogorov distribution,指的是

\[K=\sup_{t\in[0,1]}\left\lvert B(t)\right\rvert \]

式中 \(B(t)\) 是布朗桥。\(K\) 的累积分布函数是

\[\Pr(K\le x)=1-2\sum_{k=1}^\infty(-1)^{k-1}\mathrm e^{-2k^2x^2}=\frac{\sqrt{2\pi}}x\sum_{k=1}^\infty\mathrm e^{-(2k-1)^2\pi^2\big/8x^2} \]

在给定分布 \(F\) 时,统计量取 \(D_n=\sup_x\left\lvert F_n(x)-F(x)\right\rvert\)。在零假设成立的情况下,可认为样本来自给定的分布 \(F\)

\[\sqrt nD_n\xrightarrow{n\to\infty}\sup\left\lvert B(F(t))\right\rvert \]

我们拿到 \(150\) 个一维数据,提出零假设:

\[H_0\text{:总体 }X\text{ 服从某个均匀分布。} \]

首先把 \(150\) 个数据搞出一个经验分布函数 \(F_n(x)=1/n\sum_{i=1}^n\boldsymbol I_{[-\infty,x]}X(i)\),下面考察我们的经验分布函数和理想的均匀分布两条线的差距最大值,可以画出图来看看,虽然也看不啥来还得靠算,但毕竟这个图的配色我很喜欢所以还是放了。

计算出统计量为 \(0.0528\),\(h=0\),\(p=0.7762\),因此样本通过了 Kolmogorov-Smirnov 检验,不拒绝原假设,原样本的确取自均匀分布!


AD 检验是 KS 检验的进化,也是基于经验分布函数的,只是用另一套方法来衡量经验分布函数和理想的差距。它的统计量表示为

\[A^2=n\int_{-\infty}^\infty\frac{(F_n(x)-F(x))^2}{F(x)(1-F(x))}\mathrm dF(x) \]

大概逻辑是,如果数据的确来自原分布,那它的累积分布函数是均匀分布。K 样本的 AD 检验大概逻辑也是类似的,把样本聚成一个整体,然后把每个样本的线打上去对比以下差距,落在可接受的范围内就是通过了。

K 样本下的 AD 检验没有现成的程序,我就不会了。不过我清华数学系学统计的哥们跟我说检验通过了,那就是通过了。


回到问题本身端点的证明,根据统计推断的点估计理论中的极大似然估计知道,参数的极大似然估计是最大值。但是极大似然估计往往低估了,采用贝叶斯估计的方法可以得到更好的结果。

先验分布选共轭的帕累托分布。

\[p(a)\sim\operatorname{Pa}(b,K)= \begin{cases} \dfrac{Kb^K}{a^{K+1}}&\text{if}~a\ge b \\[2ex] 0&\text{otherwise} \end{cases} \]

这个密度分布函数说 \(a\) 必须大于某个常数 \(b\),但不要太大,\(K\) 用来控制多少是太大。如果取 \(K\to0\) 和 \(b\to0\) 则先验变无信息。此分布的均值为

\[E(a)=\frac{Kb}{K-1} \]

给定帕累托实验后,和数据集的联合分布为

\[p(D,a)=\frac{Kb^K}{a^{N+K+1}},a\ge\max(D) \]

令 \(m\) 为 \(D\) 中最大值,则 evidence 为

\[p(D)=\int_m^\infty\frac{Kb^K}{a^{N+K+1}}\mathrm da= \begin{cases} \dfrac{K}{(N+K)b^N}&\text{if}~m\le b \\[2ex] \dfrac{Kb^K}{(N+K)m^{N+K}}&\text{if}~m>b \end{cases} \]

再往下事实上有许多种估计的方式,我们的目标始终是仅依赖于 \(D\) 而推断出 \(a\)。我们可以无信息的先验得到 \(p(a\mid D)\sim\operatorname{Pa}(m,N)\)。后验的均值就是 \(\dfrac{Nm}{N-1}=\dfrac{150}{149}\times19.88\approx20.01\)。

\(m\) 的密度分布由下式给出

\[\begin{matrix} \displaystyle\Pr(\max\le m\mid a)=\Pr(\text{all}~N~\text{samples}\le m\mid a)=\left(\frac ma\right)^N \\[2ex] \displaystyle p(m\mid a)=\frac{\mathrm d}{\mathrm dm}\Pr(\max\le m\mid a)=\frac Na\left(\frac ma\right)^{N-1} \\[2ex] \displaystyle E(m)=\int_0^aN\left(\frac ma\right)^N\mathrm dm=\frac{Na}{N+1} \end{matrix} \]

所以对 \(a\) 无偏的估计是 \(\dfrac{(N+1)m}N\)。

贝叶斯估计出来的统计量一般都是有偏的,期望不等于参数。这个在频率学派中是不理想的结果,但是贝叶斯学派觉得无所谓。事实上 \(n\) 很大时往往趋近于参数,所以有偏了尤其在大样本情况无伤大雅。那么对于我们这个均匀分布问题,如果取 \(K=1\) 的 pareto 分布,你会发现后验均值等于无偏估计量了,这样理论上就很好。但是如果没有能支持取 \(K=1\) 的先验信息,还是用无信息分布更合理吧。

总之后验均值是 \(\dfrac{Nm}{N-1}=\dfrac{150}{149}\times19.88\approx20.01\),这就是均匀分布的上界的估计。


题目化为:\(n\) 个人抢红包总金额 \(S\)。记 \(x_i\) 为第 \(i\) 个人抢到的金额,\(S_i=\sum_{k=1}^ix_k\),即第 \(i\) 个人抢后累计被抢到的总金额。定义 \(x_0=0,S_0=0\)。

已知 \(\begin{cases} x_1\sim\operatorname{uniform}\hspace{-0.25em}\left(0,\dfrac{2S}n\right) \\ x_{i+1}\left|~(x_1\sim x_i)\sim\operatorname{uniform}\hspace{-0.25em}\left(0,\dfrac{2(S-S_i)}{n-i}\right)\right.,i=1,2,\dots,n-2 \\[2ex] x_n=S-S_{n-1} \end{cases}\)

试求 \(x_1\sim x_n\) 的边缘分布,并证明 \(EX_1=EX_2=\cdots=EX_n,\textit{Var}X_1<\textit{Var}X_2<\cdots=\textit{Var}X_{n-1}\)。

解:首先有递推公式

\[\begin{aligned} f(x_{i+1},\dots,x_1)&=f(x_{i+1}\mid x_1,\dots,x_i)f(x_1,\dots,x_i) \\ &=f(x_{i+1}\mid x_1,\dots,x_i)f(x_i\mid x_1,\dots,x_i)\cdots f(x_2\mid x_1)f(x_1) \\ &=\prod_{l=0}^i\frac{(n-l)x_{l+1}}{2\left(S-\sum_{k=1}^lx_k\right)}\boldsymbol I_{\left(0,\frac{2\left(S-\sum_{k=1}^lx_k\right)}{n-l}\right)}x_{l+1} \end{aligned} \]

式中 \(\boldsymbol I=\begin{bmatrix} 1&&&&\\[1ex] -1&1&&&\\[1ex] &-1&1&&\\[1.6ex] &&\ddots&\ddots&\\[0.7ex] &&&-1&1 \end{bmatrix}\)。

有递推公式

\[\begin{aligned} f_{S_m}(x)&=\int_R\frac{n-m+1}{2(S-t)}f_{S_{m-1}}(t)\boldsymbol I_{\left(\frac{(n-m+1)x-2S}{n-m-1}\boldsymbol I(0,n-2](m),x\right)}(t)\mathrm dt,m=2,\dots,n-1 \\ f_{X_m}(x)&=\int_R\frac{n-m+1}{2(S-t)}f_{S_{m-1}}(t)\boldsymbol I_{\left(-\infty,S-\frac{n-m+1}2x\right)}(t)\mathrm dt,x>0 \end{aligned} \]

首先由生成机制知 \(X_{n-1}\sim X_n\) 同分布。对于 \(m\le n-1,k\ge1\),有

\[\begin{aligned} ES_m^k&=\int_Rx^kf_{S_m}(x)\mathrm dx \\ &=\int_Rx^k\left(\int_Rf_{S_m\mid S_{m-1}}(x\mid y)f_{S_{m-1}}(y)\mathrm dy\right)\mathrm dx \\ &=\int_Rx^k\left(\int_R\frac{n-m+1}{2(S-y)}\boldsymbol I_{\left(y,y+\frac{2(S-y)}{n-m+1}\right)}(x)f_{S_{m-1}}(y)\mathrm dy\right)\mathrm dx \\ &=\int_R\frac{n-m+1}{2(S-y)}f_{S_{m-1}}(y)\left(\int_Rx^k\left(I_{\left(y,y+\frac{2(S-y)}{n-m+1}\right)}(x)\mathrm dx\right)\mathrm dy\right)~\text{(Fubini 定理)} \end{aligned} \]

【均值】\(k=1\) 时,有

\[ES_m=\int_R\left(\frac S{n-m+1}+\frac{n-m}{n-m+1}y\right)f_{S_{m-1}}(y)\mathrm dy=\frac S{n-m+1}+\frac{n-m}{n-m+1}ES_{m-1} \]

代入初始条件有 \(ES_1=\dfrac Sn\),一通递推猛如虎,有 \(\dfrac{S-ES_m}{n-m}=\dfrac{S-ES_{m-1}}{n-(m-1)}\),故有 \(ES_m=\dfrac{mS}n\),再有 \(EX_m=\dfrac Sn\),总之整个计算过程就像是一颗洋葱一样一层一层一层一层地剥开它的期望,最后就证明成功了。

【方差】前面发现求 \(S\) 比求 \(X\) 还要简单!下面还如法炮制好了。由于 \(\textit{Var}X=EX^2-(EX)^2\),只需要求 \(EX_m^2\),那先求出 \(ES_m^2\),再慢慢寻求他俩之间的关系。

\(k=2\) 时,\(ES_m^2=\int_R\dfrac16f_{S_{m-1}}(y)\left[\dfrac{12(S-y)y}{n-m+1}+6y^2+\dfrac{8(S-y)^2}{(n-m+1)^2}\right]\mathrm dy\),化简得

\[3(n-m+1)ES_m^2=\frac{6(m-1)(n-m+1)-28(m-1)+4n}nS^2 \]

类似地,对 \(m\le n-1,k\ge1\),

\[\begin{aligned} EX_m^k&=\int_Rx^kf_{X_m}(x)\mathrm dx \\ &=\int_Rx^k\left(\int_Rf_{X_m\mid S_{m-1}}(x\mid y)f_{S_{m-1}}(y)\mathrm dy\right)\mathrm dx \\ &=\int_Rx^k\left(\int_R\frac{n-m+1}{2(S-y)}\boldsymbol I_{\left(0,\frac{2(S-y)}{n-m+1}\right)}(x)f_{S_{m-1}}(y)\mathrm dy\right)\mathrm dx \\ &=\int_R\frac{2^k(S-y)^k}{(k+1)(n-m+1)^k}f_{S_{m-1}}(y)\mathrm dy \end{aligned} \]

令 \(k=2\),化简得 \(3(n-m+1)^2EX_m^2=\dfrac{4(n-2m+2)}nS^2+4ES_{m-1}^2\)。

一通代入猛如虎,下面有没有错我就不知道了,反正是证明题,结论没错你中间的过程的问题也看不出来的。

\[3(n-m)^2EX_{m+1}^2=\left[3(n-m)^2+1\right]EX_m^2 \]

从而

\[EX_{m+1}^2=\frac{4S^2}{3n^2}\prod_{k=1}^m\left[1+\frac1{3(n-m)^2}\right] \]

再往回代,由于 \(\textit{Var}X=EX^2-(EX)^2\),就可以证明

\[\textit{Var}X^2=\frac{4(3n^2-6n+4)}{9n^2(n-1)^2}-\left(\frac Sn\right)^2>\textit{Var}X_1 \]

然后你就品,细品,一步步往后推就会发现,方差真在越来越大,而且增大的速度还在越来越快。以上整个计算过程抱的是清华大学数学系 2014 级博士汪 ZD 的大腿,在此对他粗壮的大腿表示由衷的敬佩!祝他好人一生手气最佳!

标签:right,frac,int,dfrac,Kolmogorov,Smirnov,检验,mathrm,left
From: https://www.cnblogs.com/laoshan-plus/p/18353118

相关文章

  • 相关性检验
    文章目录Pearson相关系数Spearman等级相关系数Cochran'sQ检验Kappa一致性系数Kendall相关系数实例分析总结在数据分析的广阔天地中,相关性检验是探索变量间关系的一把钥匙。本文将带领大家了解几种常用的相关性检验方法:Pearson、Spearman、Cochran’sQ、Kappa和Kenda......
  • Python数据预处理+正态性检验+异常值处理+Q-Q图-K-S检验+相关性分析(2024MathorCup A题
    #数据预处理#正态性检验、Q-Q图、箱线图、直方图、相关性分析#Q-Q图importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromscipy.statsimportnormfromscipy.statsimportprobplota=pd.read_excel('附件1:小区基本信息.xlsx',engine='openpyxl'......
  • 医学实验室检验系统源码 C#语言LIS系统全套源码,多家大型综合医院应用案例,适合二次开发
    实验室管理信息系统LIS源码,采用.NetC#语言开发,C/S架构。支持DB2,Oracle,MSSQLServer等主流数据库。(全套LIS系统源码,自主版权,多家大型综合医院应用案例,适合二次开发,项目应用)LIS系统菜单功能:1、系统维护基础数据维护、项目相关维护、人员权限维护、打印模板维护、微生物维......
  • 计算机网络中的检验和(checksum)(包括计算文件的检验和附有c++代码)
    介绍:检验和(checksum),在数据处理和数据通信领域中,用于校验目的地一组数据项的和。它通常是以十六进制为数制表示的形式。如果校验和的数值超过十六进制的FF,也就是255.就要求其补码作为校验和。通常用来在通信中,尤其是远距离通信中保证数据的完整性和准确性。(此引用了检验和的百......
  • R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐
    全文链接:https://tecdat.cn/?p=32981原文出处:拓端数据部落公众号气候变化和空气污染对现代社会产生了越来越大的影响。在这种背景下,研究气象和空气污染之间的关系以及其对PM2.5浓度的影响变得非常重要。为了更好地理解和解释这些关系,广义加性混合模型(GAMM)成为一种强大的工具。......
  • AI - 假设检验
    假设检验的步骤 实例讲解第三步:由于一般的显著性水平定为0.05,因此在正态分布图中,对应的接受域是0.95,对应着-1.96~1.96的红色阴影区域第四步:判断方法1——计算出样本统计值根据第二步骤的公式,将样本所有的值代入该公式,计算出样本统计值=2.23,落在了拒绝域判断方法2——计......
  • KAN: Kolmogorov-Arnold Networks (arXiv 2024)
    KAN官方代码库:https://github.com/KindXiaoming/pykan官方tutorials:https://kindxiaoming.github.io/pykan/目录AbstractKolmogorov–ArnoldNetworks(KAN)Kolmogorov-ArnoldRepresentationtheoremKANarchitectureImplementationdetailsKAN’sApproximation......
  • 【基于R语言群体遗传学】-16-中性检验Tajima‘s D及连锁不平衡 linkage disequilibriu
    Tajima'sDTest已经开发了几种中性检验,用于识别模型假设的潜在偏差。在这里,我们将说明一种有影响力的中性检验,即Tajima'sD(Tajima1989)。Tajima'sD通过比较数据集中的两个......
  • 图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
    MLP是多层感知器(MultilayerPerceptron)的缩写,它是一种前馈人工神经网络。MLP由至少三层节点组成:一个输入层、一个或多个隐藏层以及一个输出层。每一层的节点都与下一层的每个节点相连,并且每个连接都有一个权重。MLP通过这些权重和节点的激活函数来学习输入数据的模式。Kolmogorov......
  • 图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比
    KolmogorovArnoldNetworks(KAN)最近作为MLP的替代而流行起来,KANs使用Kolmogorov-Arnold表示定理的属性,该定理允许神经网络的激活函数在边缘上执行,这使得激活函数“可学习”并改进它们。目前我们看到有很多使用KAN替代MLP的实验,但是目前来说对于图神经网络来说还没有类似的实验......