首页 > 其他分享 >协方差

协方差

时间:2023-09-12 23:23:20浏览次数:44  
标签:样本 两个 变量 均值 协方差 相关性

协方差

协方差的计算公式

  协方差的计算公式为:COV(X,Y)=E(XY)-E(X)E(Y)。EX为随机变量X的数学期望,EXY是XY的数学期望。协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

  变量间相关的关系:

  一般有三种:正相关、负相关和不相关。

  正相关:假设有两个变量X和Y,若X越大Y越大;X越小Y越小则X和Y为正相关。

  负相关:假设有两个变量X和Y,若X越大Y越小;X越小Y越大则X和Y为负相关。

  不相关:假设有两个变量X和Y,若X和Y变化无关联则X和Y为负相关。

 

 

下面开始看协方差:

 


仔细观察上述定义式,可知:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

下面再从直观上理解一下上面这段话,假设我们拿到了一组(X, Y)的样本如下图(a)所示。然后让这组样本中的X、Y各自减掉自己的期望,得到新的一组样本,显然这组新样本的均值就变成了(0,0),这组新样本会分布在原点周围,如下图(b)所示。如果我们再把图b中的样本的每一个点的X乘以Y得到积,把积画在图(c)中,那么图b的二维样本就会退化为一系列一维的点,而且,下图b的一三象限的点的积会分布到下图c的正半轴,二四象限的点会分布到负半轴,,根据上面的定义式,图c中样本的均值,就是图1中XY的协方差,从直观上看它的均值接近于0,物理意义就是,X和Y是几乎完全不相关。

 

注意:上面的协方差定义中,EX和EY是数学期望,是个精确的理论值,而不是样本均值(样本数目无穷多时,样本均值会无穷接近于数学期望,这是大数定律之一,证明过程大学都学过的,可惜忘干净了),但是X、Y在没有理论概率分布表达式的情景中,我们只能用n个样本的和除以n来代替数学期望。

下面我们再来看一个X和Y正相关的例子,也即在某次我们同时对xy采样时,当x的采样值>x的均值时,y的样本也一般是>y的均值。

 

XY的采样值如上图a所示,各自减掉自己的均值后,得到的新样本如图b所示,图b中的样本中的每个点把x*y,得到一维样本如图c所示,显然,由图b转换为图c的时候,只有图b中第二象限的两个点落到了图c的负半轴,图b的其余点都落到了图c的正半轴,图c中样本的均值显然是个正值,这个正值就是图a的样本的协方差。

图c的均值很大,也就是说图a的样本的协方差很大,那么分析一下图c的均值大的原因,那是因为图b中的点x*y的积大,为什么积这么大,因为图a的X、Y的样本偏离各自的均值EX、EY太大了。换句话说,如何才能使得图c中的样本均值变小呢,也即如何才能使图a的样本的协方差变小呢?显然有两个办法:(1)让图c中的每一个点的数值变小,也即让图b中的点都靠近原点,也即让图a的点都靠近X、Y各自的均值;(2)增加图c中负半轴的点的数量,也即增加图b中二四象限中的点的数量,也即让图a的点在反对角线上也出现一些。这两种方法也就指出了,协方差小的原因:一是X、Y各自的方差要小,二是X、Y相关性要若。

 

根据以上两组图形,以及分析,我们得知:

两个因素会影响协方差的值:

1、两个变量各自的方差不变的情况下,两个变量的正相关性越强烈,协方差越大,负相关性越强烈,协方差越小;

2、两个变量的相关性不变的情况下,x或y变量的方差越大,协方差的绝对值越大。(“或”的意思是,x的方差大,或者y的大,或者它俩的都大);

因素1对协方差的影响是“绝对”大小(带符号),因素2影响的是“绝对值”的大小

 

反过来的推论: 如果协方差的值是个很大的正数,我们可以得到两个结论:

(1) 两者有很大概率是正相关的;

(2) 这个值很大到底是因为①:正相关很强烈造成的呢?还是②:x或y的方差很大造成的呢,这个①和②我们是区分不出来的

 

协方差仅仅告诉我们关系是正相关还是负相关的,并不衡量相关性的大小。

为什么值不能衡量相关性的强弱:
当数值的scope成比例变化时,相关性其实没有改变,但是协方差也成比例发生了变化。

 

 

REF

https://mp.weixin.qq.com/s?__biz=MzIyMTU0NDMyNA==&mid=2247497611&idx=1&sn=2b2559d1118d964ab06230301f8840d9&chksm=e8399d60df4e1476c0c414e0e993cca7b536571e19c267e9a60a15bbb8558299bfd24bb340ad&scene=27

 

https://zhuanlan.zhihu.com/p/360051284?utm_id=0

http://www.taodudu.cc/news/show-3603930.html?action=onClick

https://baike.kuaiji.com/v39454200.html

标签:样本,两个,变量,均值,协方差,相关性
From: https://www.cnblogs.com/emanlee/p/17698087.html

相关文章

  • 协方差矩阵
     概念协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。其实简单来讲,协方差就是衡量两个变量相关性的变量。当协方差为正时,两个变量呈正相关关系(同增同减);当协方差为负时,两个变量呈负相关关系(一增一减)。......
  • 协方差与协方差矩阵
    本文讲的主要内容是协方差以及协方差矩阵。在统计学中,我们见过的最基本的三个概念是均值,方差,标准差。假定给定了n个样本的集合,那么公式如下     均值是描述样本的平均值,标准差描述的是样本集合的各个点到均值距离的平均,体现了样本的散步程度。而方差仅仅是标准差的平方。实际......
  • 统计学方差,中位数,方差,标准差,协方差等的计算
    #coding=utf-8importnumpyasnpimportpandasaspddatas=[98,83,65,72,79,76,75,94,91,77,63,83,89,69,64,78,63,86,91,72,71,72,70,80,65,70,62,74,71,76]#平均数ave......
  • 每天进步一点点《协方差矩阵的实践》
    详情见站内搜索《每天进步一点点《协方差矩阵的实践》》.docx上一次我们学习了PCA的过程,并且在最后还特意为大家介绍了协方差矩阵以及协方差矩阵的特征值和特征向量的作用......
  • 拓端tecdat|R语言代码编写对回归模型进行协方差分析
    目录 ​​怎么做测试​​​​协方差分析​​​​拟合线的简单图解​​​​模型的p值和R平方​​​​检查模型的假设​​​​具有三类和II型平方和的协方差示例分析​​​......
  • 拓端tecdat|R语言编程指导基于协方差的SEM结构方程模型中的拟合指数
    R语言基于协方差的SEM结构方程模型中的拟合指数  在实践中,因子负载较低(或测量质量较差)的模型的拟合指数要好于因子负载较高的模型。例如,如果两......
  • 拓端tecdat|R语言编程指导基于协方差的结构方程拟合的卡方检验
    R语言基于协方差的结构方程拟合的卡方检验​在评估结构方程模型的拟合,很常见的应用是研究χ2进行测试,因为在给定足够大的样本量的情况下,它几乎总会......
  • slam14(2-2) 高斯分布 协方差
     1.数学期望:在概率论和统计学中,数学期望(mean)(或均值,也简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一,它反映随机变量平均取值的大小。需要......
  • 2、kalman滤波器------数学基础_数据融合_协方差矩阵
    参考内容:B站的DR_CAN的卡尔曼滤波器视频本节内容:1、数据融合2、协方差矩阵3、状态空间方程4、观测器1、数据融合   假设两个秤对同一个物体进......