协方差
协方差的计算公式
协方差的计算公式为:COV(X,Y)=E(XY)-E(X)E(Y)。EX为随机变量X的数学期望,EXY是XY的数学期望。协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
变量间相关的关系:
一般有三种:正相关、负相关和不相关。
正相关:假设有两个变量X和Y,若X越大Y越大;X越小Y越小则X和Y为正相关。
负相关:假设有两个变量X和Y,若X越大Y越小;X越小Y越大则X和Y为负相关。
不相关:假设有两个变量X和Y,若X和Y变化无关联则X和Y为负相关。
下面开始看协方差:
仔细观察上述定义式,可知:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
下面再从直观上理解一下上面这段话,假设我们拿到了一组(X, Y)的样本如下图(a)所示。然后让这组样本中的X、Y各自减掉自己的期望,得到新的一组样本,显然这组新样本的均值就变成了(0,0),这组新样本会分布在原点周围,如下图(b)所示。如果我们再把图b中的样本的每一个点的X乘以Y得到积,把积画在图(c)中,那么图b的二维样本就会退化为一系列一维的点,而且,下图b的一三象限的点的积会分布到下图c的正半轴,二四象限的点会分布到负半轴,,根据上面的定义式,图c中样本的均值,就是图1中XY的协方差,从直观上看它的均值接近于0,物理意义就是,X和Y是几乎完全不相关。
注意:上面的协方差定义中,EX和EY是数学期望,是个精确的理论值,而不是样本均值(样本数目无穷多时,样本均值会无穷接近于数学期望,这是大数定律之一,证明过程大学都学过的,可惜忘干净了),但是X、Y在没有理论概率分布表达式的情景中,我们只能用n个样本的和除以n来代替数学期望。
下面我们再来看一个X和Y正相关的例子,也即在某次我们同时对xy采样时,当x的采样值>x的均值时,y的样本也一般是>y的均值。
XY的采样值如上图a所示,各自减掉自己的均值后,得到的新样本如图b所示,图b中的样本中的每个点把x*y,得到一维样本如图c所示,显然,由图b转换为图c的时候,只有图b中第二象限的两个点落到了图c的负半轴,图b的其余点都落到了图c的正半轴,图c中样本的均值显然是个正值,这个正值就是图a的样本的协方差。
图c的均值很大,也就是说图a的样本的协方差很大,那么分析一下图c的均值大的原因,那是因为图b中的点x*y的积大,为什么积这么大,因为图a的X、Y的样本偏离各自的均值EX、EY太大了。换句话说,如何才能使得图c中的样本均值变小呢,也即如何才能使图a的样本的协方差变小呢?显然有两个办法:(1)让图c中的每一个点的数值变小,也即让图b中的点都靠近原点,也即让图a的点都靠近X、Y各自的均值;(2)增加图c中负半轴的点的数量,也即增加图b中二四象限中的点的数量,也即让图a的点在反对角线上也出现一些。这两种方法也就指出了,协方差小的原因:一是X、Y各自的方差要小,二是X、Y相关性要若。
根据以上两组图形,以及分析,我们得知:
两个因素会影响协方差的值:
1、两个变量各自的方差不变的情况下,两个变量的正相关性越强烈,协方差越大,负相关性越强烈,协方差越小;
2、两个变量的相关性不变的情况下,x或y变量的方差越大,协方差的绝对值越大。(“或”的意思是,x的方差大,或者y的大,或者它俩的都大);
因素1对协方差的影响是“绝对”大小(带符号),因素2影响的是“绝对值”的大小
反过来的推论: 如果协方差的值是个很大的正数,我们可以得到两个结论:
(1) 两者有很大概率是正相关的;
(2) 这个值很大到底是因为①:正相关很强烈造成的呢?还是②:x或y的方差很大造成的呢,这个①和②我们是区分不出来的
协方差仅仅告诉我们关系是正相关还是负相关的,并不衡量相关性的大小。
为什么值不能衡量相关性的强弱:
当数值的scope成比例变化时,相关性其实没有改变,但是协方差也成比例发生了变化。
REF
https://mp.weixin.qq.com/s?__biz=MzIyMTU0NDMyNA==&mid=2247497611&idx=1&sn=2b2559d1118d964ab06230301f8840d9&chksm=e8399d60df4e1476c0c414e0e993cca7b536571e19c267e9a60a15bbb8558299bfd24bb340ad&scene=27
https://zhuanlan.zhihu.com/p/360051284?utm_id=0
http://www.taodudu.cc/news/show-3603930.html?action=onClick
https://baike.kuaiji.com/v39454200.html
标签:样本,两个,变量,均值,协方差,相关性 From: https://www.cnblogs.com/emanlee/p/17698087.html