变量之间的相关性:协方差、相关系数 您所在的位置:网站首页 如果变量x和变量y之间的相关系数 变量之间的相关性:协方差、相关系数

变量之间的相关性:协方差、相关系数

#变量之间的相关性:协方差、相关系数| 来源: 网络整理| 查看: 265

协方差 方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度。   协方差衡量的是两个变量之间的相关性,如:   正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大,要么同时变小,这时协方差是正的;   负相关:两个变量具有相反的变化趋势(也称反方向),一个变大,另一个变小,这时协方差是负的;   无相关:两个变量没有相关关系,这时协方差为0。   协方差描述的是两个变量是否同时偏离期望值(或均值),偏离的方向相同就是正相关,偏离的方向相反就是负相关。   方差是协方差的一种特殊情况,也就是两个变量完全相同。   协方差的公式定义,期望值(或均值)分别为 E[X] 与 E[Y] 的两个实随机变量 X 与 Y 之间的协方差Cov(X, Y)定义为:  

例子:变量A有5个值 [5, 10, 6, 15, 2],变量B有5个值 [6, 9, 7, 10, 3],两个变量的协方差计算如下:  

E[A] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6

E[B] = (6 + 9 + 7 + 10 + 3) / 5 = 7

A - E[A] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ]

B - E[B] = [ -1 , 2 , 0 , 3, -4 ]

(A - E[A]) * (B - E[B]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52

Cov(A, B) = E[(A - E[A]) * (B - E[B])] = 52 / 5 = 10.4

可以看出A和B是正相关关系,但是具体正相关的程度是多少,从协方差中是看不出来的。   如果A和B的量纲(单位)一样,用协方差表示的相关程度还有点作用,但是如果两个变量采用不同的量纲,它们的协方差在数值上具有很大的差异,这就不能用来表示相关程度了。这需要另外一个知识:相关系数。   注意:协方差也可以用向量的知识来描述,如计算出两个向量的内积,为正表示正相关,为负表示负相关,为零表示无相关。     相关系数 下面介绍的是 Pearson 相关系数(皮尔逊相关系数),公式如下:  

   表示 X 的标准差,   表示 Y 的标准差。   Pearson 相关系数的取值范围是 [-1, 1]:   等于0:表示没有相关关系;   小于0:表示负相关关系,越接近 -1 时表示负相关关系越显著;   大于0:表示正相关关系,越接近 1 时表示正相关关系越显著。   如图:  

根据上面的协方差的例子,A的标准差为 4.49,B的标准差为 2.44,得出A和B的相关系数:  

ρAB = 10.4 / (4.49 * 2.44) =  0.94

看出A和B是正相关关系,且A和B具有较大的相关程度。   即使两个变量具有不同量纲,但是它们的 Pearson 相关系数始终在[-1, 1]之间,这样就有利于判断两个变量的相关程度了。    


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有