变量之间的相关性:协方差、相关系数 | 您所在的位置:网站首页 › 如果变量x和变量y之间的相关系数 › 变量之间的相关性:协方差、相关系数 |
协方差
方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度。
协方差衡量的是两个变量之间的相关性,如:
正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大,要么同时变小,这时协方差是正的;
负相关:两个变量具有相反的变化趋势(也称反方向),一个变大,另一个变小,这时协方差是负的;
无相关:两个变量没有相关关系,这时协方差为0。
协方差描述的是两个变量是否同时偏离期望值(或均值),偏离的方向相同就是正相关,偏离的方向相反就是负相关。
方差是协方差的一种特殊情况,也就是两个变量完全相同。
协方差的公式定义,期望值(或均值)分别为 E[X] 与 E[Y] 的两个实随机变量 X 与 Y 之间的协方差Cov(X, Y)定义为:
E[A] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6 E[B] = (6 + 9 + 7 + 10 + 3) / 5 = 7 A - E[A] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] B - E[B] = [ -1 , 2 , 0 , 3, -4 ] (A - E[A]) * (B - E[B]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52 Cov(A, B) = E[(A - E[A]) * (B - E[B])] = 52 / 5 = 10.4 可以看出A和B是正相关关系,但是具体正相关的程度是多少,从协方差中是看不出来的。 如果A和B的量纲(单位)一样,用协方差表示的相关程度还有点作用,但是如果两个变量采用不同的量纲,它们的协方差在数值上具有很大的差异,这就不能用来表示相关程度了。这需要另外一个知识:相关系数。 注意:协方差也可以用向量的知识来描述,如计算出两个向量的内积,为正表示正相关,为负表示负相关,为零表示无相关。 相关系数 下面介绍的是 Pearson 相关系数(皮尔逊相关系数),公式如下:![]() ![]() ρAB = 10.4 / (4.49 * 2.44) = 0.94 看出A和B是正相关关系,且A和B具有较大的相关程度。 即使两个变量具有不同量纲,但是它们的 Pearson 相关系数始终在[-1, 1]之间,这样就有利于判断两个变量的相关程度了。 |
CopyRight 2018-2019 实验室设备网 版权所有 |