统计学三大相关系数之皮尔森(pearson)相关系数 |
您所在的位置:网站首页 › 离散型的相关系数是什么 › 统计学三大相关系数之皮尔森(pearson)相关系数 |
统计相关系数简介 统计学的相关系数经常使用的有三种:皮尔森(pearson)相关系数和斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数.皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解: (1)、当相关系数为0时,X和Y两变量无关系。 (2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。 (3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。 通常情况下通过以下取值范围判断变量的相关强度: 相关系数 0.8-1.0 极强相关 0.6-0.8 强相关 0.4-0.6 中等程度相关 0.2-0.4 弱相关 0.0-0.2 极弱相关或无相关 皮尔森(pearson)相关系数在这三大相关系数中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。今天暂时用不到,所以现在只做pearson的相关研究。 首先放上公式:
公式定义为: 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。 根据以上公式,python3实现代码: def pearson(vector1, vector2): n = len(vector1) #simple sums sum1 = sum(float(vector1[i]) for i in range(n)) sum2 = sum(float(vector2[i]) for i in range(n)) #sum up the squares sum1_pow = sum([pow(v, 2.0) for v in vector1]) sum2_pow = sum([pow(v, 2.0) for v in vector2]) #sum up the products p_sum = sum([vector1[i]*vector2[i] for i in range(n)]) #分子num,分母den num = p_sum - (sum1*sum2/n) den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n)) if den == 0: return 0.0 return num/den 现在,用两个向量测试一下:vector1 = [2,7,18,88,157,90,177,570] vector2 = [3,5,15,90,180, 88,160,580] 运行结果为0.998,可见这两组数是高度正相关的。
此外,从上面的公式我们知道,皮尔森相关性系数是协方差与标准差的比值,所以它对数据是有比较高的要求的: 第一, 实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。
参考:https://blog.csdn.net/AlexMerer/article/details/74908435 http://blog.sina.com.cn/s/blog_69e75efd0102wmd2.html |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |