相关性模型 之 皮尔逊相关系数与斯皮尔曼相关系数 | 您所在的位置:网站首页 › 偏相关系数与简单相关系数 › 相关性模型 之 皮尔逊相关系数与斯皮尔曼相关系数 |
皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。 一、基本概念总体——所要考察对象的全部个体叫做总体. 我们总是希望得到总体数据的一些特征(例如均值方差等) 样本——从总体中所抽取的一部分个体叫做总体的一个样本 计算这些抽取的样本的统计量来估计总体的统计量: 例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度) 假设检验:参阅《概率论与数理统计》第八章 二、皮尔逊Pearson相关系数就是概率论学的相关系数。一般我们认为不加前缀说明的相关系数都是皮尔逊相关系数 首先我们要理解协方差 注:协方差的大小和两个变量的量纲有关,因此不适合做比较。 所以我们引入皮尔逊相关系数剔除了量纲的影响,即将X和Y标准化后的协方差 (1)总体皮尔逊相关系数 以上的相关系数只是用来来衡量两个变量线性相关程度的指标;即我们必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何(先画散点图) eg.形式上必须大致满足 Y = a*X+b 例如下面几个错误示例
所以,比起相关系数的大小,我们往往更关注的是显著性。(假设检验) 用绘制散点图观察是否为线性(SPSS更为方便)对数据进行描述性统计(每个指标的最小值、最大值、均值、中位数值、偏度、峰度、标准差等)计算相关系数矩阵(corrcoef)。可以对其进行数据可视化处理(Excel)对皮尔逊相关系数进行假设检验: (1)查表法![]() ![]() ![]() ![]() 注: 在数理统计中,第二步的原假设和备择假设中的𝑟应该改为𝜌, 其中𝜌为未知的总体相关系数,实际上我们关心的是总体的统计特征。(意思喃大概就是这么个意思,深究我就看不懂了) t分布表:https://wenku.baidu.com/view /d94dbd116bd97f192279e94a.html (2)p值判断法 这种方法要简单一点 一般我们默认的置信水平是95%(即显著性水平是5%) 计算各列之间的相关系数以及p值matlab代码 [R,P] = corrcoef(Test) %R返回的是相关系数表,P返回的是对应于每个相关系数的p值 皮尔逊相关系数假设检验的条件第一、 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假设的。 第二、实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大。 第三、每组样本之间是独立抽样的。构造 t 统计量时需要用到 检验样本是否符合正态分布 (1)JB检验(雅克‐贝拉检验) :大样本 n>30 matlab在的JB检验函数 [h,p] = jbtest(x,alpha) %当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。 %alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95 %x就是我们要检验的随机变量,注意这里的x只能是向量。(2)Shapiro-wilk检验(夏皮洛‐威尔克检验):小样本: 3 < n < 50 (3)Q-Q图 在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。 首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。 这里,我们选择正态分布和要检验的随机变量,并对其做出QQ图,可想而知,如果要检验的随机变量是正态分布,那么QQ图就是一条直线。要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大!!!) qqplot(Test(:,1)) 三、斯皮尔曼相关系数
metlab斯皮尔曼相关系数的句法: (1)corr(X , Y , 'type' , 'Spearman') %这里的X和Y必须是列向量 (2)corr(X , 'type' , 'Spearman') %这时计算X矩阵各列之间的斯皮尔曼相关系数 %matlab用的是第二种定义 斯皮尔曼相关系数的假设检验(1)小样本(𝒏 < 𝟑𝟎) :直接查临界值表 临界值表 (2)大样本情况(n > 30): P 值法 皮尔逊相关系数: 斯皮尔曼相关系数和皮尔逊相关系数选择: 1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。 2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。 3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。 注:(1)定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。 eg. 优良差用123表示,加减乘除没有意义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序 (2)斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用 另:对数据的可视化(相关系数矩阵) |
CopyRight 2018-2019 实验室设备网 版权所有 |