详解相关性检验

2024-01-08 20:56| 来源: 网络整理| 查看: 265

相关性检验使用皮尔逊相关系数和斯皮尔曼相关系数来衡量两个变量间相关性的大小

文章目录 (1)描述性统计1.使用Matlab进行计算2.使用Excel计算3.使用Spss计算 (2)正态分布的检验0.偏度与峰度1. JB 检验(大样本n>30)2. 夏皮洛-威尔克检验 (3)皮尔逊相关系数1.总体皮尔逊Person相关系数2.样本皮尔逊Person相关系数3.使用皮尔逊Person相关系数的注意事项4.使用matlab计算person系数 (3)对皮尔逊相关系数进行假设检验1.可以进行假设检验的前提2.进行正态分布检验3.流程 (4)斯皮尔曼(sperman)相关系数1. 斯皮尔曼相关系数的第一种定义2. 斯皮尔曼相关系数的第二种定义3.使用matlab计算斯皮尔曼相关系数 (5)斯皮尔曼相关系数的假设检验1.小样本情况下 ( n ≤ 30 ) (n\le30) (n≤30)2.大样本情况下 ( n ≥ 30 ) (n\ge30) (n≥30) (6)person与spearman对比

(1)描述性统计所谓描述性统计，就是对已有的数据的多个特征(最小元素，最大元素，均值，中位数等)进行计算。 1.使用Matlab进行计算 min求最小值max求最大值mean求平均值median求中位数的值skewness求偏度kurtosis求峰度std求标准差 2.使用Excel计算

3.使用Spss计算

(2)正态分布的检验 0.偏度与峰度偏度：是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。 S = E [ ( X − μ σ ) 3 ] S=E[(\dfrac{X-\mu}{\sigma})^3] S=E[(σX−μ)3]

注意正态分布的偏度为0

峰度：表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。定义上偏度是样本的四阶标准化矩。 K = E [ ( X − μ σ ) 4 ] K=E[(\dfrac{X-\mu}{\sigma})^4] K=E[(σX−μ)4]

注意正态分布的峰度为3

1. JB 检验(大样本n>30) step 1：进行假设检验 H 0 : H_0: H0:该变量服从正态分布， H 1 : H_1: H1:该变量不服从正态分布。step 2：假设对一个随机变量 X i X_i Xi ，其峰度为 K K K ，其偏度为 S S S，则构造检验统计量 J B = n 6 [ S 2 + ( K − 3 ) 2 4 ] ∼ χ 2 ( 2 ) JB=\dfrac{n}{6}[S^2+\dfrac{(K-3)^2}{4}]\sim \chi^2(2) JB=6n[S2+4(K−3)2]∼χ2(2)服从自由度为2的卡方分布。step 3：代入数据计算出 J B ∗ JB^* JB∗，通过 J B ∗ JB^* JB∗计算出对应的 p p p 值。step 4：通过 p p p 值检验得出结论。(一般取 p p p 为 0.05 0.05 0.05 )。matlab中：[h,p]=jbtest(x,alpha), x x x 表示要检测的变量，只能取向量，alpha表示显著性水平，h=1表示拒绝原假设，h=0表示接受原假设，p表示返回的p值。 2. 夏皮洛-威尔克检验 step 1：进行假设检验 H 0 : H_0: H0:该变量服从正态分布， H 1 : H_1: H1:该变量不服从正态分布。step 2：使用SPSS计算出相应的 p p p 值。step 3：通过相应的 p p p 值进行判断。

(3)皮尔逊相关系数 1.总体皮尔逊Person相关系数

ρ X Y = C o v ( X , Y ) σ x σ y \rho_{XY}=\dfrac{Cov(X,Y)}{\sigma_x\sigma_y} ρXY=σxσyCov(X,Y) 这里 σ x = ∑ i = 1 n ( X i − E ( X ) ) 2 n \sigma_x=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-E(X))^2}{n}} σx=ni=1∑n(Xi−E(X))2 与 σ y = ∑ i = 1 n ( Y i − E ( Y ) ) 2 n \sigma_y=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(Y_i-E(Y))^2}{n}} σy=ni=1∑n(Yi−E(Y))2 分别是 X X X总体与 Y Y Y总体的方差。 C o v ( X , Y ) = ∑ i = 1 n ( X i − E ( X ) ) ( Y i − E ( Y ) ) n Cov(X,Y)=\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-E(X))(Y_i-E(Y))}{n} Cov(X,Y)=ni=1∑n(Xi−E(X))(Yi−E(Y))为总体的协方差。

2.样本皮尔逊Person相关系数

r X Y = C o v ( X , Y ) S x S y r_{XY}=\dfrac{Cov(X,Y)}{S_xS_y} rXY=SxSyCov(X,Y) 这里 S x = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 S_x=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-\overline{X})^2}{n-1}} Sx=n−1i=1∑n(Xi−X)2 与 S y = ∑ i = 1 n ( Y i − Y ‾ ) 2 n − 1 S_y=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(Y_i-\overline{Y})^2}{n-1}} Sy=n−1i=1∑n(Yi−Y)2 分别是 X X X样本与 Y Y Y样本的方差。 C o v ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) n − 1 Cov(X,Y)=\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{n-1} Cov(X,Y)=n−1i=1∑n(Xi−X)(Yi−Y)为样本的协方差。

3.使用皮尔逊Person相关系数的注意事项先要判断变量是否大致满足线性关系，可以采用画散点图的方式。当两个变量本来就大致满足线性的关系时，皮尔逊相关系数的绝对值越大，两个变量的相关性越强，但是如果本来就不满足线性关系，就算皮尔逊系数很大也没有意义。

上面的几个图的皮尔逊相关系数都为0.816，但是明显小样本对最终结果产生巨大的影响。

如果计算出皮尔逊系数为0，不代表两个变量之间不存在关系。比如下面的温度-冰糕之间必然存在相关性，但是不是线性关系。

可以使用 SPSS 作出散点图先判断是否具有一定的线性关系。

4.使用matlab计算person系数

① ① ①使用matlab计算 corrcoef

R=corrcoef(A)：返回 A A A的相关系数矩阵，其中 A A A的列表示随机变量(指标，例如身高、体重等),行表示观测值(样本，例如每一个人的身高、体重等)。R=corrcoef(A,B)：返回两个变量 A ， B A，B A，B向量之间的相关系数。

② ② ②使用Excel计算与美化相关系数表

在数据分析中选取相关系数的计算。使用色阶图进行美化

(3)对皮尔逊相关系数进行假设检验 1.可以进行假设检验的前提实验数据通常假设是成对的来自于正态分布的总体。(一般情况下很难满足)。实验数据之间的差距不能太大，异常值对检验结果影响很大。每个样本之间是独立抽样的。 2.进行正态分布检验 3.流程

⭐️目的是验证计算得出的皮尔逊相关系数是否与0有显著的差异。

step 1 提出原假设与备择假设, H 0 : r = 0 , H 1 : r ≠ 0 H_0:r=0,H_1:r\not=0 H0:r=0,H1:r=0。

step 2 构造检验统计量 r n − 2 1 − r 2 ∼ t ( n − 2 ) r\sqrt{\dfrac{n-2}{1-r^2}}\sim t(n-2) r1−r2n−2 ∼t(n−2)服从自由度为2的 t t t分布

step 3 计算出检验值(代入数据)得到 t ∗ t^* t∗。

step 4 使用 p p p 检验

计算 p p p 值 p = 2 × ( 1 − ∫ − ∞ t ∗ t ( x ) d x ) p=2\times(1-\int_{-\infty}^{t^*}t(x)dx) p=2×(1−∫−∞t∗t(x)dx)

step 5 结果说明

p < 0.01 p

【本文地址】

公司简介

联系我们