详解相关性检验 | 您所在的位置:网站首页 › 如何验证两组数据之间是否相关关系 › 详解相关性检验 |
相关性检验 使用皮尔逊相关系数和斯皮尔曼相关系数来衡量两个变量间相关性的大小 ![]() ![]() ![]() ![]() ![]() 注意正态分布的偏度为0 峰度:表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。定义上偏度是样本的四阶标准化矩。 K = E [ ( X − μ σ ) 4 ] K=E[(\dfrac{X-\mu}{\sigma})^4] K=E[(σX−μ)4]![]() 注意正态分布的峰度为3 1. JB 检验(大样本n>30) step 1:进行假设检验 H 0 : H_0: H0:该变量服从正态分布, H 1 : H_1: H1:该变量不服从正态分布。step 2:假设对一个随机变量 X i X_i Xi ,其峰度为 K K K ,其偏度为 S S S,则构造检验统计量 J B = n 6 [ S 2 + ( K − 3 ) 2 4 ] ∼ χ 2 ( 2 ) JB=\dfrac{n}{6}[S^2+\dfrac{(K-3)^2}{4}]\sim \chi^2(2) JB=6n[S2+4(K−3)2]∼χ2(2)服从自由度为2的卡方分布。step 3: 代入数据计算出 J B ∗ JB^* JB∗,通过 J B ∗ JB^* JB∗计算出对应的 p p p 值。step 4:通过 p p p 值检验得出结论。(一般取 p p p 为 0.05 0.05 0.05 )。matlab中:[h,p]=jbtest(x,alpha), x x x 表示要检测的变量,只能取向量,alpha表示显著性水平,h=1表示拒绝原假设,h=0表示接受原假设,p表示返回的p值。 2. 夏皮洛-威尔克检验 step 1:进行假设检验 H 0 : H_0: H0:该变量服从正态分布, H 1 : H_1: H1:该变量不服从正态分布。step 2:使用SPSS计算出相应的 p p p 值。step 3:通过相应的 p p p 值进行判断。![]() ![]() ![]() ρ X Y = C o v ( X , Y ) σ x σ y \rho_{XY}=\dfrac{Cov(X,Y)}{\sigma_x\sigma_y} ρXY=σxσyCov(X,Y) 这里 σ x = ∑ i = 1 n ( X i − E ( X ) ) 2 n \sigma_x=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-E(X))^2}{n}} σx=ni=1∑n(Xi−E(X))2 与 σ y = ∑ i = 1 n ( Y i − E ( Y ) ) 2 n \sigma_y=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(Y_i-E(Y))^2}{n}} σy=ni=1∑n(Yi−E(Y))2 分别是 X X X总体与 Y Y Y总体的方差。 C o v ( X , Y ) = ∑ i = 1 n ( X i − E ( X ) ) ( Y i − E ( Y ) ) n Cov(X,Y)=\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-E(X))(Y_i-E(Y))}{n} Cov(X,Y)=ni=1∑n(Xi−E(X))(Yi−E(Y))为总体的协方差。 2.样本皮尔逊Person相关系数r X Y = C o v ( X , Y ) S x S y r_{XY}=\dfrac{Cov(X,Y)}{S_xS_y} rXY=SxSyCov(X,Y) 这里 S x = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 S_x=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-\overline{X})^2}{n-1}} Sx=n−1i=1∑n(Xi−X)2 与 S y = ∑ i = 1 n ( Y i − Y ‾ ) 2 n − 1 S_y=\sqrt{\dfrac{\displaystyle\sum_{i=1}^{n}(Y_i-\overline{Y})^2}{n-1}} Sy=n−1i=1∑n(Yi−Y)2 分别是 X X X样本与 Y Y Y样本的方差。 C o v ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) n − 1 Cov(X,Y)=\dfrac{\displaystyle\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{n-1} Cov(X,Y)=n−1i=1∑n(Xi−X)(Yi−Y)为样本的协方差。 3.使用皮尔逊Person相关系数的注意事项 先要判断变量是否大致满足线性关系,可以采用画散点图的方式。当两个变量本来就大致满足线性的关系时,皮尔逊相关系数的绝对值越大,两个变量的相关性越强,但是如果本来就不满足线性关系,就算皮尔逊系数很大也没有意义。![]() 上面的几个图的皮尔逊相关系数都为0.816,但是明显小样本对最终结果产生巨大的影响。 如果计算出皮尔逊系数为0,不代表两个变量之间不存在关系。比如下面的温度-冰糕之间必然存在相关性,但是不是线性关系。![]() ![]() ![]() ① ① ①使用matlab计算 corrcoef R=corrcoef(A):返回 A A A的相关系数矩阵,其中 A A A的列表示随机变量(指标,例如身高、体重等),行表示观测值(样本,例如每一个人的身高、体重等)。R=corrcoef(A,B):返回两个变量 A , B A,B A,B向量之间的相关系数。② ② ②使用Excel计算与美化相关系数表 在数据分析中选取相关系数的计算。使用色阶图进行美化![]() ⭐️目的是验证计算得出的皮尔逊相关系数是否与0有显著的差异。 step 1 提出原假设与备择假设, H 0 : r = 0 , H 1 : r ≠ 0 H_0:r=0,H_1:r\not=0 H0:r=0,H1:r=0。 step 2 构造检验统计量 r n − 2 1 − r 2 ∼ t ( n − 2 ) r\sqrt{\dfrac{n-2}{1-r^2}}\sim t(n-2) r1−r2n−2 ∼t(n−2)服从自由度为2的 t t t分布 step 3 计算出检验值(代入数据)得到 t ∗ t^* t∗。 step 4 使用 p p p 检验 计算 p p p 值 p = 2 × ( 1 − ∫ − ∞ t ∗ t ( x ) d x ) p=2\times(1-\int_{-\infty}^{t^*}t(x)dx) p=2×(1−∫−∞t∗t(x)dx)step 5 结果说明 p < 0.01 p |
CopyRight 2018-2019 实验室设备网 版权所有 |