第19章 相关性分析 您所在的位置:网站首页 关联性分析和相关性分析的区别 第19章 相关性分析

第19章 相关性分析

2024-07-17 12:29| 来源: 网络整理| 查看: 265

第19章 相关性分析 19.1 分类变量的相关性分析 19.1.1 概述

分类变量的相关性分析本质是分析实际观测值和理论推断值之间的偏离程度。在完成分类变量的相关性分析(独立性检验)后,对于有相关性的变量,我们还会对相关性的具体程度感兴趣,因此也会进行相关性的度量。具体的分析方法与列联表类型[小节18.1.3]有关:

列联表类型 独立性检验 相关性度量 独立样本四格表 卡方检验Fisher’s精确检验 Pearson列联系数\(\varphi\)系数 配对样本四格表 McNemar检验 单向有序列联表(分组有序) 卡方检验 Pearson列联系数Cramer’s V系数 单向有序列联表(结果有序) 秩和检验 Gamma系数Kendall’s tau-b相关系数Kendall’s tau-c相关系数 双向无序列联表 卡方检验Fisher’s精确检验 Pearson列联系数Cramer’s V系数 双向有序列联表(不同属性) Spearman相关分析Kendall’s \(\tau\)相关分析 Spearman秩相关系数Gamma系数Kendall’s tau-b相关系数Kendall’s tau-c相关系数 双向有序列联表(属性相同) McNemar-Bowker检验

卡方检验(\(\chi^2\) test)和Fisher’s精确检验(Fisher’s exact test)的选择与列联表类型[小节18.1.3]、样本总量和期望频数有关:

列联表类型 应用条件 检验方法 函数语法 四格表 样本总量≥40 且 期望频数≥5 Pearson卡方检验 chisq.test(correct=FALSE) 样本总量≥40 且 1≤期望频数<5 连续性校正的卡方检验 chisq.test(correct=TRUE)(默认参数) 样本总量<40 或 任意格子期望频数<1 Fisher’s精确检验 fisher.test() RC列联表 期望频数<5的格子不超过总格子数的\(\frac{1}{5}\) 且 所有格子的期望频数≥1 Pearson卡方检验 chisq.test(correct=FALSE) 期望频数<5的格子超过总格子数的\(\frac{1}{5}\) 或 任意格子的期望频数<1 Fisher’s精确检验 fisher.test()

有时两个分类变量的关联可能受到第三个变量的影响,因此当我们在分析两个分类变量的相关性时,有时需要控制其它的分类变量,这时需要用Cochran-Mantel-Haenszel检验(CMH检验)。

19.1.2 卡方检验

卡方检验的通用公式为: \[ \chi^2 = \sum \frac{|观察频数 - 期望频数|^2}{期望频数} \]

四格表卡方值的快速计算公式(即拟合度公式)为: \[ \chi^2 = \frac{n(ad - bc)^2}{(a + b)(c + d)(a + c)(b + d)} \] 其中,n = a + b + c + d

卡方值(\(\chi^2\))越大,代表实际观测值和理论推断值的偏离程度越大;反之亦然。当两者完全相等时,卡方值为0。

卡方检验可以用来进行:

拟合优度检验:即检验一组给定数据与指定分布的拟合程度。比如,我们想要知道数据的分布是否符合某种分布类型;特定人群对若干种干预方案的喜好是否有差异。 独立性检验:即同一个样本中的两个分类变量之间是否具有相关性。 19.1.2.1 拟合优度检验

例 假设我们收集了90名老年人对A、B、C三种运动干预方案的选择,我们想知道老年人对这三种干预方案的选择是否有差异。这时可以使用chisq.test()函数来实现。

# 创建数据框 preference_df


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有