卡方分布分析与应用

2024-07-09 12:40| 来源: 网络整理| 查看: 265

卡方检验(chi-square，记为 χ2 检验)是统计学中常用来计数数据分析的方法，对于总体的分布不作任何假设，因此它属于非参数检验法中的一种。本博文从理论到实际应用去阐述卡方检验，最后用python语言去实现卡方分布的代码。

1. 卡方分布

卡方检验是基于卡方分布（(chi-square distribution, χ2 -distribution)的一种假设检验方法，理论证明，实际观察次数（ fo ）与理论次数（ fe ），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布。所以首先得说明什么是 χ2 分布。

若k个独立的随机变量 Z1,Z2,⋯,Zk ，且符合标准正态分布N(0,1)，则这k个随机变量的平方和

X=∑1kZ2i

为服从自由度为k的卡方分布，记为： X~ χ2(k) .也可以记为： X∼ χ2k

卡方分布的期望与方差分别为： E( χ2 )=n，D( χ2 )=2n，其中n为卡方分布的自由度,一般为样本类别数-1，也就是 n=k−1 。

2. 卡方检验

χ2 检验的基本思想是根据样本数据推断总体的频次与期望频次是否有显著性差异， χ2 的计算公式为：

χ2=(fo−fe)2fe 其中， fo 为实际观察频次， fe 为理论值。

这是卡方检验的原始公式，其中当fe越大,近似效果越好。显然fo与fe相差越大，卡方值就越大；fo与fe相差越小，卡方值就越小；因此它能够用来表示fo与fe相差的程度。根据这个公式，可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。

一般用卡方检验方法进行统计检验时，要求样本容量不宜太小，理论次数≥5，否则需要进行校正。如果个别单元格的理论次数小于5，处理方法有以下四种： - a、单元格合并法； - b、增加样本数； - c、去除样本法； - d、使用校正公式。当某一期望次数小于5时，应该利用校正公式计算卡方值。校正公式为：

χ2=∑(|fo−fe|−0.5)2fe

3. 应用实例 3.1 独立性检验

独立性检验主要用于两个或两个以上因素多项分类的计数资料分析，也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立，说明对于其中一个变量而言，另一变量多项分类次数上的变化是在无差范围之内；如果两变量有关联即不独立，说明二者之间有交互作用存在。

独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表，是用于提供基本调查结果的最常用形式，可以清楚地表示定类变量之间是否相互关联。又可具体分为：

（1）四格表的独立性检验：又称为2*2列联表的卡方检验。四格表资料的独立性检验用于进行两个率或两个构成比的比较，是列联表的一种最简单的形式。

a) 专用公式：若四格表资料四个格子的频数分别为a，b，c，d，则四格表资料卡方检验的卡方值=n*(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)，自由度v=（行数-1）*（列数-1）

b) 应用条件：要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正，即公式 χ2=∑(|fo−fe|−0.5)2fe ，当样本含量小于40时只能用确切概率法计算概率。

（2）行x列表资料的独立性检验：又称为RxC列联表的卡方检验。行x列表资料的独立性检验用于多个率或多个构成比的比较。

a) 专用公式： r行c列表资料卡方检验的卡方值=n*[ (A11/n1n1+A12/n1n2+...+Arc/nrnc)−1 ]

b) 应用条件：要求每个格子中的理论频数T均大于5或 1

【本文地址】

公司简介

联系我们