独立性检验的基本思想和初步应用

2024-07-16 23:36| 来源: 网络整理| 查看: 265

单样本非参数检验是对单个总体的分布形态等进行推断的方法，其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。总体分布的卡方检验例如，医学家在研究心脏病人猝死人数与日期的关系时发现：一周之中，星期一心脏病人猝死者较多，其他日子则基本相当。当天的比例近似为2.8：1：1：1：1：1：1。现收集到心脏病人死亡日期的样本数据，推断其总体分布是否与上述理论分布相吻合。卡方检验方法可以根据样本数据，推断总体分布与期望分布或某一理论分布是否存在显著差异，是一种吻合性检验，通常适于对有多项分类值的总体分布的分析。它的原假设是：样本来自的总体分布与期望分布或某一理论分布无差异。二项分布检验在生活中有很多数据的取值是二值的，例如，人群可以分成男性和女性，产品可以分成合格和不合格，学生可以分成三好学生和非三好学生，投掷硬币实验的结果可以分成出现正面和出现反面等。通常将这样的二值分别用1或0表示。如果进行n次相同的实验，则出现两类（1或0）的次数可以用离散型随机变量X来描述。如果随机变量X为1的概率设为P，则随机变量X值为0的概率Q便等于1-P，形成二项分布。 SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布，其原假设是：样本来自的总体与指定的二项分布无显著差异。从某产品中随机抽取23个样品进行检测并得到检测结果。用1表示一级品，用0表示非一级品。根据抽样结果验证该批产品的一级品率是否为90%。单样本K-S检验 K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优度的检验方法，适用于探索连续型随机变量的分布。例如，收集一批周岁儿童身高的数据，需利用样本数据推断周岁儿童总体的身高是否服从正态分布。再例如，利用收集的住房状况调查的样本数据，分析家庭人均住房面积是否服从正态分布。单样本K-S检验的原假设是：样本来自的总体与指定的理论分布无显著差异，SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。

两独立样本的非参数检验两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。 SPSS中提供了多种两独立样本的非参数检验方法，其中包括曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。某工厂用甲乙两种不同的工艺生产同一种产品。如果希望检验两种工艺下产品的使用是否存在显著差异，可从两种工艺生产出的产品中随机抽样，得到各自的使用寿命数据。甲工艺：675 682 692 679 669 661 693 乙工艺：662 649 672 663 650 651 646 652

曼-惠特尼U检验两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。其原假设：两组独立样本来自的两总体分布无显著差异。曼-惠特尼U检验通过对两组样本平均秩的研究来实现判断。秩简单说就是变量值排序的名次，可以将数据按升序排列，每个变量值都会有一个在整个变量值序列中的位置或名次，这个位置或名次就是变量值的秩。K-S检验 K-S检验不仅能够检验单个总体是否服从某一理论分布，还能够检验两总体分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。这里是以变量值的秩作为分析对象，而非变量值本身。游程检验单样本游程检验是用来检验变量值的出现是否随机，而两独立变量的游程检验则是用来检验两独立样本来自的两总体的分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。两独立样本的游程检验与单样本游程检验的思想基本相同，不同的是计算游程数的方法。两独立样本的游程检验中，游程数依赖于变量的秩。极端反应检验极端反应检验从另一个角度检验两独立样本所来自的两总体分布是否存在显著差异。其原假设是：两独立样本来自的两总体的分布无显著差异。基本思想是：将一组样本作为控制样本，另一组样本作为实验样本。以控制样本作为对照，检验实验样本相对于控制样本是否出现了极端反应。如果实验样本没有出现极端反应，则认为两总体分布无显著差异，相反则认为存在显著差异。多独立样本的非参数检验多独立样本的非参数检验是通过分析多组独立样本数据，推断样本来自的多个总体的中位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。 SPSS提供的多独立样本非参数检验的方法主要包括中位数检验、Kruskal-Wallis检验、- Jonckheere-Terpstra检验。例：希望对北京、上海、成都、广州四个城市的周岁儿童的身高进行比较分析。采用独立抽样方式获得四组独立样本。中位数检验中位数检验通过对多组独立样本的分析，检验它们来自的总体的中位数是否存在显著差异。其原假设是：多个独立样本来自的多个总体的中位数无显著差异。基本思想是：如果多个总体的中位数无显著差异，或者说多个总体有共同的中位数，那么这个共同的中位数应在各样本组中均处在中间位置上。于是，每组样本中大于该中位数或小于该中位数的样本数目应大致相同。Kruskal-Wallis检验 Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广，也用于检验多个总体的分布是否存在显著差异。其原假设是：多个独立样本来自的多个总体的分布无显著差异。基本思想是：首先，将多组样本数据混合并按升序排序，求出各变量值的秩；然后，考察各组秩的均值是否存在显著差异。容易理解：如果各组秩的均值不存在显著差异，则是多组数据充分混合，数值相差不大的结果，可以认为多个总体的分布无显著差异；反之，如果各组秩的均值存在显著差异，则是多组数据无法混合，某些组的数值普遍偏大，另一些组的数值普遍偏小的结果，可以认为多个总体的分布有显著差异。Jonckheere-Terpstra检验 Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法，其原假设是：多个独立样本来自的多个总体的分布无显著差异。基本思想与两独立样本的曼-惠特尼U检验类似，也是计算一组样本的观察值小于其他组样本的观察值的个数Kendall协同系数检验它也是一种对多配对样本进行检验的非参数检验方法，与第一种检验方法向结合，可方便地实现对评判者的评判标准是否一致的分析。其原假设是：评判者的评判标准不一致。有6名歌手参加比赛，4名评委进行评判打分，现在需要根据数据推断这4个评委的评判标准是否一致。（见下页具体分析）如果将每个被评判者对象的分数看做来自多个总体的配对样本，那么该问题就能够转化为多配对样本的非参数检验问题，仍可采用Friedman检验，于是相应的原假设便转化为：多个配对样本来自的多个总体的分布无显著差异。但对该问题的分析是需要继续延伸的，并非站在对6名歌手的演唱水平是否存在显著差异的角度进行分析，而是在认定他们存在差异的前提下继续判断4个评委的打分标准是否一致。如果利用Friedman检验出各总体的分布不存在显著差异，即各个歌手的秩不存在显著差异，则意味着评委的打分存在随意性，评分标准不一致。原因在于：如果各个评委的评判标准是一致的，那么对于某个歌手来说将获得一致的分数，也就是说，评委给出的若干个评分的秩应完全相同，这就必然会导致各歌手评分的秩有较大的差异。[1]

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章