数据分析统计学原理第七章:抽样和抽样分布

您所在的位置:网站首页 总体样本统计量之间的关系 数据分析统计学原理第七章:抽样和抽样分布

数据分析统计学原理第七章:抽样和抽样分布

2024-07-11 20:32:30| 来源: 网络整理| 查看: 265

我们选取样本是为了收集推断所需的数据,并且回答关于总体的研究问题。 抽样结果提供的仅仅是相应总体特征值的估计。 样本只包含了总体的一部分,可以预见会有抽样误差。

抽样总体( sampled population):从中抽取样本的总体 抽样框( frame):用于抽选样本的个体清单

从有限总体的抽样 在从有限总体抽样时,统计学家建议采用概率抽样,因为基于概率抽样的样本可以对总体进行有效的统计推断。若每个容量为n的样本以相同的概率被抽到,则称其为简单随机样本。

简单随机样本(有限总体): 从容量为N的有限总体中抽取一个容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本。

自有限总体选择简单随机样本的一种抽样流程是,使用随机数表每次只选择一个样本点,总体中的每一个体等可能被抽到。用这种方法抽得的n个个体满足自有限总体的简单随机样本的定义。

选取简单随机样本时,在30名管理人员被选出之前,表中先前已经出现过的随机数可能重复出现。由于该管理人员已经被选入样本了,我们并不想将一个管理人员多次选入,所以忽略已出现过的随机数。这种选取样本的方式叫作无放回抽样( sampling without replacement)。如果我们选取样本时,对已经出现过的随机数仍选入样本,某些管理人员可能在样本中被两次或更多次地包括进来,则我们进行的是有放回抽样( sampling with replacement)。抽样中,有放回抽样是一种取得简单随机样本的有效途径,然而,无放回抽样更为常用。当我们提到简单随机抽样时,我们总是假定抽样是无放回的。

从无限总体的抽样 当从无限总体中抽取一个随机样本时,必须小心仔细判断。不同情形可能需要采取不同的抽取方法。我们通过两个例子来说明条件1“抽取的每个个体来自同一总体”和条件2“每个个体的抽取是独立的”的含义。在普通的质量控制的应用中,生产过程中所生产的产品数量是无限的。抽样总体由正在运行的生产过程中生产的全部产品,而不仅仅那些已经生产的产品组成。因为我们不可能列出生产的全部产品的清单,所以认为总体是无限的。 更具体地,比如设计一条生产线用于盒装早餐麦片,早餐麦片的平均重量为每盒24盎司。为判断生产线是正常运行还是由于机器故障使得生产线的填充量过多或者不足,一位质量控制检验员定期从生产线上抽取12盒产品组成一个样本。 在这样一个生产操作中,选取一个随机样本时最关心的是条件1“抽取的每个个体来自同一总体”是否成立。 为了确保这一条件成立,必须在近似相同的时点选择产品。这样才能避免检验员抽取的某些产品是在生产线正常运行时生产的,而另一些产品是在生产线非正常运行时生产的,从而使得每盒的填充量过多或者不足。在诸如这样的生产过程中,设计的生产流程应确保每盒麦片的装盒是相互独立的,从而满足条件2,即“每个个体的抽取是独立的”.在这个假定下,检验员只需关注条件“每个个体来自同一总体”是否成立即可。 从无限总体抽取随机样本的另一个例子是,考虑由到达快餐店的顾客组成的总体。假定快餐店要求一名雇员选取顾客样本,完成一个简短的调查问卷。顾客光临快餐店是一个正在进行中的过程,因此不能得到总体中所有顾客的一个名单。于是,出于应用的目的,可以将这个正在进行过程中的总体看作无限的。如果设计一种抽样方法,使得样本中的所有个体都是餐厅的顾客并且是独立选择的,那么可以得到一个随机样本。这时,雇员应该在那些进入餐馆并就餐的人中选取,以保证满足“个体来自同一总体”的条件。如果雇员选取了那些只是为了使用洗手间而进入餐馆的人组成样本,这些人并不是顾客,违背了“同一总体”的条件。因此,如果雇员是从那些来餐馆消费的人中选取样本的话,那么条件1可以被满足。尤为困难的是,确保独立地选取顾客。 随机样本选择方法中的第二个条件“每个个体的抽取是独立的”是为了防止选择偏差。当雇员可以任意自由地选取顾客进入样本时,就可能发生选择偏差。此时,雇员可能更愿意选择抽取某一特定年龄段的顾客进入样,而避免从其他年龄段的顾客中抽取。再比如,五名顾客一同前来就餐,如果雇员将他们一同选入样本,也会发生选择偏差。这样的一组顾客更易于表现出相似的特征,他们所给出的关于顾客总体的信息可能具有误导性。通过确保某顾客的入选并不影响其他顾客的入选,则可以避免这类选择偏差。换言之,个体(顾客)的选取是独立的。 快餐店的巨头麦当劳恰好在这种情况下实施了一次随机抽样。抽样方法以一些顾客是否持有优惠券为依据,每当一名顾客出示优惠券时,将选取下一名接受服务的顾客填写一张顾客问卷调查表。因为来到麦当劳的顾客出示优惠券是随机的,并且与其他顾客是相互独立的,因此这种抽样方式确保对顾客的选取是独立的。于是,样本满足从无限总体抽取随机样本的要求。 从无限总体抽样的情况总是与某段时间正在不断运行的过程相联系。例如,生产线上生产的零部件、实验室中反复进行的实验、银行发生的交易、技术支持中心接到的电话以及进入零售店的顾客,它们都可以看作一个从无限总体产生个体的过程。如果样本中的个体选自同一个总体,并且是独立选取的,那么样本就可以看作一个来自无限总体的随机样本。

点估计 在这里插入图片描述

抽样分布(sample distribution) 在这里插入图片描述在这里插入图片描述在这里插入图片描述

样本均值的抽样分布 在这里插入图片描述

样本均值的数学期望 在这里插入图片描述

当点估计量的期望值等于总体参数时,我们称这个点估计量是无偏的( unbiased)。

样本均值的标准差 在这里插入图片描述

其中 在这里插入图片描述

有限总体修正系数 在这里插入图片描述

总体是有限的,但样本容量不大于总体容量的5%,即n/N≤0.05时可以使用无限总体的标准差公式

样本均值的抽样分布形式 总体服从正态分布,在许多情况下,有理由假设我们抽取随机样本的总体服从正态分布或近似服从正态分布。当总体服从正态分布时,在任何样本容量下样本均值的抽样分布都是正态分布。 总体不服从正态分布,当我们抽取随机样本的总体不服从正态分布时,中心极限定理( central limit theorem)能帮助我们确定样本均值的抽样分布的形状。

中心极限定理 从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值x的抽样分布近似服从正态分布。 在这里插入图片描述

当抽取一个简单随机样本,用样本均值的值估计总体均值时,我们不能希望样本均值恰好与总体均值相等。我们对样本均值的抽样分布感兴趣的实际原因是,它可以用来提供样本均值x的值和总体均值的值之间差异的概率信息。

比如:得到的样本均值在总体均值附近±500以内的概率有多大?

样本容量与样本均值的抽样分布的关系 样本容量指每一次抽样抽取个体的数量 在这里插入图片描述

随着样本容量的增加,均值的标准误差在减少。结果,样本容量越大,样本均值落在总体均值附近某一特定范围内的概率也越大。

样本比率的抽样分布 样本比率是总体比率p的点估计 在这里插入图片描述在这里插入图片描述 样本比率的数学期望 在这里插入图片描述

样本比率的标准差 在这里插入图片描述

有限总体使用了有限总体修正系数

与样本均值的情形一样,若有限总体的总体容量相对于样本容量足够大,有限总体与无限总体在表达式上的不同可以忽略不计。我们遵循与样本均值的标准差相同的经验法则,即如果总体是有限的并且n/N≤0.05。

样本比率的抽样分布的形态

对于一个来自容量很大的总体的简单随机样本而言,样本中具有被关注特征的个体数目x是一个服从二项分布的随机变量。由于n是一个常数,因此x/n的概率等于x的二项概率。这就意味着p的抽样分布也是一个离散型概率分布,并且x/n取每个值的概率等于x的概率。 但二项分布满足条件 在这里插入图片描述

时,可以用正态分布近似

在实际应用中,当对总体比率进行估计时,我们发现样本容量几乎总是足够大,从而允许对样本比率的抽样分布进行正态近似。 在这里插入图片描述

样本比率的抽样分布的应用价值在于,它可以对样本比率与总体比率的差异程度提供概率信息。

比如:样本比率在管理人员参加培训计划的总体比率p附近±0.05以内的概率。

点估计的性质

统计学家需要检查该样本统计量是否具有好的点估计量应具备的性质。一个好的点估计量应该具有的三条性质:无偏性、有效性和一致性。

无偏性 在这里插入图片描述

有效性 假定一个简单随机样本由n个个体组成,给出了总体同一参数的两个不同的无偏点估计量。这时,我们倾向于采用标准误差较小的点估计量,因为它给出的估计值与总体参数更接近。称有较小标准误差的点估计量比其他点估计量更相对有效( relative efficiency)。 在这里插入图片描述

一致性 粗略地讲,如果随着样本容量的增大,点估计量的值与总体参数越来越接近,则称该点估计量是一致的。换言之,大样本情形比小样本情形更易于得到一个好的点估计。

分层随机抽样 在分层随机抽样( stratified random sampling)中,总体中的个体首先被分成称作层的组,总体中的每一个体属于且仅属于某层。由抽样设计者自行进行层的划分,比如按照部门、位置、年龄、产业类型等进行划分。当每一层内的个体都尽可能地相似时,得到的结果最佳。 分层以后,从每一层抽一个简单随机样本。将每层的样本的结果合并起来,利用公式对感兴趣的总体参数进行估计。分层随机抽样的值依赖于层内个体的同质性。如果层内的个体是同质的,该层有较低的方差,那么在相对小的样本容量下便可获得层特征的一个好的估计。如果各层是同质的,那么分层随机抽样方法能在较小的样本容量下得到与简单随机抽样同样精确的结果。

整群抽样 在整群抽样( cluster sampling)中,总体中的个体首先被分成称作群的单个组,总体中的每一个个体属于且仅属于某一群。以群为单位抽取一个简单随机样本抽出的群的所有个体组成一个样本。当群中的个体不同质时,整群抽样得到的效果最佳。在理想的状态下,每一群是整个总体小范围内的代表。整群抽样的值依赖于每一群对整个总体的代表生。如果所有的群在这个意义上是同质的,则抽取小量的群就可以得到关于总体参数的好的估计。 整群抽样的基本应用之一是区域抽样,其中群为街区或以其他方式定义的区域。整群抽样通常比简单随机抽样或分层随机抽样所需样本容量要大。然而,事实上当派一个采访员去一个样本群(如城市路口)时,该方法可以在相对短的时间内获得许多样本观察值,从而节约费用。因此,该方法可以在更低的总成本下获得更大量的样本。

系统抽样 在某些抽样情况下,特别是对那些容量很大的总体,如果采取先找到一个随机数再计数,或在总体个体的清单中查找相应的个体来选取一个简单随机样本的话,是非常费时的。简单随机抽样的另一种替代方法为系统抽样( systematic sampling)。例如,如果希望从含5000个个体的总体中选取样本容量为50的样本,我们从总体每5000/50=100个个体中选出一个为样本点。在系统抽样情形下,即为在总体清单的前100个个体中随机选取个,然后从第一个已选出的个体开始,依次向下,在总体清单中每隔100个个体选取一个为样本点。实际上,从第一个选取的个体开始向后每隔100个个体选取一个作为样本点,便通过机械地在总体中移动得到50个样本点。通常,采用这种方法比用简单随机抽样方法来选取50个样本点要容易些。由于第一个被选中的个体是随机的,通常假定系统抽样具有简单随机抽样的性质。当总体中个体的排列是按照个体的随机顺序排列时,这一假设尤其适用。

方便抽样 方便抽样( convenience sampling)是一种非概率抽样方法。顾名思义,样本的确定主要是基于简便。样本中所包括的个体不是事先确定或按照已知概率选取的。例如,一名教授在某所大学做一项调查,由于学生中的志愿者已准备好并且参加该项调查无须或几乎不需要成本。然而,从其对总体的代表性来讲,它不能用于估计样本的“拟合性”。一个方便样本可能得到好的结论,也可能不能。

判断抽样 另一种非概率抽样方法为判断抽样( judgment sampling).在这种抽样方法中,由对研究总体非常了解的人主观确定选择总体中他认为最具代表性的个体组成样本。通常,这种方法在选取样本时相对容易。例如,报告者可抽样两个或三个议员,认为这些议员的想法反映了全体议员的普遍意见。然而,抽样结果的质量依赖于选择样本的人的判断。同样,基于判断抽样对总体进行推断时,下结论的时候要特别小心。



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭