三大抽样分布与检验:卡方分布,t分布和F分布及其相关检验 |
您所在的位置:网站首页 › 单边检验和双边检验分别适用于什么情况 › 三大抽样分布与检验:卡方分布,t分布和F分布及其相关检验 |
1、基石:大数定律和中心极限定律 大数定理。不管是强大数定理还是弱大数定理,都表达着这样一个意思:当样本数量足够大时,这些样本的均值无限接近总体的期望。 中心极限定理。不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。中心极限定理的表达方式可以有多种,我这里只是其中一种。 2、什么是卡方分布、t分布和F分布有很多统计推断是基于正态分布的假设,以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有显式表达式,它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布,t分布和F分布。 为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)。 2.1 卡方分布 卡方分布:n个服从N(0,1)的随机变量Yi,X = Σ(Yi^2),则X服从卡方分布大量抽样的平方和服从卡方分布 2.2 t分布 t分布:实际工作中,往往总体方差未知,常用样本方差s作为总体方差的估计值,为了与u变换区别,称为t变换对一个样本大量抽样,另外一个样本知道它服从正态分布,假设它们两个相互独立 2.3 F分布 F分布对两个相互独立的样本分开大量抽样,看它们的卡方分布的比值 2.4 伽马函数伽马函数在三个抽样分布的表达式中都有出现,那么伽马函数是干什么的呢,可以先从泊松分布理解起: 2.4.1 泊松分布与伽马函数 因此Possion公式的直观意义就是: 已知单位时间内平均出生λ \lambdaλ个婴儿, 得到单位时间内出生k个婴儿的概率。 如果将k看成是一个变量, Possion公式就是单位时间内出生婴儿个数的概率分布。 直观理解,当然是单位时间出生λ \lambdaλ个婴儿的概率最大。 ———————————————— 在Poisson分布中,λ是一个已知数,是一个常数, 如果我们把λ看成一个变数,假设是x 那么得到的分布就叫Gamma分布,显然Gamma比Poisson更高一维的分布。 ———————————————— 由此可见,Gamma函数是一个关于x和k的二维概率分布。x是单位时间内事件发生的平均次数,k是单位时间内事件发生的某一特定次数,得到类似于下图,可见,它是一个指数分布,k与越接近,概率越大,在k与x相等的地方,概率达最大值。(如果将x固定一个常数,就是Poisson分布。) 3 、应用场景假设检验的基本思想: 若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的。如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设。 3.1 正态检验:Z检验【5】利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。 3.1.1 直方图初判 判断是否是我们熟悉的钟型曲线 3.1.2 QQ图判断 通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况 QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图 参考直线:四分之一分位点和四分之三分位点这两点确定,看散点是否落在这条线的附近 3.1.3 K - S检验 python代码: u = df['value'].mean()# 计算均值 std = df['value'].std()# 计算标准差 stats.kstest(df['value'], 'norm', (u, std)) 》》》KstestResult(statistic=0.1590180704824098, pvalue=0.3066297258358026) ks检验一般返回两个值:D和p值 其中D表示两个分布之间的最大距离,所以D越小,因为这两个分布的差距越小,分布也就越一致 p值,也就是假设检验里面的p值,可以理解为这个样本发生的可能性有多大。 那么原假设是什么呢,原假设是“待检验的两个分布式同分布”。假设检验常用的判断标准是5%,在假设检验里叫做“显著水平”,用符号α 如果p值大于0.05,(当然,你也可以选择α = 0.01或者0.10,这都取决于你的要求),那么就不能拒绝原假设。所以p越大,越不能拒绝原假设,两个分布越是同分布 补充: 1)两个分布之间的最大距离D是怎么计算的:转化为标准正态分布后,相同x下,y值与标准正态分布的值的差 2)假设检验里,p和α的关系: p是计算出来的,α是人工设定的,P值 < α(0.007 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |