《统计学》读书笔记,第3 | 您所在的位置:网站首页 › 数据分布的偏态系数 › 《统计学》读书笔记,第3 |
第3章 用统计量描述数据
3.1 数据水平
数据的水平是指其取值的大小,描述的统计量主要有:平均数、中位数、分位数以及众数。 3.2 数据离散程度 数据的差异性、离散程度,描述的统计量主要由:极差、四分位差、方差、标准差以及测度相对离散程度的离散系数(标准差与平均数之比,消除数据水平高低对标准差大小的影响)。 3.3 数据分布形状数据的分布形状,通过直方图和茎叶图可以知道数据的分布是否对称。对于不对称的分布,偏态系数是对分布对称程度的度量,峰态系数是对峰值高低的度量(峰尖或不尖)。 3.3.1 偏态系数偏态系数:SK= n/[(n-1)(n-2)] × Σ[(x-μ)/s]3。 如果一组数据的分布式对称的,则偏态系数为0;若偏态系数大于1或者小于-1,视为严重偏态分布,否则为中等偏态分布。其中负值是左偏(也叫负偏态分布,在分布左侧有长尾),正值表示右偏(也叫正偏态分布,在分布右侧有长尾)。 3.3.2 峰态系数 峰态系数:K= n(n+1)/[(n-1)(n-2)(n-3)] ×Σ[(x-μ)/s]4 — [3(n-1)2]/[(n-2)(n-3)]。 标准正态分布的峰态系数为0,当K > 0为尖峰分布,数据分布相对集中,否则为扁平分布。 第4章 概率分布 4.1 正态分布 4.1.1 正态分布的性质 4.1.2 正态性评估 确定数据是否来自正态分布的总体。判断方法主要由: 1)P—P图 根据观测数据的累计概率与理论分布的雷击概率的符合程度绘制。 2)Q—Q图 根据观测值的实际分位数与理论分布的分位数绘制。 3)非参数检验中的Kolmogorov-Smirnov检验 见第14章。 4.2 t分布t分布式类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。随着自由度的增大,t分布逐渐趋于正态分布。 t = X / sqrt(Y / n),其中X~N(0,1),Y~χ2(n),且X与Y相互独立,称t服从自由度为n的t分布,记作t~t(n)。 当正态总体标准差未知时,在小样本条件下对总体均值的估计和检验要用到t分布。 4.3 χ2分布χ2=Σi=1…n Xi2,其中Xi~N(0,1),称χ2~χ2(n)分布,n为自由度。 E(χ2) = n,D(χ2)= 2n。 χ2分布的形状,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称。χ2分布具有可加性(自由度之和)。 4.4 F分布F分布通常用于比较不同总体的方差是否有显著差异。 F = (X/n1) / (Y/n2),其中X~χ2(n1),Y~χ2(n2),且X与Y相互独立,称F服从自由度为(n1,n2)的F分布,记作F~F(n1,n2)。 4.5 中心极限定理不论原来的总体是否服从正态分布,随着样本量的增加,样本均值的概率分布都将趋于正态分布。 样本方差服从χ2(n-1)分布。两个总体对应的样本方差之比服从F分布。 4.6 标准误统计量的标准误差也称为标准误。 当总体标准差未知时,可以用标准误代替,这时的标准误称为估计标准误差,由于现实中总体的标准差总是未知的,因此,估计标准误差简称为标准误差。 标准误是根据原始观测值计算的,反映一组原始数据的离散程度。而标准误差是根据样本统计量计算的,反映的是统计量的离散程度。 第5章 参数估计 5.1 点估计 由样本X1,X2, …, Xn计算出的统计量θ’(X1,X2, …, Xn)为统计量θ的估计量。 估计方法有矩估计和最大似然估计法。 5.2 区间估计与置信区间区间估计就是用以统计量为端点的随机区间来刻画总体未知参数所在的范围。 对给定值α(0<α<1),若由来自总体X的样本X1,X2, …, Xn确定的两个统计量θ1’和θ2’(θ1’<=θ2’),对于任意θ∈Θ满足:P{θ1’<θ<θ2’}≥ 1-α,则称随机区间(θ1’,θ2’)是θ的置信水平(置信度)为1-α的置信区间。 5.3 评价估计量的标准①无偏性 指估计量抽样分布的期望值等于被估计的总体参数。 若估计量θ’=θ’(X1,X2, …, Xn)的数学期望E(θ’)存在,且对任意θ∈Θ有E(θ’)=θ,则称θ’是未知参数θ的无偏估计量。 ②有效性 指估计量的方差尽可能小。样本估计量与总体参数的接近程度是用估计量的方差来度量的。 设θ1’和θ2’都是未知参数θ的无偏估计量,若有D(θ1’) |
CopyRight 2018-2019 实验室设备网 版权所有 |