【统计学习2】线性回归:RSS,TSS,T检测,F检测,假设检验 | 您所在的位置:网站首页 › 线性回归方程怎么算含量 › 【统计学习2】线性回归:RSS,TSS,T检测,F检测,假设检验 |
++++++++++++++++++++++
参考众多文章 ++++++++++++++++++++++ 第一:假设检验以抛硬币来说 H0 假设【假设】:硬币是公平【出现正反概率各为1/2】 Ha 假设【检验】:硬币是有问题整个假设检验过程,是在H0假设条件下,进行试验,如果推导出自相矛盾的结论,那么就拒绝H0假设。 【所谓的自相矛盾,试验结果,在H0假设条件下,出现的概率极小。】 p值:在假设原假设(H0)正确时,出现现状或更差的情况的概率。 1.1 H0假设下,我们知道抛硬币,出现正面的次数,符合二项式分布。a、我们抛了10次硬币。 结果出现8次正面。 b、查询二项分布表,单侧p值【8,9,10】 p(8/9/10)=0.05 这个结果怎么解读? 在H0假设条件下【硬币公平的】,抛出8次正面及更极端的情况的单侧p值是0.05,如果显著水平0.05,那么我们拒绝改H0假设,而认为硬币是有问题的。 1.2 既然抛了8次正面,为啥还有加上9次正面,10次正面,这两个更极端的的概率? 一是:p值的定义如此。 二是,一般分布,不好求单点发概率,求区间的概率就很简单,就是那个面积。1.3 显著水平0.05 其实显著水平是主观定义的值。 比如我们定义显著水平为0.01。 那么上例试验p值=0.05,小于显著水平0.01,那么就意味我们没办法拒绝H0假设,需要更多的试验,等p值小于这个0.01的 显著水平,我们就可以拒绝H0假设了。 第二:T检验 2.1、两块麦田,甲和乙,甲麦田传统工艺,乙麦田改进工艺。已知甲样本株产量均值μ0=100,样本标准差σ【标准差未知】; 乙样本n,样本株产量均值X=120,样本标准差s,公式的xi是乙的单株产量【可以把乙的每个单株产量看作是单株均值产量】,x均值是甲的均值,因为甲的总体不知,又因为我们h0假设认为甲乙来自一个总体,所有用乙的单株产量暂代甲的单株常量。 2.2、假设检验 H0假设【假设】:乙没有改进,甲乙都在一个分布下 Ha假设【检验】:在H0假设下,乙均值X=120,样本标准差s能不能发生? 已知甲服从µ0=100,标准差 σ未知的正态分布,N(μ0,σ^2)。 2.3、t值的由来 t统计量公式:
a、分子=X - μ0,根据正太分布图,跨度为甲的标准差 σ,为了消除跨度的影响,我们将分子除以标准差,得(X - μ0)/σ,又因为甲的σ未知,用乙的s替代,最终为(X - μ0)/s 【由于甲的标准差 σ未知,但是我们假设甲乙服从同一个分布,故乙的标准差s来近似。】 **************************************************************************************************************************** 我们都以甲乙两个样本的均值、标准差,来近似各自母体的均值、标准差。 **************************************************************************************************************************** b、分母s/√n 意思是:由样本推断总体均值的标准误差(standard error)。 解释:乙样本数,如果极多,那么我们显而易见,乙这个X=120,明细说明乙改进了产量。 为了在公式中体现样本个数的n的影响,所以我们让分母的s,除以根号n,从而减小分母值,最终使t值增大,来体现样本n的影响。 2.4、t分布以上我们求出了t值,那么如何知道t值对应的p值? a、概率密度函数
b、分布图 根据自由度v=n-1,查表得出对应的p值,看在相应的显著水平下,能否拒绝H0原假设。 第三:最小二乘**************************************************************************************************************************** 1、标准差(Standard Deviation )【反映的是数据点的波动情况】:是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标。 2、标准误差(Standard error)【反映的是均值的波动情况】:指在抽样试验(或重复的等精度测量)中,常用到样本平均数的标准差;反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。 解释:随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体标准差σ,而标准误则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体平均数μ; 3、置信区间:是对样本的某个总体参数的区间估计,这个参数的真实值有一定概率落在测量结果的周围的程度。 4、公式 |
CopyRight 2018-2019 实验室设备网 版权所有 |