【统计学习2】线性回归：RSS，TSS，T检测，F检测，假设检验

您所在的位置：网站首页 › 线性回归方程怎么算含量 › 【统计学习2】线性回归：RSS，TSS，T检测，F检测，假设检验

【统计学习2】线性回归：RSS，TSS，T检测，F检测，假设检验

2024-07-04 17:27| 来源: 网络整理| 查看: 265

++++++++++++++++++++++

参考众多文章

++++++++++++++++++++++ 第一：假设检验

以抛硬币来说

H0 假设【假设】：硬币是公平【出现正反概率各为1/2】 Ha 假设【检验】：硬币是有问题

整个假设检验过程，是在H0假设条件下，进行试验，如果推导出自相矛盾的结论，那么就拒绝H0假设。

【所谓的自相矛盾，试验结果，在H0假设条件下，出现的概率极小。】

p值：在假设原假设（H0）正确时，出现现状或更差的情况的概率。

1.1 H0假设下，我们知道抛硬币，出现正面的次数，符合二项式分布。

a、我们抛了10次硬币。

结果出现8次正面。

b、查询二项分布表，单侧p值【8，9，10】

p(8/9/10)=0.05

这个结果怎么解读？

在H0假设条件下【硬币公平的】，抛出8次正面及更极端的情况的单侧p值是0.05，如果显著水平0.05，那么我们拒绝改H0假设，而认为硬币是有问题的。

1.2 既然抛了8次正面，为啥还有加上9次正面，10次正面，这两个更极端的的概率？

一是：p值的定义如此。二是，一般分布，不好求单点发概率，求区间的概率就很简单，就是那个面积。

1.3 显著水平0.05

其实显著水平是主观定义的值。

比如我们定义显著水平为0.01。

那么上例试验p值=0.05，小于显著水平0.01，那么就意味我们没办法拒绝H0假设，需要更多的试验，等p值小于这个0.01的显著水平，我们就可以拒绝H0假设了。

第二：T检验 2.1、两块麦田，甲和乙，甲麦田传统工艺，乙麦田改进工艺。

已知甲样本株产量均值μ0=100，样本标准差σ【标准差未知】；

乙样本n，样本株产量均值X=120，样本标准差s，公式的xi是乙的单株产量【可以把乙的每个单株产量看作是单株均值产量】，x均值是甲的均值，因为甲的总体不知，又因为我们h0假设认为甲乙来自一个总体，所有用乙的单株产量暂代甲的单株常量。

2.2、假设检验

H0假设【假设】：乙没有改进，甲乙都在一个分布下 Ha假设【检验】：在H0假设下，乙均值X=120，样本标准差s能不能发生？

已知甲服从µ0=100，标准差 σ未知的正态分布，N(μ0，σ^2)。

2.3、t值的由来

t统计量公式：

a、分子=X - μ0，根据正太分布图，跨度为甲的标准差 σ，为了消除跨度的影响，我们将分子除以标准差，得(X - μ0)/σ，又因为甲的σ未知，用乙的s替代，最终为(X - μ0)/s

【由于甲的标准差 σ未知，但是我们假设甲乙服从同一个分布，故乙的标准差s来近似。】

****************************************************************************************************************************

我们都以甲乙两个样本的均值、标准差，来近似各自母体的均值、标准差。

****************************************************************************************************************************

b、分母s/√n 意思是：由样本推断总体均值的标准误差（standard error）。

解释：乙样本数，如果极多，那么我们显而易见，乙这个X=120，明细说明乙改进了产量。

为了在公式中体现样本个数的n的影响，所以我们让分母的s，除以根号n，从而减小分母值，最终使t值增大，来体现样本n的影响。

2.4、t分布

以上我们求出了t值，那么如何知道t值对应的p值？

a、概率密度函数

b、分布图

根据自由度v=n-1，查表得出对应的p值，看在相应的显著水平下，能否拒绝H0原假设。

第三：最小二乘

****************************************************************************************************************************

1、标准差（Standard Deviation ）【反映的是数据点的波动情况】：是表示个体间变异大小的指标，反映了整个样本对样本平均数的离散程度，是数据精密度的衡量指标。

2、标准误差（Standard error）【反映的是均值的波动情况】：指在抽样试验(或重复的等精度测量)中，常用到样本平均数的标准差；反映样本平均数对总体平均数的变异程度，从而反映抽样误差的大小，是量度结果精密度的指标。

解释：随着样本数(或测量次数)n的增大，标准差趋向某个稳定值，即样本标准差s越接近总体标准差σ，而标准误则随着样本数(或测量次数)n的增大逐渐减小，即样本平均数越接近总体平均数μ；

3、置信区间：是对样本的某个总体参数的区间估计，这个参数的真实值有一定概率落在测量结果的周围的程度。

4、公式

【本文地址】

公司简介

联系我们