双样本T检验、F检验

2024-07-08 20:43| 来源: 网络整理| 查看: 265

我认为T检验和F检验在机器学习中的作用：判断机器学习中样本集中的某个特征（自变量）和因变量之间的相关性强弱（用于在建模中判断此自变量是否可以扔掉）

最近在做数据分析方面的工作，经常需要检验两组样本之间是否存在差异，所以会遇到统计学中假设检验相关的知识。在机器学习特征工程这一步，笔者最常用到的是假设检验中的卡方检验去做特征选择，因为卡方检验可以做两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。但是笔者今天想介绍一下通过T检验做机器学习中的特征工程，希望能够让大家初步了解到各种假设检验是如何在机器学习项目的特征工程发挥作用。

1、理论部分假设检验简介

统计学中，常见的假设检验有：T检验（Student's t Test），F检验（方差齐性检验），卡方验证等。无论任何假设检验，它们都遵循如下图所示的流程：

做两个假设：一般如果假设对象是两组样本的话（一组数据集中有多个特征，选择其中的两个特征，就是指的这里说的两组样本），都会假设这两组样本（其实也就是指的是样本数据中的两个特征值）均值相等，（T检验的假设），方差满足齐次性（F检验的假设）等。而另一个假设其实就是两组样本均值不相等（T检验的假设），方差不满足齐次性（F检验的假设）等，其实这两个假设就是一对非此即彼的选项。这两个假设在教科书上就叫做原假设 $H_0$ ，和备择假设 $H_1$ 。设置一个显著性值：通俗点理解，就是如果真实的情况偏离原假设的程度。 1.如果真实情况和原假设差异不大（P值高于显著性值），那证明原假设是对的，接受原假设。 2.如果真实情况和原假设差异太大（P值低于显著性值），那证明原假设错了，我们得拒绝原假设，接受备择假设。显著性值的选择是个经验值：一般和样本量有关，样本量越大，显著性值越大，一般几百左右的样本量P值一般选择0.05，样本量在两千左右时P值一般选择0.001，样本量再大，P值就没有作用了，所以做假设检验时样本量一般不会超过5千，样本量超过5千时P值就没什么意义了。收集证据：用手头的数据去验证第一步定义的假设。这一步就是对样本进行统计计算等操作。 T检验得到结论：结论一般不外乎这两种： 1.如果P>0.05（上方第二步设定的显著性的值），原假设成立； 2.如果P< 0.05（上方第二步设定的显著性的值），原假设不成立，备择假设成立。

【本文地址】

公司简介

联系我们