数据科学之假设检验 您所在的位置:网站首页 和歌日语怎么读的谐音 数据科学之假设检验

数据科学之假设检验

#数据科学之假设检验| 来源: 网络整理| 查看: 265

著名的物理学家爱德华·特勒曾经引用过:

“A fact is a simple statement that everyone believes. It is innocent unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty until found effective.”

假设检验的应用在数据科学中占主导地位,它是简化和结构的必备之选。就像犯罪小说的故事一样,基于数据的假设检验,将从一个新颖的建议引向一个有效的命题

假设检验的基本逻辑:全称命题只能被否证而不能被证明。这个道理很简单,个案当然不足以证明一个全称命题,但是却可以否定全称命题。小概率事件在一次事件中基本不可能发生。

所以想要证明的假设作为备择假设,想要拒绝的假设作为原假设。容易被证伪的假设为原假设(所以原假设去等号)。不轻易拒绝的作为原假设,拒绝后无所谓的作为备择假设。拒绝后后果比较小的作为原假设(因为我们保证了一类错误的概率比较小),H0受到了保护。

1. 何为假设检验:

实际生活中,经常需要对某个问题做出判断:

例(订货问题):甲厂向乙厂订购一批产品,合同规定次品率不得超过5%,现随机抽取200件进行检查,发现有9件次品,问甲方是否应接受这批产品?

    分析:如果是单纯从表面的抽样结果看,抽样结论是次品率为4.5%,能出厂。但是事实真的如此吗?

    争议:乙厂 —— 抽样结论为4.5%,未超过5%,合格。甲厂 —— 抽样结果是随机的,有波动性,可能实际次品率超过5%。

    假设:产品不合格 p>=5%。

归纳:根据上述的例子,我们可以简单总结一下假设检验的特点:

都需要对总体提出某个假设;都需要根据采样来对假设进行检验;结论只有“接受”或“拒绝”两种;问题不同,假设不同。

2. 假设的提法

问题:依据什么原理做出决策?

例(Fisher的女士品茶问题):一种饮料由牛奶和茶按照一定比例混合而成,可以先倒茶后倒牛奶(TM)或者反过来(MT)。某女士称,她可以鉴别是TM还是MT。

设计如下试验来确定她的说法是否可信。准备8杯饮料,TM和MT各半,把他们随机的排成一列让女士依次品尝,并告诉她TM和MT各半,然后请她说出哪4杯是MT,假设她全说对了。

Fisher的推断过程:

引进一个假设H:该女士并无鉴别能力

当H成立时,则全部说中的概率为:1/70

因此当女士全部挑对时,只有下列两种情形:

H不成立,即该女士具有鉴别能力;

发生了一个概率为1/70的事件。(小概率事件)

由“实际推断原理”,有理由承认第一种可能性,也就是采样提供了一个显著不利于H的证据。

问题:如果该女士只说对三杯,则情况怎样?

若H成立,则说对三杯以上的概率为:0.243。(认为0.243不算小,不拒绝H)

此时,若拒绝H可能会犯错误。

总结:Fisher的基本思想

有一个明确的假设(H);给定一个所能容忍的犯这类错误的上限;在此上限下,判断证据对拒绝H是否显著;只要证据对拒绝H不显著即接受H。

下面用数学语言描述上述推论。

分析:决策的依据是样本,样本取值有随机性,于是就存在犯错误的可能。

若拒绝原假设,可能会“弃真”,犯第一类错误;若接受原假设,可能会“取伪”,犯第二类错误。

一类风险:犯第一类错误的概率;二类风险:犯二类错误的概率;

直观:二者很难同时达到最小,如何折中?

检验原则一:保护H0。

    提出“检验原则一”的原因:

(1)H0的内容很重要,或关乎检验者的利益

例如,订货问题中,H0:产品不合格(p>=5%)?

例如,无罪推断中疑罪从无。

(2)“弃真”的后果大于“取伪”的后果

例如:2013年禽流感期间,一旦出现高烧一般先假定为禽流感患者。

分析:H0和H1的地位不对称!

    问题:“保护愿假设”在数学上怎么表示?

分析——保护以下哪种决策状态?

数学描述:P{拒H0|H0真}必须充分小,即P{拒H0|H0真}



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有