P值小于等于0.05是否真有统计学意义 您所在的位置:网站首页 pr统计学意义 P值小于等于0.05是否真有统计学意义

P值小于等于0.05是否真有统计学意义

2024-07-08 04:15| 来源: 网络整理| 查看: 265

在科技论文中少不了统计,而统计中又常常避免不了值,一般认为P≤0.05或者P≤0.01有显著性差异,我们的研究有统计意义。事实是真的这样吗?其实有时如果P≤0.05也并非真正有统计意义。以下是科研动力译自Nature的一篇文章:Scientific method: Statistical errors,相信您看完之后会有些许收获。

美国弗吉尼亚大学的 Matt Motyl 于2010进行了一项近2000人的研究他发现政治温和派似乎比左翼或者右翼人士看到更多的灰度。这个结果太有意思了,而且 Motyl 很坚信这个结果,因为数据统计显示结果差异性很显著,P=0.01。此时 Motyl 也有点小小的自得,自己的研究可以发表在高影响因子期刊了,离自己少年成名也不远了。

可惜欢乐总是短暂的,快乐仅持续了1天。他的导师 Brian Nosek 让他进行了重复实验,重复实验的结果P值变成了0.59。这就没有差异显著性了,因为统计学上认为P≦0.05才有统计学意义。人生就这么喜怒无常,现实击碎了 Motyl 的幻想。

Motyl 错了吗?问题出在何处?为何第一次实验统计学有显著性差异,而重复实验却变成了统计学无显著性差异?原来问题不在于数据和Motyl的统计分析。主要问题在于P值,大多数学者认为P值并不可靠也不客观。芝加哥罗斯福大学的经济学家 Stephen Ziliak 甚至认为P值根本不做人事,因为这鸟根本不会做人事。

实验重复性对于很多科学家很是个事儿。2005年加利福尼亚斯坦福大学的流行病学家 John Ioannidis 认为现在大多数所发表的论文都是有问题的。实验的重复性使科学家们要重新考虑他们该如何评价结果了。

同时统计学家们正在寻找一个更好的统计数据的方法,以帮助科学家们避免遗漏重要的信息或者得到错误的结果。斯坦福大学的医生和统计学家Steven Goodman说「现在是需要改变统计理念的时候了,以前的金标准也不再是神,它们是我们所采用的统计方法决定的」。

P值的断章取义

P值出现的近90年来,统计学家们对P值批评就没停止过。有人甚至把P值被比作即恼人又不赶不走的蚊子,有明显问题而每个人都忽略的皇帝的新衣以及强奸了科学但又没结果的强奸犯的工具。有人建议重新命名这个计算P值的统计方法学为「统计假设推断检验」,也许更能代表P值的本质。

具有讽刺意味的是英国的统计学家 Ronald Fisher (大拿啊)在20世纪20年代第一次引入P值时,他老人家并未想把P值作为一个解析结果决定性指标。他本想提出一个判断数据是否有显著的一个非正式简单指标,看一下结果是否值得再研究一下。大拿 Fisher 认为应先进行一个实验,看结果与可能产生的随机结果是否一致。研究人员应首先提出一个「零假设」,然后验证两组之间有无相关性或者差异性。假设这个零假设是真实的,那么计算得到的结果与事实的符合概率,这个概率就是P值。Fisher老人家同样认为,P值越大结果越与事实相距更远。

对于P值的精确性,Fisher 认为它是变化的而固定不变的,P应是结合数据分析结果和背景知识产生科学结论。但是P很快就卷入了一场风波,事情还要从另两位统计界大拿波兰数学家 Jerzy Neyman 和英国统计学家 Egon Pearson 说起。20世纪20年代大家正在寻找一个循证决策更严谨客观的指标。Neyman 和 Pearson 提出了数据分析的可选择框架,包括统计强度,假阳性和假阴性,以及其它我们现在统计课上经常听到的很多统计学概念。但是他们刻意忽略了P值,因为这两位和 Fisher 不怎么对付,相互看谁谁也不顺眼。

双方就开始掐架,Neyman 称 Fisher 的数学一无是处,而 Fisher 认为 Neyman 做法很幼稚,简直是对西方的自由科学是个危害。他们掐架归掐架,其他研究人员看不下去了,大家还等着一个统计学指标呢,到底该用哪个啊?这些研究人员的耐心也有限,于是乎他们就不管上面三位统计大拿了,开始自己为研究人员编写统计手册。这些研究人员也很乖,编写统计手册的时候谁也不得罪,把上面三位的统计理念进行了融合。这也就成了P值为0.05代表了统计学有显著性差异。这些人还挺聪明的,但是是个小聪明,因为他们并不是统计学家,没能完全理解 Fisher 和 Pearson 等人方法的内涵就进行生搬硬套。因此现在Goodman说「现在P值的使用方法完全背离了它曾经的意义」。

P值到底意味着什么

回过头来再看看 Motyl 有关政治倾向的研究。多数科学家看到他原始的P值是0.01,认为他的结果只有1%的可能性是假的,但是他们错了。P值并未说它能总结数据,假设一个特定的零假设。P值也不能反向推导,不能说明事实的真实情况。揭示真实情况还需要更多的信息,即真实效应实际存在的概率。忽略这个就像有天早晨起来发现自己头疼,然后就认为可能得了一个罕见的脑部肿瘤。可能吗?可能是可能,但是概率太小了。大清早的头疼您老人家不应先排除一些常见头疼的原因啊,昨晚是不是撸啊撸了,搞的自己睡眠差了。晚上睡觉不老实了,踢被子了,感冒了。这些才是比脑瘤更可能的因素,不排除这些就提出一个骇人听闻的假设,吓尿了。值得一提的是越是耸人听闻的假设越不靠谱,如心灵感应,外星人,顺势疗法,特异功能等等更难以置信的的假设,不管最终P值是多少,假阳性的可能性都很大。

这些都是艰涩的概念,但是一些统计学家试图提供经验转换的一般规律(如下图)。根据一个广泛使用的计算方法,P值为0.01时代表假阳性概率至少是11%,而P值为0.05时这种机率就达到至少29%。

图中的三个例子表明即使计算得出的P值有显著性差异,实验结果也可能具有很高的不可重复性。

因此 Motyl 的发现假阳性的概率至少1/10。同样重复实验得到同样非常显著性结果的可能性也不是99%,最多是73%,或者仅有50%。换句话说,他实验的可重复性如同掷硬币的概率差不多,本想得到字面,可是却得到的是花面。唉,猜中了开头,却猜不到结尾。

批评家们也哀叹P值成了鼓励混乱思维方式的元凶。一个典型的例子是P使人们偏离了现实的真实情况。2013年一个有关1万9千多人的研究表明网恋的离婚可能性较小(P



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有