什么是辛普斯悖论? 您所在的位置:网站首页 辛普森悖论是什么 什么是辛普斯悖论?

什么是辛普斯悖论?

2024-05-28 17:53| 来源: 网络整理| 查看: 265

辛普森悖论(Simpson's Paradox)是统计学中的一个非常有趣的现象,它指出即便单独每个组别的数据显示一个趋势,当这些数据组合在一起时,总体趋势可能完全相反。本文旨在解释辛普森悖论及启发,并以医院存活率的数据为例进行具体分析。 医院死亡率

先来看一个例子。我们研究两家医院的存活率。这是医院A和B的总体存活率数据:

医院存活人数死亡人数存袼率A90010090 %B80020080 %

数据显示,医院**A的存活率为90%(900存活,100死亡),而医院B的存活率为80%**(800存活,200死亡)。这似乎表明医院A表现更好。

然而,当我们根据病情的严重程度细分数据后,情况就发生了变化。这是按病情细分的存活率数据

医院病情入院人数存活人数死亡人数存活率A重症100307030 %A非重症9008703096.7 %B重症40021019052.5 %B非重症6005901098.3 %

从上表可以看出,无论是重症还是非重症病人,医院B的存活率都高于医院A

总体数据的趋势与细分数据的趋势截然相反!

这是为什么?

辛普森悖论是一个反直觉的统计现象,表明在考虑背景变量时,统计数据可能导致完全不同的结论

这不是普遍情况,但起码告诉我们:局部分组的趋势不能推出总体趋势,总体趋势也不一定能推出分组趋势。

辛普森悖论的数学表达可以总结为以下两种情形:

单组比率关系指向相同方向,但总体比率关系逆转:如果对于每组数据,我们都有 \frac{a_1}{b_1}>\frac{c_1}{d_1} 且 \frac{a_2}{b_2}>\frac{c_2}{d_2} ,但当合并这些数据时,我们发现 \frac{a_1+a_2}{b_1+b_2}\frac{a_1}{b_1}>\frac{c_1}{d_1} ,但对于另一组数据,有 \frac{a_2}{b_2}\frac{a_1+a_2}{b_1+b_2}>\frac{c_1+c_2}{d_1+d_2} 或相反。

辛普森悖论强调了在进行统计分析时考虑背景变量的重要性。它提醒我们,在数据分析中,表面的比率和趋势可能会误导。正确的做法是进行多维度的数据分析,考虑所有可能的背景因素。

在面对复杂的数据时,应当警惕辛普森悖论的潜在影响。我们不仅要关注数据的整体趋势,还要注意到各个子集之间的关系。通过综合考虑不同层次的数据,我们可以更全面、更准确地理解和解释统计结果。

看似明显,实则迷藏。

作者:王海华

参考文献 Blyth, C. R. (1972). "On Simpson's Paradox and the Sure-Thing Principle". Journal of the American Statistical Association.Simpson, E. H. (1951). "The Interpretation of Interaction in Contingency Tables". Journal of the Royal Statistical Society.徐晟. (2021). 大话机器智能: 一书看透AI的底层运行逻辑. 机械工业出版社.

欢迎关注“模型视角”数学建模公众号!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有