当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联” 您所在的位置:网站首页 鲨鱼攻击人往往发生在什么海区 当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联”

当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联”

2024-07-09 09:12| 来源: 网络整理| 查看: 265

剖解因果关系的数学工具,在我们这个拥有丰富大数据的时代有着相当广泛的应用前景——了解事物的因果关系,将成为解决算法致命缺陷的必要工具。

道理人人都懂,但问题是,要理清数据中的因果关系,我们还需要数据以外的一些额外信息。鲨鱼伤人和冰淇淋销量之间的关系并不难理清,但如果涉及到一些更复杂或对其背景了解不多的数据,要区分两者之间是相关关系还是因果关系,就没那么容易。

事实上,了解因果关系对人类生活意义重大。例如,数据相关性研究可以告诉我们,哪种治疗方案可以让病人更快恢复,但却不能告诉我们这是为什么。而且,数据相关性也不能告诉我们如何更加有效地治愈病人,甚至不能成为给病人开处方的依据。

“若想治疗某种疾病,或者知道如何降低某种疾病的风险,就需要理解其中的因果关系。”丹麦哥本哈根大学的乔纳斯·彼得斯说。美国哥伦比亚大学的伊莱亚斯·巴伦布瓦姆则认为,科学研究和科学系统的运行都绕不开对因果关系的理解。

遗憾的是,可以用来理清因果关系的科学工具太少了。从伽利略时代开始,现代科学的研究工具之一是代数和等式。物理学家用等式来表达大气压和气压计读数之间的关系,但这样的等式说明不了它们之间的因果关系——是气压导致了气压计读数的变化,还是正好反过来呢?显然,代数语言不可能解决哪个是因哪个是果的问题。

创新数据“游戏规则”,为因果推理理论奠定基石

上世纪90年代初,美国加利福尼亚大学洛杉矶分校的朱迪亚·珀尔开始创建科学迫切需要的“因果关系语言”。

珀尔的解决方法是引进一种被称为“doing” (表示做、作为、动作、行动的意思)的数学语言。比如,如果通过“do”这个新引入的运算符采取某种干预“行动”,让气压计周围的大气压产生变化,那么气压计上的读数也会随之变动;但如果干预“行动”是移动气压计上的读数,显然大气压不会因此发生任何变化。所以,通过这样的数据变动,就能找出数据之间的因果关系——“因” 变“果” 也随之变,但无论“果”如何变,“因”却不会变。

如何用数学语言来表达这个概念呢?珀尔创建了一套包括加减和其他运算法则在内的运算方法。就像其他运算符一样,他的“do”运算符可以作为一种特殊变量加入到运算中。

再让我们回到海边场景。通过数学模型模拟,珀尔的“do”运算符改变了冰淇淋的消耗量,而不考虑其他任何对吃冰淇淋或被鲨鱼攻击产生影响的混杂因素。在实验中,如果只改变冰淇淋的消耗量,那么鲨鱼袭击频率如果有任何相应变化就应该是由吃冰淇淋引起的。

珀尔的实验表明,使用可观察到的数据,“do”运算符的变化可有效模拟随机控制实验,从而提取其中的因果关系。珀尔因这项研究获得了2011年图灵奖,他也由此奠定了因果推理理论的基石。

因果推理“工具包”,破解“结论不可重复”窘境

除了赋予科学以更坚实的因果推理基础之外,珀尔的数学框架还有助于解决许多学科问题,包括困扰医学和社会科学领域的“研究结论不可重复危机”。

过去十年,因为相关的实验结果无法复制,人们对一些领域中的研究产生了怀疑。比如,有研究认为,学生用模糊字体更容易解答出数学问题;还有研究提出,意志力是一种有限的、可耗尽的资源。事实上,心理学领域于2015年进行的一项关于实验结果复现性的大规模研究发现,该领域60%的研究成果无法复制,这给整个学科蒙上了巨大阴影。

巴伦布瓦姆认为,因果推理可以帮助解决这些问题。他说,在许多情况下,最初的测试结果容易受到多种混杂因素的影响,而这些因素可能是实验者没有意识到或被忽略的,而随后的复现性尝试可能会在混杂因素中发现新的因果关系。

一个典型例子是关于幸福感对经济决策的影响。最初,实验通过向参与者展示美国喜剧演员罗宾·威廉姆斯的镜头来衡量幸福感。可到了进行复现性实验时,威廉姆斯已经去世,同样的实验可能会对参与者的反应产生不同影响。另一个因素是,原始研究实验中的受试者为美国人,而复现研究中的受试者是英国人。由于这些混杂效应的影响,后来的复现实验显然无法对最初的研究发现作出合理评价。

因果推理理论的应用远远超越了科学的范畴。“如果你想要做出更好的决策,就要了解因果关系。也就是说,在做决策前要考虑一下,如果我这么做,会有什么后果,世界会发生什么变化。”美国约翰·霍普金斯大学的苏奇·萨里亚说。

相关性与因果关系有何不同

一些海边城市的数据告诉我们,哪天冰淇淋销售量多,海滨游泳者遭遇鲨鱼袭击的概率就高。那么,这是否意味着,出于公众安全考虑,应该取缔海边卖冰淇淋的小摊呢?人们大概率不会这么做。

因为常识和理智告诉我们,酷热天气会使海滨的人流量激增,这是一个明显的事实。人多,意外事件发生的概率也会更高。所以,冰淇淋销售量的增加与鲨鱼袭击频率增高的原因,很可能都是海滨游客增多,而冰淇淋销售量和鲨鱼袭击之间只存在相关性,并不存在因果关系。

作者:方陵生 编译

编辑:顾军

图片来源:视觉中国返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有