单参数贝叶斯分析实例 您所在的位置:网站首页 贝叶斯单因素分析 单参数贝叶斯分析实例

单参数贝叶斯分析实例

2022-05-27 07:35| 来源: 网络整理| 查看: 265

分析实例 研究背景问题原因模型改进

研究背景

以一个泊松分布的贝叶斯模型进行演示说明,但是该模型涉及到层次模型的知识。调查美国各个地方的癌症死亡率。追踪10年,癌症死亡率的计算遵循下面的公式, θ j = y j 10 n j \theta_j=\frac{y_j}{10n_j} θj​=10nj​yj​​ 这里统计的单位是"county",有点类似于县城。其中, θ j \theta_j θj​是第 j j j个county癌症死亡率, y j y_j yj​是癌症死亡人数, n j n_j nj​是county的样本数目。全国的平均值是 5 × 1 0 − 5 5×10^{-5} 5×10−5。

经过统计,将各个癌症发生比例显著高于国家基本水平的地区标黑,结果如下, 在这里插入图片描述 结果显示,被称为"Great Plains"的美国中西部地区癌症死亡率高的,所以很多人会认为这与落后的基础设施和医疗建设相关。但是如果再看一下癌症低发的地区,会有新的发现, 在这里插入图片描述 中西部地区同样是癌症低死亡率的地方,这与上面的图片得到的结论是相互矛盾的。

问题原因

造成这一问题的原因归根结底是因为"sample size"所导致,因为这项研究是以"county"为单位的,翻译过来就是小区域,对于不同地区的调查的样本量 n j n_j nj​是不同的,这对结果造成了很大的影响。

以小的county为例,若 n j = 1000 n_j=1000 nj​=1000,

当 y j = 0 y_j=0 yj​=0时,raw death rate的计算 y j 10 n j = 0 10000 = 0 \frac{y_j}{10n_j}=\frac{0}{10000}=0 10nj​yj​​=100000​=0,这个county的癌症比率为0。当 y j = 1 y_j=1 yj​=1时,raw death rate的计算 y j 10 n j = 1 10000 = 1 0 − 4 \frac{y_j}{10n_j}=\frac{1}{10000}=10^{-4} 10nj​yj​​=100001​=10−4,已经是国家平均死亡率的2倍。当 y j = 2 y_j=2 yj​=2时,raw death rate的计算 y j 10 n j = 2 10000 = 2 × 1 0 − 4 \frac{y_j}{10n_j}=\frac{2}{10000}=2×10^{-4} 10nj​yj​​=100002​=2×10−4,已经是国家平均死亡率的4倍。

而对于一个大的county而言,小的数值的变化对其影响不大。直接使用经验公式求取癌症死亡率的方法是存在极大偏差的,需要对现有的统计方法进行改进。

模型改进

因为直接使用最开始的统计公式对于不同样本量的county是不公平的,即先验概率无法表达真实的数据,所以建立更加规范的数据模型。

美国统计的国家的整体癌症发生可以看做是一个泊松分布, y j ∼ P o i s s o n ( 10 n j θ j ) y_j\sim Poisson(10n_j\theta_j) yj​∼Poisson(10nj​θj​) 其中 θ j \theta_j θj​是未知的,泊松分布的共轭先验分布是Gamma分布(具体参考),故将 θ j \theta_j θj​的先验分布设定为一个Gamma分布,用一种比较粗暴的方式确定Gamma分布的参数, 在这里插入图片描述 画出每个county每10000人中患癌人数的频数分布图,得到 α = 20 \alpha=20 α=20和 β = 430000 \beta=430000 β=430000。虽然这种方式看似有效,但是更好的方法会在以后层次模型的笔记中说明。

经过推导后,死亡率 θ j \theta_j θj​的后验概率服从 θ j ∣ y j ∼ G a m m a ( 20 + y j , 430000 + 10 n j ) \theta_j|y_j\sim Gamma(20+y_j,430000+10n_j) θj​∣yj​∼Gamma(20+yj​,430000+10nj​) 这样做的好处依旧可以以小的county进行解读, 若 n j = 1000 n_j=1000 nj​=1000,

当 y j = 0 y_j=0 yj​=0时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 20 440000 \frac{20+y_j}{430000+10n_j}=\frac{20}{440000} 430000+10nj​20+yj​​=44000020​,这个county的癌症比率为 4.55 × 1 0 − 5 4.55×10^{-5} 4.55×10−5。当 y j = 1 y_j=1 yj​=1时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 21 440000 \frac{20+y_j}{430000+10n_j}=\frac{21}{440000} 430000+10nj​20+yj​​=44000021​,这个county的癌症比率为 4.77 × 1 0 − 5 4.77×10^{-5} 4.77×10−5。当 y j = 2 y_j=2 yj​=2时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 22 440000 \frac{20+y_j}{430000+10n_j}=\frac{22}{440000} 430000+10nj​20+yj​​=44000022​,这个county的癌症比率为 5.00 × 1 0 − 5 5.00×10^{-5} 5.00×10−5。

在先验分布的情况下,对于一个小的county而言,小的数值的变化对其影响被显著消除。

使用贝叶斯分析前和后的效果,使用图形化的方式展示,

使用前 在这里插入图片描述使用后 在这里插入图片描述


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有