单参数贝叶斯分析实例 | 您所在的位置:网站首页 › 贝叶斯单因素分析 › 单参数贝叶斯分析实例 |
分析实例
研究背景问题原因模型改进
研究背景
以一个泊松分布的贝叶斯模型进行演示说明,但是该模型涉及到层次模型的知识。调查美国各个地方的癌症死亡率。追踪10年,癌症死亡率的计算遵循下面的公式, θ j = y j 10 n j \theta_j=\frac{y_j}{10n_j} θj=10njyj 这里统计的单位是"county",有点类似于县城。其中, θ j \theta_j θj是第 j j j个county癌症死亡率, y j y_j yj是癌症死亡人数, n j n_j nj是county的样本数目。全国的平均值是 5 × 1 0 − 5 5×10^{-5} 5×10−5。 经过统计,将各个癌症发生比例显著高于国家基本水平的地区标黑,结果如下, 结果显示,被称为"Great Plains"的美国中西部地区癌症死亡率高的,所以很多人会认为这与落后的基础设施和医疗建设相关。但是如果再看一下癌症低发的地区,会有新的发现, 中西部地区同样是癌症低死亡率的地方,这与上面的图片得到的结论是相互矛盾的。 问题原因造成这一问题的原因归根结底是因为"sample size"所导致,因为这项研究是以"county"为单位的,翻译过来就是小区域,对于不同地区的调查的样本量 n j n_j nj是不同的,这对结果造成了很大的影响。 以小的county为例,若 n j = 1000 n_j=1000 nj=1000, 当 y j = 0 y_j=0 yj=0时,raw death rate的计算 y j 10 n j = 0 10000 = 0 \frac{y_j}{10n_j}=\frac{0}{10000}=0 10njyj=100000=0,这个county的癌症比率为0。当 y j = 1 y_j=1 yj=1时,raw death rate的计算 y j 10 n j = 1 10000 = 1 0 − 4 \frac{y_j}{10n_j}=\frac{1}{10000}=10^{-4} 10njyj=100001=10−4,已经是国家平均死亡率的2倍。当 y j = 2 y_j=2 yj=2时,raw death rate的计算 y j 10 n j = 2 10000 = 2 × 1 0 − 4 \frac{y_j}{10n_j}=\frac{2}{10000}=2×10^{-4} 10njyj=100002=2×10−4,已经是国家平均死亡率的4倍。而对于一个大的county而言,小的数值的变化对其影响不大。直接使用经验公式求取癌症死亡率的方法是存在极大偏差的,需要对现有的统计方法进行改进。 模型改进因为直接使用最开始的统计公式对于不同样本量的county是不公平的,即先验概率无法表达真实的数据,所以建立更加规范的数据模型。 美国统计的国家的整体癌症发生可以看做是一个泊松分布, y j ∼ P o i s s o n ( 10 n j θ j ) y_j\sim Poisson(10n_j\theta_j) yj∼Poisson(10njθj) 其中 θ j \theta_j θj是未知的,泊松分布的共轭先验分布是Gamma分布(具体参考),故将 θ j \theta_j θj的先验分布设定为一个Gamma分布,用一种比较粗暴的方式确定Gamma分布的参数, 画出每个county每10000人中患癌人数的频数分布图,得到 α = 20 \alpha=20 α=20和 β = 430000 \beta=430000 β=430000。虽然这种方式看似有效,但是更好的方法会在以后层次模型的笔记中说明。 经过推导后,死亡率 θ j \theta_j θj的后验概率服从 θ j ∣ y j ∼ G a m m a ( 20 + y j , 430000 + 10 n j ) \theta_j|y_j\sim Gamma(20+y_j,430000+10n_j) θj∣yj∼Gamma(20+yj,430000+10nj) 这样做的好处依旧可以以小的county进行解读, 若 n j = 1000 n_j=1000 nj=1000, 当 y j = 0 y_j=0 yj=0时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 20 440000 \frac{20+y_j}{430000+10n_j}=\frac{20}{440000} 430000+10nj20+yj=44000020,这个county的癌症比率为 4.55 × 1 0 − 5 4.55×10^{-5} 4.55×10−5。当 y j = 1 y_j=1 yj=1时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 21 440000 \frac{20+y_j}{430000+10n_j}=\frac{21}{440000} 430000+10nj20+yj=44000021,这个county的癌症比率为 4.77 × 1 0 − 5 4.77×10^{-5} 4.77×10−5。当 y j = 2 y_j=2 yj=2时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 22 440000 \frac{20+y_j}{430000+10n_j}=\frac{22}{440000} 430000+10nj20+yj=44000022,这个county的癌症比率为 5.00 × 1 0 − 5 5.00×10^{-5} 5.00×10−5。在先验分布的情况下,对于一个小的county而言,小的数值的变化对其影响被显著消除。 使用贝叶斯分析前和后的效果,使用图形化的方式展示, 使用前 使用后 |
CopyRight 2018-2019 实验室设备网 版权所有 |