广义线性模型(GLM)专题(2) 您所在的位置:网站首页 带约束条件的线性回归 广义线性模型(GLM)专题(2)

广义线性模型(GLM)专题(2)

2024-07-04 15:50| 来源: 网络整理| 查看: 265

大家好!

这一节我们继续广义线性模型的相关内容去说。事实上在这一节我们会发现,我们更多会回到一些更简单和实际的应用中来,因此这一节的内容不会有上一节那么难以理解,但相对应的,基本的概念和背景知识会比较多。我们也会提供对应的习题帮助大家理解。

那么我们开始吧。

目录带约束条件的假设检验模型诊断0/1变量数据分析逻辑回归带约束条件的假设检验

我们在上一节其实已经介绍过一般情况下的假设检验,但是在具体的算例中我们都是在假设检验只涉及到一个参数的情况下进行检验的。在这一节中我们会适当拓展这个背景。

我们在这里考虑的假设检验条件是

这里的是参数集合。是一个矩阵(一般叫做contrast matrix,对比矩阵)。那么这个情况下,我们可以得到

我们用作为下标是因为这其实就是Wald Test,沃尔德检验。这里是的秩。

需要注意的是,对于带约束的情况,只有Wald Test是比较好手算的,其他的两种理论我们在上一节也有给出,但是手算会显得难度很大,因此我们这里就不多提了。

好的,我们来给一个计算实例

考虑到术语上更多是使用原版语言(英语),我们之后在一些比较难翻译的术语上尽可能使用原版语言。这也是经读者反馈之后作出的小调整~

对于这个问题,其实只要知道

剩下的事情就全部是计算的问题了。这里可以得到

虽然它是带约束条件下的线性模型,理论来说比这里的情况要简单一些。但其实阅读难度要比这里大很多,感兴趣的朋友可以去看看。

模型诊断

和线性模型

https://zhuanlan.zhihu.com/p/49276967

一样,广义线性模型也有各种各样的诊断指标。这些指标的目的基本上都围绕一个问题:

这个模型对数据的拟合好不好?

在这之前我们先介绍两个极端的情况,这两个情况奠定了我们后面一些计算指标的基础。

Definition 1: Saturated Model, Null Model 如果对于每一个数据点我都对应一个参数,这么拟合出来的模型定义为饱和模型。如果对于所有数据点均使用同一个参数拟合,这种模型定义为零模型。

如果我们假设对于每一个数据点,我们有一个估计,那么对于saturated model,,而对于null model,。这是两种不同的极端。

第一个指标被定义为偏差。

这里要注意的是,如果我们考虑典范型指数分布(Canonical Expoential Family)的话,会有

这样的话我们也会定义出来一个Deviance

这个时候我们就有(我们把它定义为标准化偏差,Scaled Deviance),注意到,所以如果足够小,那么就不会拒绝原假设,也就是说会认为模型拟合的很好。这里的是参数个数,包括截距。

从构造中也不难看出,模型拟合最好的情况就是Saturated Model,每一个数据点都会被拟合且没有误差,所以偏差就是在衡量我们的模型与这种理想情况的差距。

一个有趣的性质是

读者可以自己思考一下为什么。

那么我们简单来看一个计算吧。

对于这个题,其实核心需要注意的地方就是,对于我们的模型,我们会求解出一个,而对于Saturated Model,这个地方就是。所以注意到

(注意二项分布是,不要弄成伯努利分布了),代入,那么我们有

注意在这里,只是把属于那一部分的改成了。所以我们可以得到在这里,我们有

这就是最后的答案。

注意在这里,核心就是我们要求解出我们的,在二项模型中,,所以代入就可以了。当然也可以通过上一节求解典范参数的表达式的方式来解决这个问题。

接下来我们来看看残差。

它们有的时候会被用来做异常值检测。这里要注意的是,Pearson残差的渐近分布也是。

接下来我们来看看杠杆值。

这里。这里事实上就是把线性回归里面的改成了,再代回得到的。当然了要注意,这个只能用于Canonical Link Function,也就是说联连函数是典范型的情况。

有了杠杆值之后,我们还可以得到一些标准化的残差定义

这是因为。

接下来我们来看看影响值。

接下来我们再来看看用来衡量多重共线性的指标VIF

这里的是指如果我们设第个参数为因变量,其他参数为自变量做拟合得到的。如果参数的,一般认为多重共线性的问题不大,但如果,就要解决一下这个问题了。

这里有个细节要注意的是,在广义线性模型中,我们关心的是对应的参数的多重共线性问题。

虽然我知道大家对于这一部分的概念都已经快迷糊了,但是因为这一毕竟是问题的一小部分,我们还是会讲到后面的部分的时候再回头来看这一部分的习题。

0/1变量数据分析

在实际生活中,0/1变量(binary variable)是非常常见的,有很多实际的模型都可以被建模为0/1变量。事实上对于0/1变量的分析也是之后逻辑回归(Logistic Regression)的基础。

这一部分,我们所有的数据都基于下面的2*2列联表

虽然我不知道材料上为什么这么写,但尊重材料嘛,我就不改了,大家忍耐一下……

这里事实上有两个变量,一般是自变量,比方说是否抽烟,性别等0/1变量。一般是因变量,一般都是我们希望观测的结果,例如人是否在一段时间之后死亡。这里实际上想分析的就是,对的影响是什么样的。

为了描述这个列联表,自然我们也需要很多量度。我们会在下面一个一个的介绍。

我们可以考虑把这些量标都代进之前那个列联表算一算,我们可以得到

可以看出如果很小,那么RR和OR差不多,因此在临床研究中,如果疾病本身是罕见疾病,这个时候使用RR和OR的效力就会差不多。不过就算没有这个假设,OR一般来说也会拿来估计RR,只是越大(对应的就是基准风险),这个估计越不准确,读者可以自己数值上验证这个观察。

虽然在这里我们没有写太多,但是事实上这个2*2的列联表是非常重要的

逻辑回归

逻辑回归是非常重要的一个用于拟合0/1变量的模型,我们在

https://zhuanlan.zhihu.com/p/52752248

已经简单介绍过这个模型,在这里我们会更加详细的用广义线性模型的框架去介绍这个内容,毕竟可以看出,逻辑回归本质上就是广义线性模型的一部分。

简单来说,模型的设定是

这里其实和之前介绍的逻辑回归有一个矛盾点,就是可以看出这里的其实并不是一个0/1变量(虽然它依然是整数) 。这其实和数据本身的呈现方式有关,即究竟是按照个体(individual)的单位(level)来展现数据,还是按照组(group)的单位。

如果我们按照个体的单位,那么这个时候其实数据本身的响应变量(response),这就是之前我们讲过的逻辑回归模型。但是如果是按照组的单位,这个时候我们可能根据我们自变量的不同,我们会将数据聚合起来求和,在这个时候,就是我们上面的设定了。当然了,在这个时候要注意的是本身并不是我们这里的,中间还差一步。反过来说如果是0/1变量,则二者相等。我们在上面介绍Deviance的时候也举了一个习题,大家可以通过那里看出来这个时候之间的关系。

一个例子是上面的2*2列联表,其实如果写成group level,对应的就是

也就是说写成group level之后,因为我们只考虑一个自变量,并且这个自变量只有两种取值可能,所以对应的数据其实只有两个点。

利用之前的广义线性模型的知识,我们可以得到

希望你没有忘记这些标记都是什么意思。如果忘记了,可能你需要再读一读上一节的那些定义233。

所以通过最后一个式子

我们实际上可以得到关于参数的解释。在线性模型中我们也解释过,在这里也不难看出,事实上只需要注意到本质上是odds的对数,所以对于某一个参数,它的含义一般就是

我们也可以给出的解释。

这里我们用词有点不同,这是因为

读者可以自己检验这个式子的正确性。

类似的可以给出截距项的解释

到此我们给一个相对比较简单的与2*2列联表有关的计算题,加深点印象。

这里主要的问题在于第一题的思路。虽然我们没有介绍,但是本质上的思路是不难的,就是用数据去拟合参数。在这里,因为有分组,并且也是0/1变量,所以我们分别假设得到的表达式,再代入数据去给出log odds的估计即可。

当的时候,我们有

注意左边的式子就是在的时候,对应的数据的Odds,因此可以得到

类似可以得到

这可以解得。

对于Odds Ratio,我们可以得到

可以观察到这个时候这个结果正好是。这是因为对应的正好是Odds的变化量,本质上就是变化后与变化前的Odds的比值。巧合的是,这正是Odds Ratio的定义。

在最后我们来使用上一节介绍过的知识,推导拟合逻辑回归所需要的Score Function(得分函数)等内容。

求解这些内容自然是需要极大似然估计的,注意到

当然我们可以把代进去。事实上一个更好的思路是利用我们上一节介绍过的在Canonical Link下的公式,事实上可以直接给出这些结果而不需要额外计算。

对于这个模型的假设检验,我们上面其实已经介绍过一般情况下的假设检验方法,在这里我们也就不重复了。

好的,最后我们来给出一些综合题来结束这一部分。

这个问题粗看有点活,因为不再是2*2的列联表了。但其实思路和Example 3是一样的。

对于第一题,注意到

还有一个方法就是使用Delta方法,具体可以看这一节

也就是说

这里可以看出结果实际上是不一样的,但是没有关系,两种结果都是可以接受的。

小结

本节内容量不大,主要是介绍了一些非常基本的假设检验的计算和之后的0/1变量数据分析。在之后我们更多的介绍流行病学中的一些概念和一些其他的广义线性模型的具体分析的时候,会看到一些更有趣的内容。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有