广义线性模型（GLM）专题（2）

您所在的位置：网站首页 › 带约束条件的线性回归 › 广义线性模型（GLM）专题（2）

广义线性模型（GLM）专题（2）

2024-07-04 15:50| 来源: 网络整理| 查看: 265

大家好！

这一节我们继续广义线性模型的相关内容去说。事实上在这一节我们会发现，我们更多会回到一些更简单和实际的应用中来，因此这一节的内容不会有上一节那么难以理解，但相对应的，基本的概念和背景知识会比较多。我们也会提供对应的习题帮助大家理解。

那么我们开始吧。

目录带约束条件的假设检验模型诊断0/1变量数据分析逻辑回归带约束条件的假设检验

我们在上一节其实已经介绍过一般情况下的假设检验，但是在具体的算例中我们都是在假设检验只涉及到一个参数的情况下进行检验的。在这一节中我们会适当拓展这个背景。

我们在这里考虑的假设检验条件是

这里的是参数集合。是一个矩阵（一般叫做contrast matrix，对比矩阵）。那么这个情况下，我们可以得到

我们用作为下标是因为这其实就是Wald Test，沃尔德检验。这里是的秩。

需要注意的是，对于带约束的情况，只有Wald Test是比较好手算的，其他的两种理论我们在上一节也有给出，但是手算会显得难度很大，因此我们这里就不多提了。

好的，我们来给一个计算实例

考虑到术语上更多是使用原版语言（英语），我们之后在一些比较难翻译的术语上尽可能使用原版语言。这也是经读者反馈之后作出的小调整～

对于这个问题，其实只要知道

剩下的事情就全部是计算的问题了。这里可以得到

虽然它是带约束条件下的线性模型，理论来说比这里的情况要简单一些。但其实阅读难度要比这里大很多，感兴趣的朋友可以去看看。

模型诊断

和线性模型

https://zhuanlan.zhihu.com/p/49276967

一样，广义线性模型也有各种各样的诊断指标。这些指标的目的基本上都围绕一个问题：

这个模型对数据的拟合好不好？

在这之前我们先介绍两个极端的情况，这两个情况奠定了我们后面一些计算指标的基础。

Definition 1: Saturated Model, Null Model 如果对于每一个数据点我都对应一个参数，这么拟合出来的模型定义为饱和模型。如果对于所有数据点均使用同一个参数拟合，这种模型定义为零模型。

如果我们假设对于每一个数据点，我们有一个估计，那么对于saturated model，，而对于null model，。这是两种不同的极端。

第一个指标被定义为偏差。

这里要注意的是，如果我们考虑典范型指数分布（Canonical Expoential Family）的话，会有

这样的话我们也会定义出来一个Deviance

这个时候我们就有（我们把它定义为标准化偏差，Scaled Deviance），注意到，所以如果足够小，那么就不会拒绝原假设，也就是说会认为模型拟合的很好。这里的是参数个数，包括截距。

从构造中也不难看出，模型拟合最好的情况就是Saturated Model，每一个数据点都会被拟合且没有误差，所以偏差就是在衡量我们的模型与这种理想情况的差距。

一个有趣的性质是

读者可以自己思考一下为什么。

那么我们简单来看一个计算吧。

对于这个题，其实核心需要注意的地方就是，对于我们的模型，我们会求解出一个，而对于Saturated Model，这个地方就是。所以注意到

（注意二项分布是，不要弄成伯努利分布了），代入，那么我们有

且

注意在这里，只是把属于那一部分的改成了。所以我们可以得到在这里，我们有

这就是最后的答案。

注意在这里，核心就是我们要求解出我们的，在二项模型中，，所以代入就可以了。当然也可以通过上一节求解典范参数的表达式的方式来解决这个问题。

接下来我们来看看残差。

它们有的时候会被用来做异常值检测。这里要注意的是，Pearson残差的渐近分布也是。

接下来我们来看看杠杆值。

这里。这里事实上就是把线性回归里面的改成了，再代回得到的。当然了要注意，这个只能用于Canonical Link Function，也就是说联连函数是典范型的情况。

有了杠杆值之后，我们还可以得到一些标准化的残差定义

这是因为。

接下来我们来看看影响值。

接下来我们再来看看用来衡量多重共线性的指标VIF

这里的是指如果我们设第个参数为因变量，其他参数为自变量做拟合得到的。如果参数的，一般认为多重共线性的问题不大，但如果，就要解决一下这个问题了。

这里有个细节要注意的是，在广义线性模型中，我们关心的是对应的参数的多重共线性问题。

虽然我知道大家对于这一部分的概念都已经快迷糊了，但是因为这一毕竟是问题的一小部分，我们还是会讲到后面的部分的时候再回头来看这一部分的习题。

0/1变量数据分析

在实际生活中，0/1变量（binary variable）是非常常见的，有很多实际的模型都可以被建模为0/1变量。事实上对于0/1变量的分析也是之后逻辑回归（Logistic Regression）的基础。

这一部分，我们所有的数据都基于下面的2*2列联表

虽然我不知道材料上为什么这么写，但尊重材料嘛，我就不改了，大家忍耐一下……

这里事实上有两个变量，一般是自变量，比方说是否抽烟，性别等0/1变量。一般是因变量，一般都是我们希望观测的结果，例如人是否在一段时间之后死亡。这里实际上想分析的就是，对的影响是什么样的。

为了描述这个列联表，自然我们也需要很多量度。我们会在下面一个一个的介绍。

我们可以考虑把这些量标都代进之前那个列联表算一算，我们可以得到

可以看出如果很小，那么RR和OR差不多，因此在临床研究中，如果疾病本身是罕见疾病，这个时候使用RR和OR的效力就会差不多。不过就算没有这个假设，OR一般来说也会拿来估计RR，只是越大（对应的就是基准风险），这个估计越不准确，读者可以自己数值上验证这个观察。

虽然在这里我们没有写太多，但是事实上这个2*2的列联表是非常重要的

逻辑回归

逻辑回归是非常重要的一个用于拟合0/1变量的模型，我们在

https://zhuanlan.zhihu.com/p/52752248

已经简单介绍过这个模型，在这里我们会更加详细的用广义线性模型的框架去介绍这个内容，毕竟可以看出，逻辑回归本质上就是广义线性模型的一部分。

简单来说，模型的设定是

这里其实和之前介绍的逻辑回归有一个矛盾点，就是可以看出这里的其实并不是一个0/1变量（虽然它依然是整数）。这其实和数据本身的呈现方式有关，即究竟是按照个体（individual）的单位（level）来展现数据，还是按照组（group）的单位。

如果我们按照个体的单位，那么这个时候其实数据本身的响应变量（response），这就是之前我们讲过的逻辑回归模型。但是如果是按照组的单位，这个时候我们可能根据我们自变量的不同，我们会将数据聚合起来求和，在这个时候，就是我们上面的设定了。当然了，在这个时候要注意的是本身并不是我们这里的，中间还差一步。反过来说如果是0/1变量，则二者相等。我们在上面介绍Deviance的时候也举了一个习题，大家可以通过那里看出来这个时候之间的关系。

一个例子是上面的2*2列联表，其实如果写成group level，对应的就是