广义线性模型 您所在的位置:网站首页 广义线性分析包括 广义线性模型

广义线性模型

2023-12-20 20:56| 来源: 网络整理| 查看: 265

6238cd99df30a91ea19bffd926ac20b5.png 作为一个应用者来说,要了解一个模型的顺序是:1)为什么要用这个模型解决问题?2)这个模型是什么,可以解决什么问题?3)模型怎么用?4)应用领域是什么?解决了哪些问题?5)模型的归档与应用划分? 人话篇:广义线性模型到由来

从逻辑回归模型开始,我们连续讲了好多集有些相似又特点各异的几种统计模型。它们有个统一的旗号,叫做「广义线性模型」(generalized linear model)。 许多在大学里学过一点统计的读者,可能对广义线性模型还是会感到比较陌生。为什么这些模型能被归为一个大类?它们的共同点在哪里?今天我们就和大家一块用说人话的方式再来系统地认识一下,广义线性模型到底是何方神圣。

在耐着性子把这篇文章读完之前,大家肯定会想,为什么要学习广义线性模型呢?毕竟光是理解线性模型的各种用法就已经够头疼的了,再加个广义更绕不清楚了。

普通线性模型对数据有着诸多限制,真实数据并不总能满足。而广义线性模型正是克服了很多普通线性模型的限制。在笔者的心里,广义模型能解决的问题种类比普通线性模型多很多,用图来表示,大概就是这样的:

817e95a67ba380c6764af6709abc31b0.png 图一:定性对比广义线性模型和普通线性模型的能解决的问题多少

我们将要回到广义线性模型的本质,从广义线性模型的

三个要素——

线性预测 随机性 联系函数

入手,在理论层面系统深入地了解广义线性模型。

线性预测 各路线性模型的共同点:线性预测

不管是普通线性模型,还是广义线性模型,既然打着「线性模型」旗号,总该是有个原因的吧?这里的「线性」指的是多个自变量的「线性组合」对模型预测产生贡献,也叫做线性预测,它具有类似于下面的形式:

首先这个类似与我们线性代数里的线性系统,看看我的总结:

9e54f649420f595c57d43763f6668090.png

ebcaf5ba9bbbee8cb2dc6046a3685ec3.png

这个形式读者们已经非常熟悉了,因为之前讲的所有模型使用的都是线性预测。

统计模型中的β0、β1、β2等是模型的参数,如果把模型看成是一个音箱,这些参数就像看是音箱上一个个控制声音的旋钮。为啥音箱得要怎么多旋钮呢?因为虽然拧每一个旋钮达到的效果不同,可能β0管的是低音炮部分,β1管的是中音区,β2管的是高音区,模型里面需要这么多参数也是为了控制各种自变量对因变量的影响的。

为什么各种常用的模型都选择线性预测呢?

当我们调节某一个旋钮的时候,我们当然希望声音的效果与旋钮拧了多少成正比,如果拧了一圈声音跟蚊子叫一样,而拧了两圈声音突然震耳欲聋,这样的音箱用起来就得经过反反复复地调节才能找到最佳音量,非常的不方便。统计模型的在寻找最优参数的时候做得就是调节音量这件事,使用线性预测使得β0、β1、β2这些参数改变的值与预测的结果的改变值成正比,这样才能有效地找到最佳参数。

2. 随机性— 统计模型的灵魂

我们之所以会建立统计模型,是想研究自变量(模型的输入)与因变量(模型的输出)之间的定量关系。

通过模型计算出来的自变量的预测值因变量的测量值越接近,就说明模型越准确。

虽然在建立模型时,我们希望统计模型能准确地抓住自变量与因变量之间的关系,但是当因变量能够100%被自变量决定时,这时候反而没有统计模型什么事了。

典型的例子是中学时学习的物理定律,我们都知道,物体的加速度与它受的合力大小成正比,也就是说给定物体的质量和受力大小,加速度是一个固定的值,如果你答题的时候写,「有一定的概率是a,也有一定的概率是b」,物理老师肯定会气得晕过去。

统计模型的威力就在于帮助我们从混合着噪音的数据中找出规律。假设这个世界还没有人知道物体受的合力大小与加速度成正比,为了验证这一假说, 你仔细测了小滑块 在不同受力条件下的加速度,但由于手抖眼花尺子烂等等理由,哪怕是同样的受力,多次测量得到的加速度也会不一样,具有一定的随机性。

也就是说,由于测量误差的存在,测量到的加速度(因变量y)与物体的受力大小(自变量x)之间不是严格的正比关系。

统计模型是怎样从具有随机性的数据中找到自变量和因变量之间的关系的呢?

原因在于是测量随机误差也是有规律的。在测量不存在系统性的偏差的情况下,测量到的加速度会以理论值为平均值呈正态分布。抓住这一统计规律,统计模型就能帮我们可以透过随机性看到自变量与因变量之间的本质联系,找出加速度与受力大小的关系。

如果不对自变量的随机性加以限制,再好的统计模型也无可奈何。试想一下,假如测量到的加速度值是不认真做实验的某个同学随手编的数值,那就不能保证它的平均值与实际值接近,自然也就无法正确地计算出加速度与受力大小的关系。

虽然在加速度的例子里面,因变量y的随机性来源于测量误差,但是实际应用中,y的随机性远不止测量误差,也有可能是影响y值变化的一些变量没有包含在模型中。比如一个公司的薪水由工龄,工作岗位和每月工时三个因素决定,但是在用模型预测薪水的时候,只用了工龄和工作岗位两个因素,这时模型就会把由工时不同导致的薪水不同看做是随机误差。

统计模型并不在意y的随机性是由什么产生的:统计模型把因变量y中不能被模型解释的变化都算在误差项里面,并且通过对误差作出合理的假设,帮助我们找到自变量与因变量之间内在的关系

如何对随机性作出合理的假设,得根据具体情况具体分析,这也就演化出了各种各样的统计模型。

各路统计模型如何对付「随机性」?

在统计模型中,当自变量取特定值(测量数据也称观测数据),因变量y的随机性由y的概率分布来决定。

无论是普通线性模型还是广义线性模型,预测的都是自变量x取特定值时因变量y的平均值。

因变量y的实际取值与其平均值之差被称为误差项,而误差的分布很大程度上决定了使用什么模型。

我们下面就来回顾一下在不同的模型里面

误差项得满足什么样的分布?

1)普通线性模型的基本假设之一是误差符合方差固定的正态分布(高斯分布)。只有一个因变量的普通线性模型具有下面的形式:

dfbd21810f4333f3b6397bdad04a2878.png

模型的输出β0+β1*x预测的是y的平均值,而误差项ε描述了y的随机性。

普通线性模型中的方差不随自变量x取值的变化而变化。

在线性回归模型里面,系数 β0,β1 决定了回归线的走向,也就是 y 与 x 之间的定量关系,代表误差项大小的 σ 代表了模型有多准确。通常情况下,线性回归模型假设误差项 ε 服从平均值为 0,方差为 σ2 的正态分布,而且方差的大小不随着预测变量 x 值改变,也叫做同方差性(Homoscedasticity)。换句话说,同方差性就是指误差项的方差是一个常数,与实验条件无关。

在通过父母平均身高预测子女身高的例子里面,同方差性意味着无论父母平均身高是两米还是一米六,线性模型预测的子女身高和真实身高之间的绝对差距是近似的。如果随着父母身高增加,子女的预测身高与真实身高的差距也有变大的趋势,同方差性就不再满足了,以后我们会讲到如何在同方差性不能满足的情况下做回归模型。

当误差项ε不再满足正太分布,或者误差项的方差会随着x的变化而变化的时候,普通线性模型就不够用了。

由于正太分布描述的是一个连续变量的分布, 当因变量y是类别变量或是计数变量这样



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有