广义加性模型的简介、应用举例及R语言操作

您所在的位置:网站首页 兵马俑骊山一日游攻略 广义加性模型的简介、应用举例及R语言操作

广义加性模型的简介、应用举例及R语言操作

2024-07-17 07:54:58| 来源: 网络整理| 查看: 265

广义加性模型的简介、应用举例及R语言操作

广义加性模型的简介、应用举例及R语言操作

广义加性模型的定义

前文提到加性模型可描述为多元回归的非参数化平滑回归形式,并举例介绍了一般加性模型(general additive model)。在一般加性模型中,假定响应变量Y服从正态分布,自变量X和响应变量Y的条件均值之间的关系可简单表示为:

式中fn(X)是未指明的函数,需要非参数式地予以估计,“非参数”一词反映了函数fn(X)不是用参数来定义的。与参数多元回归(如多元线性回归)相比,加性模型放宽了对响应关系加和形式的限制,允许任意函数之和来建模结果,自变量和响应变量之间的关系可以为任意线性或非线性。

类似一般线性模型和广义线性模型(GLM)的关系,一般加性模型一般化为广义加性模型(GAM),代表了一类服务于一组来自指数分布族(如正态分布、指数分布、泊松分布、二项分布、负二项分布等)的响应变量的非参数化平滑回归框架,概括形式为:

此时fn(X)仍是非参数的函数,而响应变量Y服从指数分布族中的某种分布(不局限于正态性)。g(μY)代表了响应变量Y条件均值的函数(指数、泊松、二项、负二项等),又称连接函数,与在广义线性模型(GLM)中的理解相似,目的是将各类非正态的指数分布族响应变量的条件均值转化为正态形式的条件均值,以建立和自变量的非参数加和响应关系。

连接函数根据响应变量Y的实际分布而具体为不同公式。例如,当响应变量为泊松分布时,连接函数g(μY) = loge(Y)。一般加性模型事实上属于广义加性模型在正态响应变量时的特殊形式,此时g(μY) = Y。

接下来就展示在R语言中运行广义加性模型的一个例子,在过程中加深理解。

以一个泊松加性模型为例展示R语言执行广义加性模型

前文在“泊松回归的广义线性模型”中,展示了一个通过泊松回归分析计数型响应变量的例子,影响鱼类物种Rhinichthys cataractae丰度的环境因素。在前文中假设R. cataractae丰度的对数均值随环境是线性响应的,最终在6个给定的环境因素中挑选了3个对R. cataractae丰度有重要贡献的环境,并解释了它们的生物学意义。(广义线性模型中,除标准线性回归这种特殊形式外,所描述的均是响应变量通过某种转化形式得到近似正态的转化值后,拟合与自变量的线性关系,而非直接使用原始响应变量数值;如在泊松回归中,涉及了响应变量的某种形式的对数转化,因此泊松回归中自变量和响应变量的对数值之间存在线性关联)

对于其余3个被排除的环境因素而言,主要原因在于R. cataractae丰度的对数均值沿这些环境梯度的变化不存在明显的线性关系。可能归因于两种情况,一是数据比较离散和无序,R. cataractae丰度随这些环境值的改变而呈现无规律的状态,表明影响几乎是随机的;二是可能存在其它非线性的响应模式,R. cataractae丰度随这些环境值的改变虽然有规律但难以通过单向的递增或递减趋势描述出来,因而在广义线性模型的结果中不显著。如果是第一种情况,那就无需多加考虑;但若存在第二种情况,提示可能遗漏了对重要环境影响的解释。

因此,接下来尝试通过拟合泊松响应的广义加性模型(泊松加性模型)对这个数据进行探索,查看和比较这个数据集中,除了线性关系外,R. cataractae物种丰度和环境因素之间是否还存在其它可能的响应状态。

下文中所使用的示例数据和R代码的百度盘链接(提取码,fsls):

https://pan.baidu.com/s/1aAwZP_mQ3nWVk_EEfHnZyg

若百度盘失效,也可在GitHub的备份中获取:

https://github.com/lyao222lll/sheng-xin-xiao-bai-yu

示例数据概要

数据同样可在前文“泊松回归的广义线性模型”中获取。节选了马里兰州河流生物资源调查(https://dnr.maryland.gov/streams/Pages/mbss.aspx)的部分数据,一个生物学目的是探索可能影响鱼类物种丰度的环境因素,并对物种丰度变化的原因作出解释。

就节选的部分数据为例,记录了所调查的马里兰州河流中每75米长的区段水域内,鱼类物种Rhinichthys cataractae的丰度,并测量了每段水域中相应的环境特征。

其中第一列代表了调查河流区段的位置信息,其余各列依次为:

fish,水域中R. cataractae的个体数量,代表了物种丰度,一组计数型变量;

acre,水域流域面积(英亩,acre);

do2,水域溶解氧含量(毫克/升,mg/L);

depth,水域最大深度(厘米,cm);

no3,水域硝酸盐浓度(毫克/升,mg/L);

so4,水域硫酸盐浓度(毫克/升,mg/L);

temp,水域温度(摄氏度,℃)。

R包mgcv执行泊松加性模型

分析目的是确定影响R. cataractae丰度的环境成因,环境因素在分析中将作为自变量,R. cataractae丰度作为响应变量对待。R. cataractae丰度是一组计数型变量,在前文“泊松回归的广义线性模型”中,已经确定了R. cataractae丰度大致服从泊松分布,因此接下来考虑泊松加性模型进行探索式的分析。

在R中,可用于实现加性模型的R包很多,以下使用mgcv包中的方法执行广义加性模型。mgcv包中执行加性模型的函数是gam(),默认情况下其执行一般加性模型,可通过family参数指定响应变量类型更改为广义加性模型。

gam()拟合变量时,对于各自变量需要设置平滑器类型,以拟合响应变量和自变量的局部平滑。例如s()将平滑器指定为样条平滑,lo()将平滑器指定为LOESS平滑等,在下文示例中统一使用样条平滑来实现。其中有个关键问题,无论使用哪种平滑器,均需要谨慎设置合适的平滑参数值。平滑参数值的选择会强烈影响结果中曲线的平滑程度,甚至产生不同状态的变量响应趋势,进而导致不同的生物学意义理解和解读,详情可参考前文“一般加性模型”中的阐述。

在下文的示例中,没有对各变量设置特定的平滑参数,而是使用默认参数,让R自动评估。这种情况比较省事,但可能的问题在于机器选择方法难以贴合生物学实际,可能会产生存在矛盾解释的模型。实际情况中,您可能需要谨慎评估选择合适的平滑参数值,例如如果觉得拟合曲线形状显得很奇怪时,手动在s()中通过调试参数k后重新拟合回归,并借助相关的生物学背景知识辅助判断曲线的合理性。

#读取鱼类物种丰度和水体环境数据 dat


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


    图片新闻

    实验室药品柜的特性有哪些
    实验室药品柜是实验室家具的重要组成部分之一,主要
    小学科学实验中有哪些教学
    计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
    实验室各种仪器原理动图讲
    1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
    高中化学常见仪器及实验装
    1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
    微生物操作主要设备和器具
    今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
    浅谈通风柜使用基本常识
     众所周知,通风柜功能中最主要的就是排气功能。在

    专题文章

      CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭