二分类Logistic回归分析(Binomial Logistic Regression Analysis) 您所在的位置:网站首页 modeling英语 二分类Logistic回归分析(Binomial Logistic Regression Analysis)

二分类Logistic回归分析(Binomial Logistic Regression Analysis)

2024-02-01 22:32| 来源: 网络整理| 查看: 265

一般情况下,当因变量是连续性变量时,我们常使用线性回归分析若干自变量与因变量的关联;而当因变量是分类(二分类、无序多分类和有序多分类)变量时,我们常考虑使用logistic回归(logistic regression)进行分析。目前,logistic回归在流行病学、实验研究、临床试验评价及疾病的预后因素分析等方面均有广泛应用。logistic回归属于概率型非线性回归,除了用于影响因素分析,预测和判别也是logistic回归模型的一个重要应用。根据因变量的不同,可将logistic回归分为二分类logistic回归(binary logistic regression)、无序多分类logistic回归(multinomial logistic regression)和有序多分类logistic回归(ordinal logistic regression);根据是否采用匹配设计,又可将二分类logistic回归分为非条件logistic回归(unconditional logistic regression)和条件logistic回归(conditional logistic regression)。本篇文章将举例介绍非条件二分类logistic回归的假设检验理论。

关键词:二分类logistic回归; 二项logistic回归; 二元logistic回归; 逻辑回归; EPV原则

一、基本概念 (一) 二分类logistic回归模型

二分类logistic回归模型的因变量Y 是二分类变量,其取值常编码为0和1。

\(\mathrm{Y}=\left\{\begin{array}{l} 1 \text { (有效、发病、名年等) } \\ 0 \text { (无效、末发病、存活等) }\end{array}\right.\)

其中1代表阳性结果,0代表阴性结果。假设影响Y取值的(可能)影响因素有m个,即X1、X2、X3、…、Xm。此时,Y=1的概率记为π,Y=0的概率为1-π。由于概率π的取值范围为[0,1],影响因素X1~Xm线性组合\(\left(\beta_{0}+\beta_{1} X_{1}+\beta_{2}X_{2}+\beta_{3} X_{3}+\cdots+\beta_{m}X_{m}\right)\)的取值范围为(-∞,+∞)。因此,若要建立概率π与影响因素线性组合的等式关系(回归关系),需要对π进行logit变换,即\(\operatorname{logit}(\pi)=\ln\left(\frac{\pi}{1-\pi}\right)\)其取值范围为(-∞,+∞)。所建立的方程如下:

\(\operatorname{logit}(\pi)=\ln\left(\frac{\pi}{1-\pi}\right)=\beta_{0}+\beta_{1}X_{1}+\beta_{2} X_{2}+\beta_{3}X_{3}+\cdots+\beta_{m} X_{m}\)

经过简单变换,可以转换为:

\(\pi=\frac{e^{\beta_{0}+\beta_{1} X_{1}+\beta_{2}X_{2}+\beta_{3} X_{3}+\cdots+\beta_{m}X_{m}}}{1+e^{\beta_{0}+\beta_{1} X_{1}+\beta_{2}X_{2}+\beta_{3} X_{3}+\cdots+\beta_{m} X_{m}}}\)

在流行病学中,我们把阳性结果和阴性结果的概率之比称为优势(odds),即\(\frac{\pi}{1-\pi}\),因此方程式还可以变换为:

\(\ln (\text { odds })=\operatorname{logit}(\pi)=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\beta_{3}X_{3}+\cdots+\beta_{m} X_{m}\)

\(\text { odds }=e^{\beta_{0}+\beta_{1}X_{1}+\beta_{2} X_{2}+\beta_{3}X_{3}+\cdots+\beta_{m} X_{m}}\)

在上述的4个方程式中,β0为常数项,β1、β2、β3、…、βm是对应影响因素(自变量)的回归系数。

(二) 回归系数的意义

类似于多重线性回归的解释,我们将logit (π)视为一个整体,回归系数βi的解释为:保持其他自变量不变,自变量Xi每改变一个单位,logit (π)的平均改变量。另外,我们可以通过第4个公式将回归系数与流行病学中的优势比/比值比(odds ratio, \(O R=\frac{o d d s_{1}}{o d d s_{0}}=\exp\left[\beta_{i}\left(s_{1}-s_{0}\right)\right]\))联系起来。OR可以反映病因研究中暴露与结局的关联强度。当β=0时,OR=1, 暴露与结局间不存在关联;当β≠0时,OR≠1,暴露与结局间存在关联。特殊地,如果Xi赋值为

\(X_{i}=\left\{\begin{array}{ll}1 & \text { (暴露) } \\0 & \text { (非暴露) }\end{array}\right.\)

则暴露组与非暴露组发病的优势比为

\(O R_{i}=\exp \left(\beta_{i}\right)\)

当自变量Xi的回归系数βi>0时,ORi>1,提示Xi是结局的危险因素;当βi



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有