【统计方法与案例点评】生存分析及其注意事项 您所在的位置:网站首页 简述生存分析研究的主要内容 【统计方法与案例点评】生存分析及其注意事项

【统计方法与案例点评】生存分析及其注意事项

2024-06-28 19:17| 来源: 网络整理| 查看: 265

生存分析中有两个结局,一是事件结局发生与否,通常是一个二分类变量,如研究胃癌进展的影响因素,患者出现进展表示结局发生,未进展则表示结局未发生。二是结局发生的时间,如从研究开始到出现进展,这一段时间就是结局发生的时间;如果直至研究结束仍未出现结局事件,则时间为从研究开始到研究结束的时间跨度;如果研究对象中途退出,其时间为研究开始到退出的时间跨度。

结局发生很容易确定,一般习惯将其编码为1。而结局未发生则更为复杂一些,因为它至少包含了两种情形:一是直到研究结束,研究对象仍未出现结局事件;二是在研究中途因为各种原因失访(如搬家失去联系、由于车祸等意外事件死亡等),导致无法观察到结局事件。不管是由于什么原因,只要没有出现结局事件,一般都将其归为一类,编码为0,与出现结局事件相对应。

对于事件未发生这种情形,生存分析中统称为截尾数据(censored data)。在其他分析方法中,如果数据观察不到,就被删除了,导致数据利用率很低。而生存分析中则可以利用这部分失访数据,因为它至少提供了这样的信息:截止到失访前,该研究对象并没有发生结局事件。因此,生存分析往往能提供更多的一些信息。

三、生存资料分析的常用方法

生存分析主要有两大类目的:一是组间比较,二是多因素分析(如危险因素筛选、确定某一主要研究因素后对混杂因素的校正等)。

1.组间比较方法:

与以往的t检验、卡方检验等不同,生存分析既不是比较多个均数,也不是比较多个率,而是比较生存曲线(survival curve),因为生存数据有不同时间点的生存率,可以将这些生存率连接起来,形成的一条线就是生存曲线。生存曲线描绘了以累积生存率为纵坐标,以时间为横坐标的累积生存率随时间的变化图。

关于生存曲线的组间比较,目前常用的方法有两种,即log-rank检验和Wilcoxon检验(有的软件中称为Breslow检验)。其中log-rank检验是不少临床医生习惯选择的方法,但其实这两种方法的选择还是需要结合一定的实际情形。

一般来说,log-rank检验主要反映了远期生存情况,而Wilcoxon检验主要反映了早期的生存情况。因此,生存资料的组间比较中,如果log-rank检验有意义而Wilcoxon检验无意义,表明远期的生存差异较大,近期生存差别不大。如果log-rank检验无意义而Wilcoxon检验有意义,表明近期的生存差异较大,远期生存差别不大。如果两种检验都有意义,则表明近期和远期的差异均较大。

2.多因素分析方法:

多因素分析总的来说有两大类方法,即参数法和半参数法。参数法常见的有Weibull回归、指数回归等。该法对数据分布有一定要求,如只有生存数据满足指数分布才能用指数回归,满足Weibull分布才能用Weibull回归。而判断数据的分布对于非统计学专业而言可能略显复杂,因此参数法在实际中用的不是特别多。

半参数法也就是我们平时所说的Cox回归,与参数法相比,Cox回归的优点是不用考虑数据的分布情况,任何分布数据都可以用该法。正因为如此,实际中Cox回归应用较为广泛。

一般来说,如果能够确定生存数据符合某种分布,那么采用参数法可以更好地拟合数据,描述数据的规律;但如果无法确定数据符合某一分布,或数据并不满足某一特定分布,此时用Cox回归更为合适一些。

尽管Cox比例风险模型不强调生存时间的分布,但并不是说它可以用于任意的生存数据。该法的应用有一个重要的前提假设,即等比例风险(Proportional hazards)。它表示某因素对生存的影响在任何时间都是相同的,不随时间的变化而变化。如吸烟对肺癌的影响,不管是第1、2、……10年,吸烟对肺癌的危险都是相同的。

如果满足这一假定条件,通常生存曲线应大致平行,否则可能说明不满足这一条件。如果这一假定不满足,此时采用Cox回归其结果往往是错误的,通常建议采用非等比例的Cox回归更为合理。

生存分析主要有两大类目的:一是组间比较,二是多因素分析(如危险因素筛选、确定某一主要研究因素后对混杂因素的校正等)。

1.组间比较方法:

与以往的t检验、卡方检验等不同,生存分析既不是比较多个均数,也不是比较多个率,而是比较生存曲线(survival curve),因为生存数据有不同时间点的生存率,可以将这些生存率连接起来,形成的一条线就是生存曲线。生存曲线描绘了以累积生存率为纵坐标,以时间为横坐标的累积生存率随时间的变化图。

关于生存曲线的组间比较,目前常用的方法有两种,即log-rank检验和Wilcoxon检验(有的软件中称为Breslow检验)。其中log-rank检验是不少临床医生习惯选择的方法,但其实这两种方法的选择还是需要结合一定的实际情形。

一般来说,log-rank检验主要反映了远期生存情况,而Wilcoxon检验主要反映了早期的生存情况。因此,生存资料的组间比较中,如果log-rank检验有意义而Wilcoxon检验无意义,表明远期的生存差异较大,近期生存差别不大。如果log-rank检验无意义而Wilcoxon检验有意义,表明近期的生存差异较大,远期生存差别不大。如果两种检验都有意义,则表明近期和远期的差异均较大。

2.多因素分析方法:

多因素分析总的来说有两大类方法,即参数法和半参数法。参数法常见的有Weibull回归、指数回归等。该法对数据分布有一定要求,如只有生存数据满足指数分布才能用指数回归,满足Weibull分布才能用Weibull回归。而判断数据的分布对于非统计学专业而言可能略显复杂,因此参数法在实际中用的不是特别多。

半参数法也就是我们平时所说的Cox回归,与参数法相比,Cox回归的优点是不用考虑数据的分布情况,任何分布数据都可以用该法。正因为如此,实际中Cox回归应用较为广泛。

一般来说,如果能够确定生存数据符合某种分布,那么采用参数法可以更好地拟合数据,描述数据的规律;但如果无法确定数据符合某一分布,或数据并不满足某一特定分布,此时用Cox回归更为合适一些。

尽管Cox比例风险模型不强调生存时间的分布,但并不是说它可以用于任意的生存数据。该法的应用有一个重要的前提假设,即等比例风险(Proportional hazards)。它表示某因素对生存的影响在任何时间都是相同的,不随时间的变化而变化。如吸烟对肺癌的影响,不管是第1、2、……10年,吸烟对肺癌的危险都是相同的。

如果满足这一假定条件,通常生存曲线应大致平行,否则可能说明不满足这一条件。如果这一假定不满足,此时采用Cox回归其结果往往是错误的,通常建议采用非等比例的Cox回归更为合理。

四、生存分析的注意事项

例1:欲观察某基因表达阴性和阳性的肺癌患者其疾病进展情况是否有差异,该研究采用生存分析,以"进展"作为结局,"进展时间"作为生存时间。研究采用log-rank检验,结果认为,两组的进展并无统计学差异(χ2=1.279,P=0.258)。两组生存曲线见图1。

图1基因表达阴性组和阳性组肺癌患者的生存曲线图

辨析:从图1可以看出,两条生存曲线并不是很平行,总的来说,前期差异大一些,而后期差别逐渐变小。而log-rank检验主要是针对后期的差异,因此对于这种情形很难出现统计学差异。

建议:对于这种生存曲线不是很平行的情况,建议同时计算log-rank检验和Wilcoxon检验的结果,并进行对比。该研究Wilcoxon检验结果为χ2=3.892,P=0.048,可以认为差异有统计学意义。这一结果与log-rank结果恰好相反,但这并不矛盾,而是反映了生存曲线的变化情况,即前期差异较大,而后期差异较小。

例2:某研究观察两种疗法治疗肝癌的生存情况,该研究采用Cox回归,校正了性别、年龄、分期等混杂因素,分析两种疗法其生存时间的影响。Cox回归结果显示,治疗因素(传统疗法赋值为1,新疗法赋值为0)的χ2=1.536,P=0.217,认为不同疗法对生存的影响并无统计学意义。两种疗法的生存曲线图见图2。

图2两种疗法治疗肝癌的生存曲线图

辨析:从图2可以看出,两条生存曲线交叉,明显不平行,应该不满足等比例风险假定,此时采用Cox回归很可能出现错误的结果。事实上,对等比例风险假定进行验证的结果也提示不满足这一条件。

建议:对于不满足等比例风险假定的数据,可考虑在模型中加入时间与治疗因素的交互项,这样可以准确地描述组别对生存时间的影响。加入交互项后的结果如表1所示。

这一结果与Cox回归明显不同,这是因为,加入交互项后,治疗因素反映的是初始治疗时间的情况,即在一开始治疗的时候,传统疗法的死亡风险远远高于新疗法(危险比为4.268)。

交互项则反映了随着时间的变化情况。由于其参数估计值为-0.09,提示随着时间的延长,其差别越来越小。到了一定时间后,两组的差别开始发生逆转,如图2所示,一开始新疗法生存率高于传统疗法,而到了大约30个月左右,新疗法的生存率开始低于传统疗法。

例1:欲观察某基因表达阴性和阳性的肺癌患者其疾病进展情况是否有差异,该研究采用生存分析,以"进展"作为结局,"进展时间"作为生存时间。研究采用log-rank检验,结果认为,两组的进展并无统计学差异(χ2=1.279,P=0.258)。两组生存曲线见图1。

图1基因表达阴性组和阳性组肺癌患者的生存曲线图

辨析:从图1可以看出,两条生存曲线并不是很平行,总的来说,前期差异大一些,而后期差别逐渐变小。而log-rank检验主要是针对后期的差异,因此对于这种情形很难出现统计学差异。

建议:对于这种生存曲线不是很平行的情况,建议同时计算log-rank检验和Wilcoxon检验的结果,并进行对比。该研究Wilcoxon检验结果为χ2=3.892,P=0.048,可以认为差异有统计学意义。这一结果与log-rank结果恰好相反,但这并不矛盾,而是反映了生存曲线的变化情况,即前期差异较大,而后期差异较小。

例2:某研究观察两种疗法治疗肝癌的生存情况,该研究采用Cox回归,校正了性别、年龄、分期等混杂因素,分析两种疗法其生存时间的影响。Cox回归结果显示,治疗因素(传统疗法赋值为1,新疗法赋值为0)的χ2=1.536,P=0.217,认为不同疗法对生存的影响并无统计学意义。两种疗法的生存曲线图见图2。

图2两种疗法治疗肝癌的生存曲线图

辨析:从图2可以看出,两条生存曲线交叉,明显不平行,应该不满足等比例风险假定,此时采用Cox回归很可能出现错误的结果。事实上,对等比例风险假定进行验证的结果也提示不满足这一条件。

建议:对于不满足等比例风险假定的数据,可考虑在模型中加入时间与治疗因素的交互项,这样可以准确地描述组别对生存时间的影响。加入交互项后的结果如表1所示。

这一结果与Cox回归明显不同,这是因为,加入交互项后,治疗因素反映的是初始治疗时间的情况,即在一开始治疗的时候,传统疗法的死亡风险远远高于新疗法(危险比为4.268)。

交互项则反映了随着时间的变化情况。由于其参数估计值为-0.09,提示随着时间的延长,其差别越来越小。到了一定时间后,两组的差别开始发生逆转,如图2所示,一开始新疗法生存率高于传统疗法,而到了大约30个月左右,新疗法的生存率开始低于传统疗法。

五、小结

生存分析包含了多种方法和思路,尽管log-rank检验和Cox回归在实际中应用广泛,但这并不意味着它们可以应用于任意场合。从本文介绍的2个例子不难看出,实际分析时必须结合自身数据,采用恰当的方法,否则会导致错误的结果。

生存分析包含了多种方法和思路,尽管log-rank检验和Cox回归在实际中应用广泛,但这并不意味着它们可以应用于任意场合。从本文介绍的2个例子不难看出,实际分析时必须结合自身数据,采用恰当的方法,否则会导致错误的结果。

参考文献(略)返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有