BMJ杂志：临床预测模型外部验证如何计算样本量？老郑也不懂～～～

您所在的位置：网站首页 › 临床预测模型验证中其中内部验证包括 › BMJ杂志：临床预测模型外部验证如何计算样本量？老郑也不懂～～～

BMJ杂志：临床预测模型外部验证如何计算样本量？老郑也不懂～～～

2024-07-09 15:07| 来源: 网络整理| 查看: 265

案例来自一个成人因新冠入院后疾病恶化预测模型的外部验证研究，图中为该案例随机生成的100条校准曲线。

每条曲线都由100个假设的随机样本（大约43个结局事件）估计，结局（是或否恶化）由“新冠模型的估算概率在外部验证人群中随机生成。从图中可见，即使模型预测在人群显示出很好的校准水平（图1中的直线），但不同的校准曲线上的抽样变异性很大。例如，对于估计概率介于0和0.05之间的个体，曲线上的观察概率约介于0和0.3之间。可见100名参与者的样本量太小，无法确保外部验证研究提供稳定的校准性能结果。

为了提高的估计模型性能的精确性，有研究人员提出了外部验证研究所需样本量的经验法则：对于二分类或生存结局资料，基于模拟和重采样研究的经验法则表明，至少需要100个事件和100个非事件来估算c统计量（AUC值）和校准斜率等指标，至少需要200个事件和200个非事件来得出包括校准曲线在内的校准图。这些经验法则通俗直观，但也存在问题，因为它们并不针对特定的模型或临床环境，而且预测性能估计值的精确度还取决于事件和非事件数量以外的因素，如预测值的分布。

需要注意的是外部验证研究的目的是估计预测模型在新数据中的表现，外部验证研究的样本量和构建预测模型的样本量是两码事。外部验证数据集的来源应能代表目标人群和环境（例如，在病例组合、结局风险、预测因子的测量和时间方面），通常应来自纵向队列研究（针对预后模型）或横断面研究（针对诊断模型）。

连续性结局预测模型外部验证的样本量

在验证连续性数据构建的预测模型（如血压、体重或疼痛评分）性能时，需同时关注不同的性能指标。BMJ指南认为至少应检查以下指标：

1、R2（外部验证数据集中所解释方差的比例），衡量的总体拟合度

2、校准截距（预测值平均值与观察值平均值之间的差异）

3、校准斜率（预测值范围内预测值与观察值之间的一致性）

4、残差（外部验证数据中预测值与观察值之间差异的方差）

为了精确估计这些指标，BMJ指南提出了四种不同的样本量计算方法（见图1）。与经验法则不同，这些计算方法考虑了实际临床环境和模型类型，因为它们要求研究人员在外部验证人群中设定 R2、校准截距、校准斜率和不同个体结果值的方差（或标准差）的假设真实值。

图2 连续性结局的四种样本量计算方法

设定这些真实值类似于医学研究中的其他样本量计算时做的基线假设。BMJ指南建议，假设值可以与原始模型开发研究中报告的值一致，尤其是在目标人群（用于外部验证）与模型开发研究中使用的人群相似的情况下。在确定真实R2方面，建议使用开发研究中报告的R2乐观调整估计值，即在模型开发过程中对任何过度拟合的估计值所调整后的R2。在校准方面，建议假定模型的预测在外部验证人群中校准良好，预期的真实校准截距可以设为零，校准斜率设为1。结果值的方差也可参考模型开发研究或任何总结目标人群结果的先前研究。

同时类似的，为确保模型性能估计值的95%置信区间宽度足够窄，相关指标的预期标准误差或置信区间宽度也需要设定。假设95%的置信区间宽度近似于2×1.96×标准误差。由于目标标准误差或置信区间宽度的定义是主观的，而且每个估值都会不同（因为它们的尺度不同），指南中也给出了几类样本量计算方法中置信区间宽度的一般建议值（图1）。计算过程所需的Stata和R代码可见https://www.prognosisresearch.com/software，部分工作可在 Stata和R模块pmvalsampsize中实现（见后面的示例代码）。计算可得出四种样本量。值得注意，图2中的几类方法所计算出的最大样本量应作为外部验证研究的最小样本量，以确保四种性能估计指标的精确度。

案例一：基于机器学习的腰背痛疼痛强度预测模型的外部验证

研究人员Lee及其同事使用物理操作方法来刺激慢性腰痛患者的临床疼痛，从而通过实验产生较低和较高的疼痛状态，并记录患者的疼痛强度。利用所获得的数据，研究人员建立了一个根据多个预测变量（包括脑成像和自律神经活动特征）的值来预测疼痛强度（从0到100的连续结果）的模型。模型开发完成后，在由53名参与者组成的验证数据中对其性能进行了评估，估计R2为0.40。

然而，由于验证数据规模较小，得出的模型性能置信区间较宽（例如，R2 95%CI 0.20-0.60），因此需要进行新的外部验证研究，以便对这一特定目标人群的性能进行更精确的估计。采用图2所示的方法计算了外部验证研究所需的样本量，该方法可在Stata模块 pmvalsampsize 中实现。

计算前先作出以下假设：

1、外部验证人群中的真实R2为0.40（基于既往验证数据中的R2估计值）；

2、模型校准良好（即预期的真实校准斜率为0，真实校准斜率为1）；

3、疼痛强度值的真实标准差为22.30（由开发研究中之前验证和训练数据集的平均标准差决定）。

4、目标是：校准截距的置信区间宽度≤5（考虑到结果范围为0到100，可以认为这是精确的），校准斜率≤0.3，R2≤0.1。

根据这四项假设，pmvalsampsize代码如下：

“pmvalsampsize, type(c) rsquared(.4) varobs(497.29) citlciwidth(5) csciwidth(.3)”

计算结果显示，精确估算不同估计值所需的样本量分别为：R2 886人，校准截距184人，校准斜率258人，残差235人。因此，外部验证研究至少需要886名参与者才能对所有四项指标进行精确估计。如果只招募了258名参与者，那么R2的预期置信区间便会宽至（0.31-0.49）。值得注意， R2的估计值不仅代表整体模型的拟合度，而且还有影响校准斜率和校准截距。

由于假设的R2值0.40只是一个最佳猜测。如果设为0.50会降低样本量，设为0.30则会增加样本量（R2 905人，校准截距214人，校准斜率400人，残差235人）。因此，如果假设R2为0.30，并尽可能招募905名参与者，结果会更加谨慎。

二分类结局预测模型外部验证的样本量计算

在评估二分类结局预测模型（如孕期先兆子痫发病）的性能时，研究人员也必须检查四种性能指标。

1、c统计量（即接收者操作特征曲线下的面积）衡量的区分度

2、校准截距（即观察/预期统计量，O/E）

3、校准斜率衡量的校准度

4、净效益。如果模型用于指导临床决策，那么临床效用可以用净效益统计量来衡量，净效益统计量权衡了在患者的估计事件概率超过特定阈值时决定对患者采取某种临床措施（如特定治疗或监测策略）的益处（如改善患者预后）与害处（如恶化患者预后、增加成本）。

类似的，BMJ指南建议二分类结局预测模型也计算四种模型性能指标的样本量。图3总结了这些计算方法，并提供了选择标准误的一般参考值，以缩小每种性能指标的置信区间宽度（2×1.96×标准误）。

图3 二分类结局预测模型的外部验证样本量计算方法

与连续性结局一样，二分类结局的样本量计算也需要设定各个方面以及模型在外部验证人群的预期表现，即风险比、c统计量、观察/预期统计量、校准斜率、模型估计概率分布（logistic回归）以及临床决策所关注的风险阈值。BMJ指南也给出了这些指标的设定建议，具体可见指南原文。

案例二：成人因新冠入院病情恶化模型进行外部验证

2021年，Gupta 等人开发了ISARIC 4C恶化模型，这是一个多变量logistic回归模型，用于预测高度疑似或确诊新冠的院内患者是否发生临床恶化（定义为任何呼吸支持或重症监护需求或死亡）。该模型基于英格兰、苏格兰和威尔士的 260 家医院（66705名患者）的数据开发，并在另一个伦敦8239名患者的数据集中进行了验证。模型的验证结果显示预测准确度较高（c统计量为0.77（95%CI: 0.76,0.78）；校准截距为0（95%CI: -0.05,0.05）；校准斜率为 0.96（95%CI: 0.91,1.01），与其他模型相比，净效益更高。不过还需要进一步的外部验证，以判断在引入新冠疫苗和其他干预措施后，模型预测性能是否可靠。

为了计算所需样本量，案例采用了图3所示的方法，并根据指南建议选择了预设值。假设在外部验证人群中，模型校准良好（即真实观测/预期统计量为1，真实校准斜率为1），根据先前的验证研究，预期c统计量为0.77。此外，假设模型在外部验证人群中的事件概率分布类似于Gupta等人在其补充材料中展示的直方图；通过反复试验，使用beta（1.33,1.75）分布（图4）来近似该直方图，得到了相似的形状，总体结果事件比例为0.43。

图 4 验证人群预测值（估计事件概率）直方图与假定beta曲线的比较

案例计划将观察/预期统计量的置信区间宽度控制在0.22（与假定的总体结果事件比例0.43相比，这相当于约0.05的绝对误差），校准斜率设为0.3，c统计量设为0.1，将标准化净效益定为0.2。应用样本量计算，相应的Stata代码如下：

pmvalsampsize, type(b) prevalence(.43) cstatistic(.77) lpbeta(1.33,1.75) oeciwidth(.12) csciwidth(.3) cstatciwidth(.1)

由此计算得出，观察/预期统计量至少需要423人（182个事件），校准斜率至少需要949人（408个事件），c统计量至少需要347人（149个事件），阈值为0.1的标准化净效益至少需要38人（16个事件），阈值为0.3的标准化净效益至少需要407人（175人事件）。因此，外部验证研究至少需要949名参与者（408个事件），才能对所有四项指标进行精确估算，尤其是确保得到正确的校准。这一样本量远大于经验法则中要求的100（或200）个事件和100（或200）个非事件。

当假设发生变化时，所需的样本量也会发生变化。例如，如果假设模型具有相同的估计概率分布，但校准斜率改为0.9或c统计量改为 0.72，则所需样本量均少于最初计算的 949人。然而，如果假定外部验证人群的病例组合分布较窄，因此使用的预测值分布比之前的Beta分布更紧密，则校准斜率的精确估计所需的样本量要大于949人。因此，在计算样本量时也要关注目标人群及其预测值的分布。在缺乏任何信息的情况下，可以考虑开展预实验。

如何评价样本量是否足够绘制校准曲线

校准过程已经被广泛推荐应用于验证研究中。目前，校准结果已经被列为TRIPOD（个人预后或诊断的多变量预测模型的报告规范）指南中的一个条目。由于模型预测值参与到患者咨询和临床决策。因此，外部验证研究必须对校准曲线进行精确估计，以可靠地检查观察值和预测值的校准情况。理想情况下，校准曲线应在整个预测值范围内精确，这也是样本量标准旨在精确估算截距（观察/预期统计量）和校准斜率的原因。从实际应用的角度来说，校准曲线至少要在与临床决策相关的概率范围的区域内保持精确。

然而，要精确估计整条校准曲线，可能需要非常大的样本量。此外，选择校准指标（斜率和校准截距）的目标标准误既主观也难以估量，特别是对于二分类结局，斜率的估算是基于对数尺度。为解决这一问题，指南建议绘制校准曲线的经验分布图(用样本分布来估计总体分布)，这些曲线是根据特定选择的目标标准误（例如，校准斜率的置信区间宽度为0.3）确定样本量的数据集产生的，以评估校准的变异性，尤其是在包含与决策相关的临界值的区域。具体方法如下：

1、使用与样本量计算中相同的假设，模拟生成大量数据集（例如，100或200个）

2、分别为每个数据集绘制校准图，包括校准曲线。

3、在一张图上叠加所有校准曲线，以反映在该样本量下的单个外部验证研究在实践中可能观察到的校准曲线范围。如果目测变异性较高，则需要更大的样本量。反之，如果变异性低，则样本量较少即可，尤其是在认为无法达到原始样本量前提下。

4、如前所述，研究人员至少要确保与临床决策最相关区域的曲线变异性较低。

为了解释这种方法，此处继续基于上文的两个应用案例进行演示。

图5A为基于案例一所绘制的100 条校准曲线的经验分布，以校准斜率的标准误为 0.0765为目标（置信区间宽度为0.3）。对于疼痛强度这一连续性结局，假设校准斜率为1，则需要258名人来估算校准斜率。从图像来看（图5），基于此样本量的校准曲线分布范围相当集中。在预测值小于80时，观察到的曲线分布只相当于疼痛评分相差5到10分。只有在预测值较高时，变异性才会更明显（差异可达20左右），例如，在预测值为90时，疼痛评分的曲线跨度为80-100。如果该范围内的数值代表对临床决策至关重要的阈值，那么可能需要更大的样本量。然而，该案例中任何超过 80 分的值都可能被归类为非常高，因此在此上限范围内观察到的变异性并不十分关键。所以计算得出的258名参与者的目标样本量仍然是合理的。

图 5 疼痛强度预测模型（基于258名参与者）校准曲线分布

图6 Covid-19恶化预测模型（基于949名参与者，408个事件）的校准曲线分布

案例二中（图6），对于有949名参与者（408个事件）的新冠恶化模型，在整个事件概率范围内，变异性也相当小，在大多数区域，观察到的曲线差异相当于观察到的概率差异约为0.05 至0.15，相当精确，但在高概率（0.8至1）时变异性稍大；如果将校准斜率的目标置信区间宽度缩小到0.2（而不是0.3），那么所需的最小样本量就会大幅增加到2137名参与者（918个事件），但校准曲线变异性的降低幅度却相对较小（在大多数范围观察到的概率差异约为0.05至0.10）。因此，如此大规模地增加样本量可能并不是一个推荐的选择。

前文中我们也提到过经验法则计算样本量。在案例二中，100或200个事件的经验法则分别对应于233或466名参与者，这导致观察到的校准曲线差异更大，在大多数区域观察到的概率差异从0.15到0.2（200个事件）到0.2到 0.25（100个事件）不等，并带来了更多校准一致性的不确定性（在可能存在高风险阈值的范围内）。因此，如果换用经验法则来减少样本量并不合理，最初计算出的949样本量仍然合理且实用。

连续或二分类结局预测模型外部验证中的缺失数据问题

到目前为止，我们假定外部验证研究没有缺失数据，但实际上一些参与者可能会有结果缺失（如失访）或预测缺失（如预测因子值缺失）。在这种情况下，计算样本量时可以考虑预期的数据缺失。例如，案例二中，如果预计5%的参与者会有结果或预测值缺失，则应招募999名参与者（999×0.95=949）。

生存结局的预测模型外部验证样本量计算

生存结局的预测模型的外部验证方法更为复杂。为了解决这个问题，BMJ指南提出了一种基于模拟的方法来评估校准、区分度和净效益估计值的精确度。简而言之，在假设事件和删失分布、随访时间、模型的线性预测因子分布以及校准性能的情况下，模拟特定样本量的外部验证数据集。然后，针对每个外部验证数据集，估算每个时间点的预测性能和校准曲线，并检验其精确度和变异性。该方法的Stata 和 R 代码可见https://www.prognosisresearch.com/software.

小结

本文是我们关于临床预测模型评估系列推文的最后一篇。通过这三篇，我们讨论了不同类型内部验证评估方法和原则、外部验证研究的设计和分析，以及样本量计算对于精确评估预测模型性能的重要性。对于初入预测模型领域的科研人员来说，这系列推文是个很好的入门资料，同时也推荐阅读BMJ指南原文，里面有更为细致方法学讲解，理解并应用这一指南无疑会进一步提高模型预测研究的质量。

参考资料： 1.Riley R D, Snell K I E, Archer L, Ensor J, Debray T P A, van Calster B et al. Evaluation of clinical prediction models (part 3): calculating the sample size required for an external validation study BMJ 2024; 384 :e074821 doi:10.1136/bmj-2023-074821

详情请点击下方（将链接复制到浏览器查看）：

https://mp.weixin.qq.com/s/zW1E_xSA8wCR47TgfOioeQ

详情请点击右方：服务 | 我们提供公共数据库挖掘、统计与论文写作指导返回搜狐，查看更多

【本文地址】

公司简介

联系我们