预测模型研究的偏倚风险和适用性评估工具解读

2024-06-26 10:28| 来源: 网络整理| 查看: 265

预测模型是指利用多个预测因素估计个体发生某种结局的概率，又被称为风险预测模型、预测指标或风险评分。医学研究中的预测模型一般分为诊断预测模型和预后预测模型2类，前者预测的是个体在当下是否罹患某种结局，后者预测的是个体在将来是否发生某种结局[1]。预测模型研究包括预测模型的开发、验证或更新。近些年，预测模型研究呈明显上升趋势，在肿瘤和心血管疾病领域中已有诸多应用[2-5]。

系统综述在循证医学和临床指南的制定中起着关键作用，是干预和诊断试验最可靠的证据形式。针对预测模型的系统评价是一个较新的领域，随着预测模型的不断发展，越来越多的研究开始系统地评估和总结关于预测模型效果的证据[6]。由于原始研究的潜在偏倚（bias）会影响研究结果，偏倚风险（risk of bias）评估是任何系统综述的必要步骤，以便在此基础上筛选出合格研究进行证据整合，为临床循证决策提供依据。目前已有的相关质量评价工具包括针对预后研究的质量评价工具QUIPS（quality in prognosis studies）和针对诊断试验的偏倚风险评估工具QUADAS-2（quality assessment of diagnostic accuracy studies）[7-10]。此外，研究者还可以使用Cochrane偏倚风险评估工具2.0评价随机对照设计的预测模型效果研究的方法学质量[7, 11]，或使用ROBINS-Ⅰ（Risk Of Bias In Nonrandomized Studies of Interventions）工具评价非随机设计的比较研究[12-13]。然而，上述工具只针对特定的研究设计且研究目的不同，QUIPS针对的是旨在发现危险因素的预后研究，QUADAS-2针对的是利用单一诊断方法的诊断实验，Cochrane偏倚风险评估工具2.0和ROBINS-Ⅰ针对的是旨在评价有效性或安全性的随机或非随机对照实验，由于研究目的都不是为了构建预测模型，因此无法满足日益发展的预测模型及其系统评价的需求，亟需开发针对风险预测研究的质量评价工具。

2019年，荷兰乌得勒支大学Moons教授牵头的38位学者，在借鉴随机对照试验、诊断试验和系统综述偏倚风险评估工具的基础上，经7轮特尔菲法和多次预实验，提出了预测模型研究的偏倚风险评估工具（Prediction model Risk Of Bias ASsessment Tool，PROBAST）[14]。本文将对该工具的适用范围、评估步骤、条目和注意事项进行解读，以方便读者了解、使用和推广该评价工具，更好地提升预测模型原始研究和综述的质量。

一、PROBAST工具简介

PROBAST工具适用于评估多因素诊断/预后模型的开发或验证的原始研究的偏倚风险和适用性。预测模型的开发包括在现有预测模型中增加新的预测因素，如果在对现有模型验证时进行了模型的更新和扩展，也属于开发新模型。PROBAST不只用于预测模型的系统综述，也可作为预测模型研究的通用评价工具。

PROBAST工具的评价内容为预测模型研究的偏倚风险和适用性。偏倚是指导致研究结果与真实情况差异的系统误差。在预测模型开发和验证中，研究设计、实施和分析中的局限性都可能影响模型预测能力并导致偏倚的产生。模型的预测能力通常用校准度（calibration）和区分度（discrimination）进行评价，对于某些诊断模型也会用到分类（classification）能力[15]。其他医学研究领域中发现的许多偏倚来源也同样与预测模型研究相关，如结局评价者对其他研究特征是否采用盲法、预测因子或结局的定义和测量是否始终保持一致等。

当原始研究的人群、预测因素或结局与系统综述的特定研究问题存在差异时，可能产生适用性的问题。例如，预测模型的研究对象来自医院，而系统综述关注的是社区人群，这时报告的预测模型的校准度和区分度可能并不适用，因为医院来源患者的疾病通常比社区来源的更危重。而当原始研究的人群纳入标准、预测因素和结局与系统综述的问题直接匹配时，就不会出现适用性的顾虑。由于系统综述在检索原始研究时通常会设置更宽泛的检索策略，因此，需要仔细评估每个原始研究对实际问题的适用性。

二、评估步骤

利用PROBAST工具开展预测模型的系统综述时，偏倚风险的评估一般分4步：①明确系统综述的问题；②区分预测模型研究的类型；③评估各领域偏倚风险和适用性；④对偏倚风险和适用性的总体判断。其中，步骤1对每篇文献进行一次评价，步骤2需要对文献中每个相关结局的模型完成一次评价，而步骤3和4需要对文献中每个不同预测模型的开发和验证单独进行一次评价。

步骤1：明确系统综述的问题：系统综述的问题明确可以参考CHARMS清单，从模型使用目的、目标人群、预测因素和预测结局出发进行评价[16]。

步骤2：区分预测模型研究的类型：不同的信号问题适用于不同类型预测模型的评估，每个模型按其研究内容可以分为“仅开发”“开发加验证”和“仅验证”3类。实际操作需要注意3点：①此处模型验证特指外部验证，即采用独立于构建模型所用训练数据集的新数据集；②模型更新或参数调整视为构建了新模型；③每个预测模型都要单独评价1次，如同时报告模型构建及验证或模型验证及更新时，需要进行拆分。

步骤3：偏倚风险和适用性评价：PROBAST工具将预测模型研究中所涉及的潜在偏倚分为4个领域（domain），即研究对象、预测因素、结局和分析，每个领域包含4个方面：用来支持判断的信息、2~9个信号问题（共20个）、偏倚风险的判断和判断的基本原理（表 1）。评估者根据文献对每个信号问题进行判断，结果为“是”“可能是”“可能不是”“否”或“未提供信息”。“是”代表低偏倚风险，“否”代表高偏倚风险。若原始研究中确实未介绍相关信号问题的内容，判断为“未提供信息”。若原始研究中提供的信息不足以得出确定的判断，可归为“可能是”或“可能不是”。预测模型的适用性评价包含前3个领域，判断过程与偏倚风险相似，但没有信号问题。

表 1 PROBAST工具的偏倚风险和适用性评价的第3步内容汇总表选项

步骤4：总体判断：在步骤3偏倚风险分类的基础上，评估者可以将预测模型整体和每个领域的偏倚风险分为低、高或不清楚。每个领域内的结果汇总借鉴了“短板理论”，只有该领域所有信号问题都回答“是”或“可能是”才视为“低风险”，只要有1个信号问题回答“否”或“可能不是”就有可能为“高风险”，当某个信号问题被判断为“未提供信息”而同时其他信号都为“低风险”时，则该领域归为“不清楚”。同样，对于整体偏倚风险，只有每个领域都评为“低风险”才将整体视为“低风险”，只要1个领域被评为“高风险”就视为高风险，若某个领域被评为“不清楚”而同时其他领域都为“低风险”时，则整体归为“不清楚”。此外，对于构建模型的研究，即便4个领域都评为低风险，若没有外部验证仍降级为高风险；但验证模型的研究，只要被验证模型的构建基于庞大数据集且构建时进行了内部验证，仍可认为整体属于低风险。

同样，基于步骤3每个领域的适用性的评价，评估者可以将预测模型整体的适用性评为低、高或不清楚。对于研究对象、预测因素和结局3个领域，只有当所有领域都为低风险时，整体才判断为“低风险”，如果有1个或多个领域判断为高风险，则整体归为“高风险”。若某个领域判断为“不清楚”且所有其他领域都为低风险时，则整体归为“不清楚”。

对于整体汇总结果，工作组建议以表、图、文字3种形式呈现，以利于读者快速了解研究整体水平。其中，表格列举每个研究在每个领域及汇总的风险水平（表 2），图展示每个领域上各等级的研究所占比例（图 1），文字讨论补充各种偏倚风险构成模式对研究问题的证据支持力度。

表 2 PROBAST评价结果示意表表选项图 1 PROBAST评价结果示意图图选项三、部分条目解读

1.研究对象：设有2个信号问题，主要用来说明研究对象的代表性，以便评价者判断预测模型是否正确反映了源人群中预测因素和预测结局之间的关系。实际评估时，需要掌握两点：①对于研究设计，预后预测模型研究推荐前瞻性队列研究，而诊断预测模型研究推荐横断面研究，少部分依赖随访获取结局信息的也可采用队列研究。模型研究不推荐使用传统的病例对照研究，巢式病例对照研究或病例队列研究经特殊分析后可视为低偏倚风险。②对于研究对象，纳入排除标准要慎重制定，避免诊断预测时排除合并其他疾病者、预后预测时纳入基线已患疾病尚未确诊者等不当处理。

2.预测因素：设有3个信号问题，主要用来判断所有研究对象是否运用了相似的、真实可靠的方法来进行定义和测量预测因素。预测因素的范畴很广，包括人口学特征、医疗史、体格检查、影像指标、电镜指标、血尿生化、组织标本、疾病分期或特征、组学及其他生物指标等。设置的3个问题分别对应预测因素的定义及测量方法、测量过程、测量时点。推荐所有研究对象都采用同一定义、同一测量方法，测量时采用盲法，所有预测因素的信息在模型应用的时点都可获取。实际评估时，需要掌握3点：①预测因素指研究中纳入探讨范围的所有潜在预测因素，不考虑是否纳入最终模型；②仅针对某预测模型的系统综述，可只关注最终纳入模型的预测因素；③预测因素在结局发生之前测量的前瞻性研究，默认采用了盲法，而若预测因素在结局发生之后才测量或采用回顾性队列时，如对既往影像资料重新读片或回顾性检测冷藏标本时，测量过程就容易受到已发生结局的干扰，偏倚风险较大。

3.结局：设有6个信号问题，主要用来判断所有研究对象是否运用了相似的、真实可靠的方法来进行定义和测量预测结局。如果结局的定义或测量不当，直接导致结局错分，从而造成模型的回归系数、截距和基线风险都发生偏倚，影响模型效果评估。与预测因素相似，此处的6个问题对应了预测结局的定义及测量方法、测量过程和测量时点。推荐所有研究对象都采用同一预先设定的定义、同一测量方法，测量时采用盲法，并选取恰当的时点。实际评估时，需要掌握5点：①预测结局的定义和测量需要较强的临床知识，很多结局已经形成默认的推荐方法，建议直接参考；②一般结局定义根据多个条件判断时，容易对条件拿捏不一，偏倚风险较大；③某些情况下测量结局时很难完全避免预测因素的干扰，如结局本身需要专家参考尽可能多的信息才能判断时，容易高估预测因素和结局之间的关联强度；④诊断试验有时肯定无法对每个对象都采用完全相同的结局测量方法，如肿瘤领域，作为金标准的病理检测只会用在已有检查结果阳性（如影像学检查）的个体中，阴性个体后续或者不做任何进一步检查，或者采用其他准确性较低的替代确诊方法，会导致偏倚；⑤预测因素与结局测量的时间间隔是否恰当，也需要较强的临床知识加以判断。诊断预测研究一般要求预测因素和结局指标的测量在同一时间点，少数结局的测量和预后预测研究一样，也需要随访。此时，时间间隔太短会造成结局出现太少，太长会造成结局性质可能会发生变化。

4.分析：设有9个信号问题，主要用来说明统计方法的选择和使用是否恰当，以便评价者判断由于统计分析和报告的问题，哪些结果是虚假的、存在偏倚的。采用不恰当的统计方法或者忽视重要的统计原则都会增加偏倚风险。该部分评价需要较多的专业知识，因此建议至少需要1位在预测模型研究领域的统计专家参与。实际评估时，需要掌握：①预测模型研究中，样本量更关心的是发生预测结局的研究对象数。构建模型时，当发生结局的研究对象数/候选预测因素数比值＜10时，除要求采用各种内部验证技术定量评估外，后续还应再采用收缩回归系数等对参数进行调整；②构建模型时，尽量不要到分析阶段再将连续变量根据手头数据特征转为二分类变量，必须如此操作时，同样要补充内部验证和收缩回归系数调整，否则只要有1个连续变量在分析阶段临时转为二分类变量进行预测，即视为高风险。但是那些在设计阶段就决定按照某标准（如临床界值）分为2组的连续变量，不在该讨论范围之内；③分析过程中，对某多分类的预测因素进行亚组合并时，若合并后该因素仍未纳入最终模型，可认为偏倚风险较小，该合并是为了处理某些亚组人数相对较少，反之偏倚风险较大；④避免分析时因某些预测因素难判断、存在异常值或缺失而将研究对象剔除一部分，如剔除预测因素模糊不清（如影像学检查或实验室检查）的个体，可能导致纳入分析的都是极端取值个体，高估模型区分能力；注意并非绝对的只要有数据因为上述原因剔除就一定判断为“高风险”，当只有一小部分研究对象不纳入分析且纳入部分仍具有代表性时，偏倚风险可能评价为“低风险”，但遗憾的是到底多小才认定为“可以接受的一小部分”尚无明确标准；⑤变量筛选切忌单纯依赖单变量分析，而是要根据已有临床知识、预测因素测量的可靠性、一致性、适用性、可及性和测量成本；⑥病例-队列、巢式病例-对照研究要考虑抽样比例计算绝对结局事件概率（如采用逆概率加权的logistic回归）；结局存在竞争风险或随访存在删失的数据，需采用整合时间-事件信息的Cox回归方法；结局可以复发（如癫痫）时需采用多水平模型或随机效应模型；⑦当结局事件过少、结局事件数/待筛选变量数比值过小、连续变量转为二分类变量，利用单变量分析或前进/后退自动法筛选变量时，过度拟合问题会更为突出，要补充内部验证和收缩回归系数调整。

四、实例分析

乳腺癌风险评估的Gail模型目前已成为欧美发达国家普遍采用的乳腺癌风险预测工具[17]。本文以此为例，应用PROBAST工具进行偏倚风险评价，由于适用性评价需结合系统综述的具体问题，此处暂不涉及。Gail模型的偏倚风险评价结果显示（表 3），即便已经公认的预测模型，也仅有1个维度可评估为低偏倚风险，但考虑到样本量不大且未进行外部验证，整体视为“高偏倚风险”。当然，该评估结果与当时预测模型的方法学尚未成熟、偏倚风险的意识尚未形成有关，但也侧面反映出关注和提高预测模型原始研究质量的必要性和紧迫性。

表 3 PROBAST应用举例：偏倚风险判断表选项五、讨论

PROBAST是严格开发的专门评价开发、验证或更新个体水平预测模型的原始研究偏倚风险的工具。它适用于诊断预测研究和预后预测研究，且不受医学领域、研究结局或预测因素的变量类型、统计方法的限制。PROBAST的潜在使用者包括系统综述的作者、医疗保健决策者、对循证医学感兴趣或参与指南制定的研究人员和临床医生以及期刊编辑和审稿人。在实际使用时，需要评估者具备预测模型和临床两方面的专业知识，因而单纯临床医生或者方法学专家都难以单独完成。另外，预测模型的系统综述作为相对独立的研究领域，不仅偏倚风险和适用性评价有独特之处，其实从研究问题的提出、文献检索、文献纳入排除、数据分析、结果解读到论文报告都有针对性的方法学探讨，也正在逐渐形成一套独立的方法学体系[6, 16, 18-20]。

目前，对预测模型方法的研究仍处于起步阶段，但预测模型的系统综述却越来越多。PROBAST的出现对今后相关原始研究和系统综述都有很好的推动和规范作用。与其他医学评价指南一样，PROBAST也会随着预测模型研究方法的发展而不断更新。因此，PROBAST工具的出现，至少会推动以下研究领域的兴起和发展：①针对PROBAST工具的细节完善和方法学探索，如对于机器学习建模的针对性条目的开发与验证、针对生存分析资料模型评价指标的优化等；②针对已有预测模型的质量评价，找出差距以便针对性完善现有预测模型的不足；③针对PROBAST工具的推广效果评价，通过对比工具提出前后，发表的预测模型质量变化，反映工具的推广和接受程度；④针对预测模型的系统综述，方法学的提出将会吸引不同专业领域的学者关注对预测模型进行系统综述，综合回答实际问题。而伴随上述这一系列研究的积累和探讨，预测模型的原始研究势必会愈来愈规范和科学，相关系统综述工作也势必会越来越完善和普及。

利益冲突 所有作者均声明不存在利益冲突

【本文地址】

公司简介

联系我们