临床试验中P值的意义及结果

2024-07-14 00:47| 来源: 网络整理| 查看: 265

P值的意义

2014年《Nature》杂志刊发了《Scientific method：statistical errors》并配发述评，对统计检验的“金标准"P值提出了质疑，认为P值并没有科学家所认为的那样可信。该文成为Nature杂志最受关注的文章之一（http：//www.altmetric.com/details/2115792#score）。鉴于目前存在关于P值和统计意义（Statistical significance）的误解及误用，ASA于2016年3月在线发布《ASA关于P值的声明：背景、过程和目的》，在此基础上推出了《ASA关于统计意义和P值的声明》（http：//dx.doi.or 10.1080/00031305.2016.1154108）。该声明给出了P值的定义及六条准则。p值是指在特定的统计假设模型下，数据的某个统计指标（如两组样本均数之差）等于观察值或比观察值更为极端的概率。六条关于P值的准则，反映了ASA对P值的官方态度：

1) P值表示数据与特定的统计模型不匹配的程度。即在原假设（如两组之间没有差异）的前提下，P值越小，说明数据与模型不匹配程度越高，因此越有理由拒绝原假设。

2) P值不是研究假说为真的概率，也不是数据由随机产生的概率。P值说明数据与假设的关系，而不解释假设本身。

3) 科学结论、商业决策或政策制定不能取决于P值是否超过规定的界值。成功的决策应考虑实验设计、数据质量、外部证据、假设的合理性等诸多因素。仅仅看P值是否小于0.05是非常具有误导性的。

4) 正确的推断依赖于报告的全面性和透明度。研究者要公布研究中所有的假设、数据收集和统计分析过程，以及P值。

5) P值或统计意义并不表示处理效应(Treatment effect)的大小或结果的重要性。再微小的效应，当样本量足够大或测量精度足够高时，都能获得较小的P值；反之再大的效应在样本量不足或测量精度不高时，其P值也会很大。

6) P值本身并不是衡量一个模型或假说的标准。数据分析时不能仅计算p值，而应同时采用其他适合的或可行性更高的方法。

该声明尽管并没有超越既往P值的学术内涵，但ASA从本质上全面透彻地梳理了统计界关于P值的统计意义并形成共识，所有科研人员、统计学人员、以及与统计学应用相关的人员都应该了解这份共识。

基于P值的试验结果解读

仅仅基于P值做结论推断过于简单，还必须关注与P值相关的其他事项。2016年9月《NEJM》杂志刊登了Pocock和stone联手发表的两篇重磅论文，《The Pnmary outcome fails—what next？》和《The Primary outcome is Positive-Is that good enough？》。两篇文章深度诠释了当主要结局的p值有统计学意义和无统计学意义时，该如何解读和进一步分析试验结果。

主要结局性结果的解读

如果试验主要结局(Primary outcome)的P>0.05，则无统计学意义，可以考虑从以下12个方面进一步探讨：

1) 是否有其他的获益？如TORCH临床试验，沙美特罗联合氟替卡松与安慰剂对照治疗慢性阻塞性肺病，其主要结局全因死亡的P值为0.052，而其他结局指标均有统计学意义，这样的结果值得更积极地解读，而不仅仅是简单的“阴性结果"。

2) 试验的把握度（power）是否足够？本来有差异的处理效应因样本量不足而未被发现，这样的试验结果应解读为把握度不足，目前尚无法获得结论而不是阴性结论。

3) 主要结局是否合适（或是否定义明确）？试验的成功与否很大程度上取决于指标的定义和判定方法。有时候复合指标（Composite outcome）尽管可以增加主要终点事件的数目，但是不一定能够增加试验的效能。

4) 研究人群是否合适？当试验失败时更倾向于质疑是否人组了不合适的研究人群。依据研究结局的发生机制和前期研究来确定合适的受试人群是成功的关键。

5) 治疗方案是否合适？关键试验(pivotal trial)中确定新药的剂量非常困难，为使风险最小化，一般设计组，分别是对照组和新药的两种剂量组。

6) 试验执行过程中有何不足？如果方案执行很差，会导致处理效应被弱化或者消失。

7) 非劣效界值（noninferiority margin）是否明确？治疗组与阳性对照相比未获得优效结论时，是否可以得出非劣效结论？如果治疗组有其他优势，比如伤害更小、副作用更少，是可以考虑作非劣效判定的，关键是要在研究设计阶段事先声明并定义好非劣效假设。

8) 亚组分析（subgroup analysis）是否有阳性结果？主要结局无统计学意义则考虑做亚组分析，这样的想法尽管常有误导性，但有时对结果分析是有一定帮助的。当然，即使亚组的交互作用有统计意义，至多对产生新的研究假说有帮助，而不能做为定论。

9) 次要结局（secondary outcome）是否有阳性结果发现？主要结局阴性时，可以依据阳性的次要结局做假设推断，虽然注册机构不会批准该新药，但次要结局的发现可以影响指导原则及实践指南。

10) 进一步的其他分析方法是否有结果的改变？如协变量（covariate）调整、实际处理分析（astreated analysis）或符合方案分析（per-protocol analysis）复发事件（repeat events）分析等是否改变了当前的结果。

11) 是否存在其他研究证据？当临床试验效能足够却获得意外的阴性结果，则需要仔细分析对比先前的其它类似试验研究结果以进一步查找原因。

12) 从作用机制上能否解释治疗组更优？如果试验方法学无法解释治疗失败的原因，可以试着从生物学机制角度去解释。

主要结局阳性结果的解读

如果试验主要结局的P值小于0.05，表明有统计学意义，则可以考虑从以下11个方面进一步探讨：

1) P15ml/(min•1.73m)获得的阴性结果时，从以下几方面进行：

1) 两组eGFR的绝对差值未提示有潜在治疗获益趋势；

2) 两组均有超过25％的人到达终点，把握度不足的可能性较小；

3) 关于eGFR下降>15ml（min·1.73m2）终定义的讨论，监管当局采用eGFR下降50％作为终点指标，最近也有研究指出eGFR下降30％是有效的替代终点；

4) 研究设计包括了筛选期，筛选了同质、高风险研究人群；

5) 治疗方案符合KDIGO指导原则；

6) 其他与eGFR有关的次要结局也均无统计学差异；

7) 分析采用校正了基线eGFR和蛋白尿的多因素logistic分析，此外，可获得病例分析（available-case analysis）也未显不eGFR的指标两组差别有统计学意义。

文章的这7点讨论内容分别对应主要结局阴性结果解读12条的条目1-5、9、10。尽管没有面面俱到，但确实为该指标出现的阴性结果提供了充分而客观的辩护，体现了对临床试验实际结果的尊重。当然，该文能基于阴性结果解读12条进一步细化分析，其质量将更加完美。事实上，在针对这篇文章的通信中，有学者认为此研究设计的随访时间应该更长，研究应该采用终末期肾病这样的临床硬终点。此外，pozzi认为该研究应该对肾脏的组织形态学进行评估，因已发表的lgAN牛津分型显示组织学病变对肾脏生存和治疗效果存在一定的影响，研究应增加多因素分析以探讨预后的影响因素。

SPRINT研一主要结局阳性的结果解读

SPRINT研宄旨在验证强化降压策略是否有更多心血管获益，其纳人年龄≥

50岁，基线收缩压≥130mmHg，且至少存在一个心血管风险事件影响因素的受试者，随机分配至强化降压组（

【本文地址】

公司简介

联系我们