样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

您所在的位置：网站首页 › 睿欣教育培训中心最建议去吗 › 样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

2024-07-10 10:51:20| 来源: 网络整理| 查看: 265

来源：雪球App，作者：医药魔方，（https://xueqiu.com/8965749698/261668533）

设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的新鲜状态再决定。那么一个简单的问题来了：这“一段时间”需要多久，一周，一个月，还是一年？

点击下载：临床试验中的药物性肝损伤识别、处理及评价

实际上，临床试验中的样本量估算与此情形类似：我们需要至少入组多少例受试者，才能够回答临床上亟需解决的科学问题？受试者数量和观察天数一样，太少了不足以说明问题，又要让患者承受治疗伴随的风险，太多会造成资源的浪费，延长新药的研发周期。为了能在合理的资源分配下，获得我们想要的答案，就需要对样本量进行科学的估算。

CARES-310 [1]是一项卡瑞利珠单抗联合阿帕替尼对比索拉非尼一线治疗晚期肝细胞癌（HCC）的随机、对照、开放、国际多中心III期试验，其样本量估算内容如下：

2022 ESMO LBA35 oral presentation

我们可以看到，这里面设置了多个不同维度的参数用于样本量的估算，每种参数都是对待解决的科学问题的剖析，都有其重要的作用，不可或缺。

参数从哪来

确定参数需先明确临床研究问题，参数不是无本之木，不同的研究终点、统计设计、假设检验的类型对应着不同的样本量估算方法。因此在估算样本量之前，首先明确研究问题，综合目标人群、投入资源、时效性等多方面权衡研究终点的选择，再根据研究问题进行相应的统计设计及假设检验。CDE《药物临床试验的一般考虑指导原则》[2]中定义：“确证性临床研究的研究目的是确证有效性和安全性，为支持注册提供获益/风险关系评价基础，同时确定计量与效应的关系”，因此确证性研究必须根据统计假设估算样本量。

作为确证性研究，CARES-310解决的临床问题是卡瑞利珠单抗联合阿帕替尼是否为更优效的治疗晚期一线HCC患者的联合治疗方案。从研究终点出发，FDA[3]建议肿瘤试验需以总生存期（OS）为主要终点，考虑到后续抗肿瘤治疗结果可能会影响OS结局，该研究选择OS和无进展生存期（PFS）作为双重主要终点。该研究为优效设计，两个统计假设分别为：试验组（卡瑞利珠单抗联合阿帕替尼）的OS优于对照组（索拉非尼）；试验组的PFS优于对照组。因设置了多个研究终点，还涉及多重性问题，包括α传递和分配问题，在此不做赘述。

待解决的研究问题确立后，接下来需根据研究设计类型选择合理的统计学公式，而这个估算过程仅靠代数计算不能完成，还需要用到一些必要的参数：

1、Effect size（效应值）

效应值大小一般可以通过查阅文献参考历史同类研究、研究者的经验估计、预试验或前期探索性研究获得。CARES-310就是基于一项前期试验RESCUE[4]（卡瑞利珠单抗联合阿帕替尼治疗晚期HCC：一项非随机，开放标签Ⅱ期试验）的结果预估风险比（HR）。

估计效应值的准确与否可能对整个研究的成败起到决定性的作用。如果对试验组的疗效估计过于乐观，估算出的样本量会偏小，可能导致效能不够，试验失败；反过来，若对试验组的疗效估计不足，估算出的样本量会偏大，造成项目成本增加，推迟研究完成时间，容易造成资源的浪费。

与优效研究类似，非劣效研究也需要确定效应值，该效应值即为非劣效界值，非劣界值对应临床上认为试验药所需保留的阳性对照药的治疗效应。

2. α（Ⅰ类错误）、β（Ⅱ类错误）

上文所说，CARES-310研究中做了统计假设，而假设检验在得出结论的同时，就冒着犯一定错误的风险，下面是常见的两种错误类型：

α=P(Ⅰ类错误)=P(拒绝H0｜H0为真)

β=P(Ⅱ类错误)=P(未拒绝H0｜H0为假)

如下图，举个例子：假设想测试H0：你没怀孕 VS. Hα：你怀孕了

α又称假阳性错误，是在原假设H0是正确的基础上，错误地拒绝原假设H0的概率。放到临床试验中会导致将原本没用的药推向市场，因此是监管方审评的重点之一。设置的Ⅰ类错误越低，检验条件越严格，越需要更多的样本量。

β又称假阴性错误，是当原假设H0错误时，没有正确地拒绝原假设H0的概率。放到临床试验中会使得原本有效的药物，错过阳性的结论，即并未把好用的药推向市场，从而失去获批的机会，因此是申办方关注的重点。

和β相辅相成的一个参数：power（把握度=1-β）又称检验效能，可以简单理解为正确识别一款好药的能力。例子中把握度=85%，意味着当原假设H0不成立时，理论上在100次抽样中，在α的检验水准上平均有85次能拒绝原假设。Ⅱ类错误越小，即把握度设置的越高，在后期统计分析时发现组间差异的概率越高，可以提高试验成功的可能性，但同时需要的样本量也越大，因此不能一味地提高把握度。

对α及β的常用值设定，CDE出台的《药物临床试验的生物统计学指导原则》[5]中提到：“Ⅰ类错误概率一般设定为双侧0.05。在非劣效检验等单侧检验中，Ⅰ类错误概率一般设定为0.025。Ⅱ类错误概率一般情况下设定为不大于0.2，在探索性试验中可适当放宽。”

3. 脱落率

我们估算出的样本量往往是最少需要量，但要充分考虑到实际执行过程中受试者可能有不合作、中途脱落甚至失访的情况，一般会考虑额外增加5%~20%（即脱落率）的观察对象。

4. 其他特殊信息

和以计数资料、计量资料为终点不同，生存分析中power和事件数直接相关，而非样本量。生存数据为终点的样本量估算还需要考虑实际研究中观察到一个事件的概率，因此需要更多信息——入组模式(入组时间和速率)、随访时间等，不同的信息对应的概率不尽相同。

入组时间+随访时间为试验总时长，总时长一定时，总时长中分配给入组的时间越长，对应的随访时间越短，样本量要求越大。试验总时长越长，获得同样的事件数所需的样本量就会越小。

探索性研究

前面的例子从确证性研究切入，对于探索性研究[3]而言，“探索性临床试验的研究目的是探索目标适应症后续研究的给药方案，为有效性和安全性确证的研究设计、研究终点、方法学等提供基础”，因此统计假设不是必须，样本量估算的方法也更为灵活。

按照研究设计类型分类，早期探索性研究通常选择单臂设计，以既往标准治疗的研究数据作为历史对照，可通过单样本检验或控制置信区间宽度等方法估算样本量。对于计数资料的二分类终点（如客观缓解率ORR等），还可以进一步选择两阶段或多阶段设计，以期在试验治疗疗效不佳时及时止损。对于探索性随机对照研究，也可以选择通过控制两组效应差（如ORR组间率差）的置信区间宽度等方法估算样本量。此外，也可以不使用上述任何统计假设或区间估计相关的方法来评估样本量，而是直接入组一定数量的受试者（如30例）作为试验治疗的初步探索。基于现实场景，实际研究中常受制于外部条件，比如入组就是非常困难，往往需要根据临床现实调整样本量。因此，探索性研究有时需要在资源有限的情况下，看可以呈现什么样的结果，这些结果能否足够支持研究目的。

软件实现

在实践操作中，可以使用如PASS、EAST等的样本量估算软件。根据事先确定的设计和终点类型，结合下表索引（以PASS为例）即可找到对应的样本量运算模块，再利用已知的参数信息进行简单的菜单操作，估算出满足条件的样本量。

小结

样本量估算最关键的不在于如何估算，而在于估算前的准备工作，需要结合需要解决的临床问题、研究类型（确证性还是探索性）、研究终点（单一研究终点还是多重终点，生存数据、计数资料还是计量资料类型终点）、研究设计（单臂、双臂、多臂、Ⅱ/Ⅲ seamless还是桥接试验等）和假设检验（优效、非劣还是等效性）综合考虑；

样本量估算在保证试验的有效性、准确性、可靠性和完整性方面起着非常重要的作用；

样本量估算取决于事先获得的各类参数（统计学及临床意义上的）；

样本量需要预先设定，试验开始前确定好。

参考文献：

[1] Qin, Shukui, et al. "Camrelizumab plus rivoceranib versus sorafenib as first-line therapy for unresectable hepatocellular carcinoma (CARES-310): a randomised, open-label, international phase 3 study." The Lancet (2023).

[2] CDE: 药物临床试验的一般考虑指导原则 2017

[3] US Food and Drug Administration. "Guidance for industry: clinical trial endpoints for the approval of cancer drugs and biologics." Federal Register 72 (2007): No-94.

[4] Xu, Jianming, et al. "Camrelizumab in combination with apatinib in patients with advanced hepatocellular carcinoma (RESCUE): a nonrandomized, open-label, phase II trial." Clinical Cancer Research 27.4 (2021): 1003-1011.

[5] CDE: 药物临床试验的生物统计学指导原则 2016

$恒瑞医药(SH600276)$ $复星医药(SH600196)$ $海正药业(SH600267)$

国内生物医药产业链相关上市公司

中药：片仔癀、云南白药、同仁堂、白云山、以岭药业、太极集团、济川药业等；

医院及诊断服务：爱尔眼科、通策医疗、金域医学等；

科学服务：诺唯赞、百普赛斯、优宁维；

医美：爱美客、华东医药、ST美谷、华熙生物等；

CXO：药明康德、凯莱英、泰格医药、昭衍新药、康龙化成、药明生物等；

生物制品：智飞生物、万泰生物、长春高新、沃森生物、华兰生物、甘李药业等；

化学制药：恒瑞医药、复星医药、华东医药、新和成、人福医药、科伦药业、信立泰等；

医疗设备：迈瑞医疗、联影医疗、微创医疗、乐普医疗、鱼跃医疗、九安医疗等；

医药商业：上海医药、益丰药房、大参林、九州通、国药一致、中国医药、海王生物等；

部分美股医药上市公司

礼来、诺和诺德、强生、默沙东、艾伯维公司、阿斯利康、诺华制药、辉瑞等

@量化招财猫 @汤诗语 @今日话题@量化钢铁侠 @微进化ing @能力圈的边界

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

今日新闻

点击排行

推荐新闻

图片新闻

专题文章

样本量估算二三事 设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

样本量估算二三事 设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

今日新闻

点击排行

推荐新闻

图片新闻

专题文章

样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...

样本量估算二三事设计临床试验时，我们绕不开样本量的估算问题。比如，欲了解某超市蔬菜的品质状况，计划观察一段时间，通过统计这段时间内蔬菜的...