临床试验中普遍存在多重性(multiplicity)问题,它是指在一项完整的研究中,需要经过不止一次统计推断(多重检验)对研究结论做出决策的相关问题。例如,多个终点、多组间比较、亚组分析、期中分析、纵向数据不同时间点的分析等方面。
而对于确证性临床试验,将总I 类错误率(FWER)控制在合理水平是统计学的基本准则,也是统计学审评的关键之一。换句话说,上述多重性问题有的可以导致FWER膨胀,即获得“假阳性”结果的概率增加,需要采用恰当的策略与方法将FWER控制在合理水平,这一过程称为多重性调整。
某某大学派了若干老师到某地自主招生,但名额有限,且只有半天时间。老师们商量后表示,既然名额有限,只考虑笔试的前20名(主要终点),从中选出最优秀的学生。老师A(Bonferroni):常规做法是每个人都面试,谁最优秀招谁。然而,平均分配一样的面试时间,虽然这样的方案简单又公平,但并没有足够的时间充分了解每一个学生,从而选择最合适的人。老师B(Holm):不如把学生按照笔试成绩的分数从高到低排序,从高分开始面试,直至第一个觉得不合格的学生,就停止面试。通过面试的学生全部录取,后面的全部刷掉。老师C(Hochberg):还可以这样,把学生按照笔试成绩的分数从高到低排序,从低分开始面试,直至第一个觉得合格的学生,就停止面试。没有参加面试的高分学生全部录取,低分不合格的全部刷掉。老师D(Fixed-sequence):分数不能代表一切。还可以综合笔试成绩、综合素质各方面的能力,把学生按照简历评分从上到下排序依次面试。直至第一个觉得不合格的学生,就停止面试。老师E(Fallback):不妨把面试时间根据简历评分排序,排名靠前的学生时间分配长一些,排名靠后的时间短一些。如果有的学生不需要面试很长时间就知道他很优秀,节省下来的时间可以回收,给后面的学生多一点机会。Bonferroni 法的基本思想是各个独立假设检验的名义检验水准αi 之和等于α。例如,某临床试验设有 3 个主要终点,需要进行 3 次假设检验,设定α=0.05。如果3个主要终点的重要性相同,则每个假设检验的αi相同,均为 0.0167(=0.05/3),则每个假设检验的 P 值小于 0.0167才被认为有显著性;如果 3 个主要终点的重要性不同,如设置α1、α2和α3分别为0.030、0.015 和 0.005,则每个假设检验的P值小于所对应的αi才被认为有显著性。优点:1)简单、广泛使用;2)如果某个特定研究终点通过显著性检验,则α值可以回收给其他终点(如次要终点)缺点:在各个研究终点之间有潜在相关性的情况下,Bonferroni 法相对保守案例:IMpower133在第一次期中分析就达到共同主要终点,与方案从Bonferroni法变更为成组序贯加权Holm法有何关联?Holm 法是一种基于Bonferroni 法的检验统计量逐步减小(P值逐步增大)的多重调整方法。例如,该法首先计算出各假设检验的P值后,然后按照P值从小到大顺序依次与相对应的 αi进行比较。第一步从最小的P值开始,检验原假设H0,如果 P1>α1(=α/m),则不拒绝原假设 H0,并停止检验所有剩余的假设;如果 P1≤α1,则拒绝 H0,HA成立,进入下一步假设检验;以此类推。优点:1)相比Bonferroni 法的效能更大;2)从最小的P值开始检验,不用提前知道具体的研究终点。相比前瞻性的固定顺序法更加灵活缺点:一旦某个特定研究终点没有通过显著性检验,停止检验所有剩余的假设,则剩余的α值不能回收给次要终点Hochberg 法是一种基于Simes法的检验统计量逐步增大(P值逐步减小)的多重调整方法。优点:相比Bonferroni法的效能更大,相比Holm法的效能可能更大缺点:Hochberg 法在满足多重检验之间互相独立时才能实现控制 FWER固定顺序法是指按预先定义的顺序进行假设检验,每个假设检验的名义检验水准αi与α相同,只有在上一个假设检验拒绝原假设时才进行到下一个假设检验,直到某一个假设检验不拒绝原假设为止,而最终的推断结论为该假设检验前面的显著性结论均被接受。与Gatekeeping检验策略类似。优点:每个假设检验的名义检验水准都与α相同,不需要调整缺点:1)统计结果与假设检验的顺序高度相关;2)如果某一个假设检验不拒绝原假设,则不能进行到下一个假设检验(即使P值非常小)案例:DESTINY-Gastric01研究的次要终点在2019 年进行了重大调整,对于FDA加速审批起到怎样的关键作用?回退法需事先根据固定顺序法对各假设检验排序,并确定每个假设检验的名义检验水准 αi,然后依顺序进行假设检验。该法首先在α1水平检验H01,如果不拒绝H01,则在α2水平检验H02;如果拒绝H01,则在α1+α2水平检验 H02,余类推。如,一项研究采用 Bonferroni法和Fallback法控制一类错误率为单侧0.025,首先用Bonferroni方法将单侧显著性水平0.005分至PFS的检验,0.02分至OS。如果PFS的统计结果显著,则将0.005传递给OS,OS将基于0.025 整体显著水平进行检验。优点:1)相比Bonferroni法的效能更大;2)如假设检验1被拒绝,则相应的I类错误概率(α)可被回收到用于假设检验2的检验,而不导致α膨胀如前文所述,Bonferroni、Holm、Fixed-sequence、Fallback等方法是多重性调整策略的基石。然而,通常一个试验中不仅仅涉及一类多重性的情形,往往是多个情形混合在一起,如需要同时考虑多个终点、多组的比较、多个人群和多个时间点的期中分析,就会出现如下图所示的复杂情况。如三阴性乳腺癌IMpassion130研究虽然OS没有达到统计上的显著,但因为多终点设计的特殊性,凭借PFS的阳性结果最终获得了FDA批准。而肝癌二线治疗KEYNOTE 240研究中,尽管K药组的PFS和OS都有一定程度的改善,却均未达到预设的统计学差异。正可谓是,失之毫厘,差之千里。
看完上面生动形象的比喻和诠释,是不是大呼过瘾?但与此同时,是不是觉得意犹未尽,心头仍有很多问题没有解开?在被全球顶级临床试验协会(SCT,Society for clinical trials)遴选为官网培训的临床研究终点设计专栏课程中,袁鹰教授和罗晟教授展开了非常详尽的理论剖析和答疑互动。欲听国际水平课程的中文版?扫码下方二维码,精彩不容错过:
参考资料:
1.MultipleEndpoints in Clinical Trials. FDA Guidance for Industry. January 2017.
2. CDE《药物临床试验多重性问题指导原则(试行)》.2020年12月.
3. 注册临床试验方案沟通交流常见的统计学设计问题. 中国新药杂志2020年第29卷第22期.
多重性问题(multiplicity issues):在一项完整的临床研究中,需要经过不止一次统计推断(多重检验)对研究结论做出决策的相关问题。
多重性调整(Multiplicity Adjustment):采用恰当的策略与方法将总I类错误率控制在合理水平的过程。
I类错误:原假设(无效假设)正确但检验结果拒绝了原假设的错误,相当于把实际上无效的药物经统计推断得出有效结论的错误。其概率需控制在某一水平,该水平称为检验水准,或称显著性水准,用α表示。
总I类错误率(Familywise Error Rate,FWER):同一临床试验所关注的多个假设检验中,至少一个真的原假设被拒绝的概率。
主要终点(Primary Endpoint):是指与临床试验所关注的主要问题(主要目的)直接相关的、能够提供最具临床意义和令人信服的证据的终点,常用于主要分析、样本量估计和评价试验是否达到主要目的。
点亮“在看”,好文相伴