正确理解临床试验中的风险比(HR)

来源:医药魔方 2020-11-25

风险比(HR)通常用于报告肿瘤学随机临床试验的结果。然而,它们仍然是临床医生最困惑的概念之一。在新型靶向和免疫治疗研究进展层出不穷的今天,由于缺乏头对头对比,临床医生往往通过间接比较设计相近研究(如ALK一线对比克唑替尼的CROWN、ALEX、ALTA-1L和eXalt-3研究)的HR值以窥疗效优劣,因此更需要充分了解HR,以有效解释医学文献,从而做出重要的治疗决策。

一、是什么?

在肿瘤学随机临床试验(RCT)中,经常使用风险比(HR)来估计至事件发生时间终点的治疗效果,如总生存期(OS)和无进展生存期(PFS)。

HR提供了整个研究期间试验组和对照组之间风险率比值的估计值。而风险率指的是研究中每个治疗组在短时间间隔内发生关注事件(包括死亡、继续监测或停止监测)的患者比例。

这个概念可以通过一个假设的例子来说明:表1所示为一项有两个治疗组和一个主要终点OS的RCT研究。第一周,对照组的死亡率(0.04)高于试验组(0.03)。第二周,患者死亡率是第一周的两倍:对照组为0.08,试验组为0.06。通过将试验组的患者死亡率除以对照组的患者死亡率,计算每周的HR(试验组与对照组)。尽管风险率随时间变化,但每周的HR大致恒定(0.75)(表1)。因此,本RCT报告的HR为0.75。

HR通常根据肿瘤学RCT中分析生存终点的标准方法之一Cox比例风险模型计算。简化来说,HR=1意味着试验和对照处理的等效性(图1);如试验处理(i)优于对照,则HR<1;如(ii)劣于对照,则HR>1。

二、为什么有用?

对数秩和Wilcoxon检验通常用于比较试验期间治疗组之间的整个生存数据,然而仅生成p值而非治疗效应幅度或方向的估计值。也就是说,对数秩和Wilcoxon检验仅确定治疗是否不同,但不表明一种治疗的程度优于或劣于另一种。

估计RCT生存结局幅度和方向的三种主要方法包括(i)HR,(ii)报告每个治疗组的中位生存期,(iii)时间点分析(如1年OS率),后两者通常由KM分析生成。然而,HR与其他两种指标在以下方面存在差异。

首先,HR囊括了整个KM生存曲线中的所有信息,因此总结了RCT整个持续时间内的治疗效果。相比之下,中位生存期仅关注治疗组生存曲线上的一个点,最多代表“组平均年龄”,作为个体患者疾病控制持续时间或OS的指标过于简单。

其次,HR提供了治疗组之间相对疗效的估计值(例如,OS终点的HR = 0.75,意味着试验组的死亡风险相比对照组降低约25%)。

第三,由于上述两种特性,建议基于HR而非中位生存期或特定时间点的生存概率作出优效性和非劣效性声明。

最后,可以计算校正和未校正的HR。未校正的HR根据单变量Cox比例风险模型计算,而校正的HR通常使用多变量Cox模型进行,即其还包含将校正的协变量,例如年龄、性别、疾病分期和体能状态。与之相对的是,根据KM生存曲线推导的中位生存期和特定时间点(如1年OS率)的生存概率往往未进行校正。

三、有哪些局限性?

HR的正确解释是基于以下假设:研究期间每个时间间隔的风险率比值近似恒定,这也被称为“比例风险”(PH)假设。可通过正式的统计检验和图表(例如,Martingale残差、Schoenfeld残差与时间的关系图和log-negative-log plots)来确定PH假设是否成立。然而,通常通过回顾KM生存曲线的形状来建立假设,因而正式检验的结果在文献中很少报道。

如果曲线之间的分离随时间维持,则PH假设可能成立(图3A)。随着时间的推移,分离度的轻度降低或增加可能轻微违反PH假设(图3B)。鉴于大多数癌症的生存率较低,如果试验持续足够长的时间,KM曲线通常会聚集在一起,因为晚期癌症通常无法治愈,大多数患者已经死亡或删失。幸运的是,大多数肿瘤学临床试验产生的KM生存曲线与PH假设相当一致。值得一提的是,还应进行Cox模型的拟合优度评估。

四、如何解释?

1、适当的解释

假设一项评价OS的试验的HR为0.75,且PH假设成立(图3A),则可以解释为:试验期间的任何时间点,与对照组相比,试验组的死亡风险平均降低约25%或生存时间平均改善约33%。请注意,这是平均值(假设生存数据呈指数分布),因此应在整体KM曲线的背景下解释此类生存期改善或风险降低。

2、不适当的解释和常见错误

2.1 交叉生存曲线

如果KM曲线严重违背PH假设(图3C),则不适合诠释总体HR,因为HR随时间的变化非常显著。在这种情况下,应通过亚组分析探讨是否存在定性交互作用驱动KM曲线在整个人群中出现交叉(例如,男性的HR是否方向相反,是否与女性的HR存在统计学显著差异)。如果发现显著的定性交互作用,则应分析单个亚组的KM曲线,以确定PH假设在这些子集中是否成立。此外,还应避免对所有随机化患者人群的疗效声明。

与任何亚组分析一样,除非预先规定亚组分析,观察到统计学显著的相互作用,并且有充分的确证性证据验证亚组效应,否则不能在患者亚组内声称优效性。

2.2 临床意义

HR是相对指标。因此,可以获得与HR= 0.75相关的具有统计学意义的p值(p < 0.05),这可能意味着(i)试验治疗优于或劣于对照组,或(ii)如果治疗之间没有差异,则最多有5%的机会观察到该幅度或更极端的效应。

这对患者来说似乎是一个积极的结果,然而是否具有临床意义也有待评价。为此,临床医生需要结合绝对指标寻找具有一致临床意义的改善,例如特定时间点的生存概率和中位生存期。

例如,如果HR = 0.75对应晚期NSCLC试验中治疗组之间的1年和2年OS率分别增加10%和20%,可能被认为是有临床意义的改善。如果考虑组间中位生存期差异,则50天的改善也可视为具有临床意义,而约10天的改善可能不具有临床意义。只有当描述性绝对指标展现出具有一致临床意义的改善,具备统计学意义的HR才被称为临床进展。

2.3 超出研究持续时间的HR外推

使用RCT报告的HR预测研究持续时间(从第1例患者随机分配至末次患者访视)后发生的情况应非常谨慎,通常不推荐使用。在缺乏后续信息的情况下,无法确定比例风险假设是否继续成立。不仅如此,后续治疗或姑息治疗也将严重影响患者的生存概率。

使用Cox比例风险模型分析RCT生存数据,可提供评估试验组与对照组相对疗效的HR。与临床医学中的其他一切一样,检验统计假设和预估治疗效果应始终考虑到是否具有一致的临床意义。毕竟,所有这些统计学检验只是为了达到揭示真相和改善患者生活的崇高目标,提供有用的治疗,避免不必要的暴露于无效或疑似有效的治疗。

参考资料:

Barraclough H, Simms L, Govindan R. Biostatistics primer: what a clinician ought to know: hazard ratios. J Thorac Oncol. 2011 Jun;6(6):978-82. doi: 10.1097/JTO.0b013e31821b10ab. Erratum in: J Thorac Oncol. 2011 Aug;6(8):1454. PMID: 21623277.

(0)

相关推荐