JAMA系列期刊论文写作统计指南及范文解读
转自 郑卫军 肿瘤杂志
编者按
作为医学领域四大顶级期刊之一的《美国医学会杂志》(The Journal of the American Medical Association,JAMA)杂志以及包括JAMA Oncology在内的12种子刊,均对其录用论文中,如何进行统计学分析、如何报告统计学过程与结果,制定有统一的详细的作者指南。笔者结合案例,解读JAMA系列杂志的论文写作统计指南,学习优秀临床研究论文如何进行统计学设计、分析,并叙述其过程与结果。
一篇临床研究论文,统计学方法主要涉及两块内容:统计方法与统计结果。统计学方法包括样本量计算、统计描述、统计推断、统计软件及a值的设定;统计结果体现在论文的结果部分,主要涉及结果的描述、统计表与统计图。
解读
本文同时结合一篇JAMA杂志发表的学术论文进行解读。这篇论文是中国医学科学院刘忠团队于2020年6月3日发表在JAMA主刊上,探讨了恢复期血浆疗效治疗危重症COVID-19患者的临床效果。
该文的研究概况:
为了评估恢复期血浆治疗COVID-19患者的疗效和不良反应,2020年2月14日至4月1日,研究组在武汉的7个医疗中心进行了一项开放标签、多中心、随机临床试验,招募了103名实验室确诊的COVID-19重症或危重患者。根据疾病严重程度,研究对象分为两组:52例患者恢复期接受血浆+标准治疗,51例患者恢复期仅接受标准治疗。恢复期定义为患者出院或疾病严重程度评分减少2分,主要结局是在28 d内达到临床改善的时间。在统计策略上,由于主要结局指标是生存时间,因此该研究采用的统计方法是生存分析(Log-Rank和COX回归分析方法)。
第一部分 总体统计规范
JAMA统计指南要求,在论文的“方法”部分,应描述具有足够详细信息的统计方法,以使知识渊博的读者可以在有原始数据的情况下重现该报告的结果。此类描述应包括对原始文献的适当引用,尤其是对于罕见统计方法的描述。对于更高级或更新颖的方法,应在文章中简要介绍这些方法及其用法,并考虑在补充资料中提供详细说明。
在结果报告中,如果可能,一般需要量化结果,并提供适当的测量误差或不确定性指标(例如置信区间),避免仅依靠统计假设检验(例如使用P值)而无法传达重要的定量信息。对于观察性研究,应提供观察人数。对于随机试验,应提供随机数。对于多变量模型,应报告模型中包含的所有变量,并根据情况适当报告模型诊断信息和模型的整体拟合度。并且应报告失访情况,以反映观察或者随访的过程。
JAMA统计指南指出,在统计报告中,需要定义统计术语、缩写和符号,避免在统计数据中对技术术语进行非技术性使用,包括相关性( correlation)、正态(normal)、预测因子(predictor)、随机(random)、样本(random)、显著性( significant)、趋势性(trend)等。对于不具有统计意义的结果,请勿使用不当的模糊词语(例如具有边际统计学意义或具有统计学意义趋势)来描绘没有统计学意义的结果。因果语言[包括使用效果( effect)和功效(efficacy)等术语]仅应用于随机临床试验。而其他研究设计(包括随机临床试验的荟萃分析),则应以关联(association)或相关性(correlation )来描述方法和结果,避免因果关系的措辞。
第二部分 统计方法
目前,我国国内的中文期刊对于统计方法的描述一般十分简单,甚至存在着直接照搬其他文献的统计方法而未能和自身的统计结果相匹配的现象。而国际医学期刊一般要求对统计过程进行详细地介绍,以方便读者重复结果。
JAMA统计指南对论文的“统计方法”在样本量、描述统计、统计程序、缺失结果、主要结果、多重比较、事后比较等方面做了规定。
JAMA统计指南要求,一般情况下,医学研究需要计算样本量,且应该把计算的过程放在“方法”第一段。对于随机试验,必须说明检验效能(Power)或样本数量的计算。对于观察性研究,当样本大小固定而无法改变时,可以不需要功效计算。但是,如果样本数量是研究人员通过任何类型的抽样调查或匹配方法确定的,则应该有一定数量的样本数量合理性。无论如何,在“统计方法”部分的开头,在研究人群的一般性描述后,应描述功效和样本量计算方法,如果不计算,则需要提供理由或者说明。
解读
笔者认为,除了回顾性研究、大数据研究外,大部分医学研究均需要提供样本量的计算过程。而回顾性研究,则可提供检验效能的计算,以显示研究检验效能达到了一定的水平。一份好的研究,核心在于检验效能是否达到同行认可的水平。
刘忠团队的文章中描述性统计方法介绍:
The original sample size was determined to be 100 for each group, which would provide 80% power, with a 2-sided significance level of α = 0.05, to detect an 8-day change for the convalescent plasma group in time to clinical improvement, assuming that this would be 20 days in the control group and 60% of the patients would reach clinical improvement。
JAMA统计指南指出,通常没有必要提供用于生成汇总统计信息的方法的详细说明,但是应在方法部分简要说明检验方法(例如ANOVA或Fisher精确检验等)。
解读
目前,国内的期刊论文对于描述性统计的内容相对详细。但这是一种头重脚轻的现象,统计描述的过程可以略写。
刘忠团队的文章中描述性统计方法介绍:
Continuous variables were summarized by presenting the median and interquartile range (IQR) for the total number of patients who contributed values. Categorical variables were summarized by presenting the frequency and proportion of patients in each categor.
JAMA统计指南指出,一篇论文针对主要研究结局统计方法的写作考虑有如下两部分。
A:将具有超过1个自变量的回归模型写成为多重回归模型(multivariable regression models),并将具有超过1个因变量的回归模型识别为多元回归模型(multivariate)。在建立统计模型时,应指出模型中应包含的所有变量,以及这些变量的任何数学转换。同时,提供在回归模型中包含变量的科学依据(临床、统计或其他方式)。
B:对于适合于非独立性数据(例如聚集或纵向数据)的回归模型,应该能够处理聚集和/或重复测量产生的相关性。不考虑这种相关性将导致不确定性(例如置信区间)的错误估计。论文中,应描述模型如何考虑相关性。例如,对于基于广义估计方程式的分析,请明确假定的相关结构,以及是否使用了稳健或三明治(sandwich)方差估计方法。对于基于混合效应模型的分析,同样请明确随机效应的假定结构,如随机截距的水平,以及是否包括任何随机斜率等。固定效应一般采用条件似然法估计。同时,避免采用“固定效应”来描述协变量。
解读
统计程序部分是对论文所采用的核心统计学方法的详细描述。这部分是国内文章严重缺乏的。通常情况下 ,一篇临床研究论文主要结果的产生,是通过回归方法确定。而回归方法包括常规的与复杂的两类,常规方法包括协方差分析、线性回归、logistic回归、COX回归,而复杂的方法则用来处理重复测量资料或者非独立数据,比如多中心临床试验、群随机试验等。JAMA系列期刊一般要求撰写论文时要指出回归模型类型、模型的自变量、模型要考虑的重要设置、模型适用的条件等。
刘忠团队的文章采用的主要方法是生存分析:
Time to-event data were analyzed using the Kaplan-Meier method, and the median time to event and corresponding 95% CI were calculated. Hazard ratios (HRs) with 95% CIs were calculated using Cox proportional hazards models.
Three Cox proportional hazards models were fitted in this study. We referred to the model that included only the treatment group as the unadjusted model. The model that included disease severity (severe or life-threatening) and treatment group is referred to as model 1, and the model that further considered the interaction between disease severity and treatment group is referred to as model 2. Study sites were considered as a random effect in these models.
Proportionality hazard assumption was assessed for treatment group and disease severity by extending the Cox models to include the corresponding time-dependent covariates. If the coefficient of the time-dependent covariate was statistically significant, the proportionality hazard assumption would be considered to be violated.
无论观察性研究还是随机对照试验,缺失数据都不可避免。是否采取措施应对缺失是衡量一篇学术论文水平的重要依据。
JAMA统计指南指出:应该在结果中报告损失的现象,例如从临床试验中退出或由于失访或在观察性研究中无法获得的信息。如果由于缺少数据或数据不完整而将某些参与者排除在分析之外,请提供一个补充表,用于比较具有完整和不完整数据的参与者之间观察到的特征。建议研究者考虑多重填补(multiple imputation)的方法来插补丢失的数据,并包括对是否随机丢失数据的评估,不应使用基于“末次观察结转” (last observation carried forward,LOCF)的方法。
解读
对于JAMA系列期刊对缺失数据的建议,笔者认为还可以再详细一些。一般来说,一篇学术论文的统计分析,可以基于完整病例分析,也可以基于全数据分析;全数据分析需要对数据进行填补,而在填补方法方面,“末次观察结转法”虽然存在着缺陷,但仍然是被认可的一种;若采用广义方程或者混合线性模型分析缺失数据,则无需进行填补。
刘忠团队的文章对于失访的处理:对于生存分析的失访数据,生存分析基本不受影响,因为方法本身可以应对缺失数据。于是,文中写道:
For the primary end point of time to clinical improvement, death, withdrawal, and crossover between groups before day 28 were considered to be right-censored at day 28, and otherwise would be considered to be right-censored at the last observation date.
JAMA统计指南中以下这段文字是统计分析纲领性的文字。核心的内容是,作者统计分析时,一定要按照统计计划进行。因此,统计比较及论文撰写时要分为事先设计比较与事后比较。
首先,应该遵从研究方案与统计计划进行统计分析。随机研究和观察性研究均应在研究开始之前确定主要结果,以及任何预先指定的次要、亚组和/或敏感性分析。对于随机临床试验,应在“方法”部分中引用具有完整统计分析计划的方案,并作为在线补充内容提交。所有结果的报告应与研究方案中包括的结果相匹配。而且,随机临床试验应根据意向性治疗方法(intention-to-treat approach)进行分析。与严格的意向性治疗分析的差异应被描述为“修改意向性治疗”(modified intention-to-treat),并清楚描述如何进行修改。最后,如果在实际分析中包含了统计计划没有的内容,那就是事后分析(post hoc)。事后分析一般是探索性的分析。
解读
分析的数据集是什么?分析是否按照统计分析计划进行?这是任何一个临床随机对照试验中首先需要回答的两大问题。明确分析集,制定统计计划并遵从统计计划,是高质量论文的必须动作;但一些国内研究项目很难实现,特别是在研究者发起的临床研究中更为常见。
刘忠团队的文章用较多的笔墨提到了分析集。包括主要研究目的的分析集是全分析集(FAS),而符合方案集(PPS)用于敏感性分析。具体如下:
Unless otherwise stated, analyses were performed based on the full analysis set, which is defined as the set of all randomized patients who received at least one treatment specified in the trial. Statistical analysis was performed on randomly assigned treatment groups.
A per-protocol analysis was performed for the primary end point as a sensitivity analysis. The per-protocol set was defined as the set of all randomized patients who received at least one treatment specified in the trial and who had no significant protocol violations that affected the efficacy evaluation.
JAMA统计指南指出:对于多于一种主要结局的分析,需要进行多次比较时检验水准a的校正;对多个次要结局,需要同样的动作,或将此类分析视为探索性的(exploratory),并将其解释为产生假设(hypothesis-generating)的方法。
解读
多重比较控制检验水准a是高水平论文需要认真考虑的事宜。在多臂、多结局、期中分析、亚组分析都需要考虑。但并非所有场景都需要进行多重比较来控制a。JAMA系列期刊给出了基本原则,那就是主要结局指标,一般都需要控制a;而对于次要结局,可以总体控制a,也可以不控制a,但需要写明结果是探索性的。
刘忠团队的文章也提到了多重比较。该文主要结局指标只有一个,所以无须校正,而对于次要结局,文中未进行多重比较,因此他们说:
Because of the potential for type I error due to multiple comparisons, findings for analyses of secondary end points should be interpreted as exploratory.
JAMA统计指南指出:在方法部分的末尾,指出论文的总体检验水准,以及指明是单侧还是双侧,文末还应包括用于执行分析的统计软件,包括版本和制造商,以及任何扩展包(例如,STATA软件中的Svy命令套件或R软件中的Survival包),不要描述软件具体命令(例如,使用SAS proc混合来拟合线性混合效果模型)。如果包含分析代码,则应将其放在在线补充内容中。
解读
刘忠团队的文章中相关统计学内容:
Statistical analyses were performed with SAS software, version 9.4. Statistical significance was defined using a 2-sidedsignificance level of α = .05.
第三部分 统计结果的报告标准和数据呈现
JAMA统计指南主要展示了应报告和不报告的内容。
JAMA统计指南指出:如果可能,请提供数值结果(例如绝对数字和/或比率),以及不确定性的指标(例如置信区间)。对正态分布的数据使用均值和标准差来表示,对非正态分布的数据使用中位数和范围或四分位间距表示。
而且,应避免仅报告统计假设检验的结果,例如P值,这些结果无法传达重要的定量信息。对于大多数研究,P值应遵循绝对值或比率和不确定性度量的比较报告(例如,0.8%,95%CI:0.2%~1.8%;P=0.13)。如果没有比较数据,则永远不能单独显示P值。如果报告P值,请遵循小数位的标准约定:对于P值小于0.001的报告应写为“ P<0.001”;如果P值介于0.001和0.01之间,则将其报告至最接近的千分之一;对于大于或等于0.01的P值,将其报告至最接近的百分之一;如果P值大于0.99,则报告为“ P>0.99”。对于P值呈指数小的研究(例如遗传关联研究),则可以报告P值为指数(例如,P=1×10^-5)。
解读
总的来说,JAMA系列杂志要求统计描述信息应详细且规范,统计比较的结果应该包括估计值、P值与置信区间。尤其是置信区间,国内学术期刊一直以来没有强调它的重要性,因此读者很少看到一篇中文论文中报道置信区间。这一点应该在未来得到改善。
(2)不必报告的内容
JAMA统计指南指出:对于使用平行组设计的随机试验,无须进行关于组之间基线协变量分布的假设检验。根据定义,这些差异是偶然的缘故。因此,基线参与者特征表不应包含P值或随机分组之间的统计比较表述。相反,应描述各组之间在各项指标上的分组不平衡情况,以及对多变量模型中这些不平衡的潜在调整。
另外,在报告结果时,无需提供测试统计信息的值(例如F统计信息或χ²结果)和自由度。
解读
JAMA统计指南不必报告的内容,与目前国内学者的一些观念不一致。我们开展随机对照研究分析时,往往可能会对干预组和对照组进行差异性比较,证明两组是均衡可比的,而JAMA系列杂志(其实其他杂志也是如此)认为没有必要开展差异性的假设检验。既然是随机化研究,那么它就应该均衡可比的,哪怕P<0.05,也是均衡可比的。
另外,与顶级医学期刊规定不同,国内学术期刊一般要求报告一个假设检验统计量。针对这一点,笔者认为值得支持,虽说该统计量没有什么实际意义,但可以将论文分析过程更透明化。
第四部分 统计结果——图表规范
在图表规范上,这里整理列出JAMA统计指南总的十项要求,方便大家理解。但其中很多细节与我们常用的习惯有所不同,可以供学习和借鉴。
1. 将表格和数字限制在解释和支持本文论点上,并报告“方法”部分确定的所有结果所需的表格和数字,为每个表格和图形编号并提供描述性标题。每个表格和图形都应有文字引用,以便于验证数据在文本、表格、图形和补充材料中的报告是否一致。
2. 表格中,频率数据应报告为“数字(%)”,而不是单独的百分比(样本数量超过10 000时除外)。只要有可能,比例和百分比都应附有实际的分子和分母。当样本量小于100时,这一点尤其重要。如果样本量小于100,请不要使用小数位(即xx%,而不是xx.xx%)。
3. 表格中,包含多变量回归模型结果的表应侧重于主要结果,提供感兴趣的主要暴露或比较的未经调整和调整后的结果。如果需要对模型进行更详细的描述,应考虑在补充表中提供其他未调整和调整后的结果。
4. 表格至少有2列,必须跨表列进行比较。
5. 请勿在图形和表格中重复数据。对于“方法”部分指出的所有主要结果,应在文本或表格和摘要中报告带有不确定性度量的确切值,而不应仅以图形方式表示。
6. 不应使用饼图和3D图形,而应将其修改为其他图形类型。
7. 条形图应仅用于显示频率数据(即数字和比率)。避免堆叠条形图,应考虑其他替代方式(例如表格,或将条形图分段拆分为并排条形图),除非是顺序数据分布的比较。
8. 摘要数据(例如均值、优势比)应使用数据标记来报告点估计,而不是条形图,并且应包括指示不确定性度量(例如SD、95%CI)的误差线,相对数据的实际值(而不是对数转换后的值)(例如优势比、危险比)应绘制在对数刻度上。
9. 对于生存曲线图,应包括分析中每一组沿x轴刻度间隔上处于风险的人数。对于使用颜色的任何图形,请确保颜色是可区分的。
10. 统计图中的所有符号、指示器、线条样式和颜色都应在坐标轴或图例中定义。统计图中的轴必须带有标签。此外,必须为连续数据提供计量单位。
解读
刘忠团队的论文中结果表达:
1. 研究对象基本情况:作者在结果第一部分,“Study Population”中给出了研究对象的基本情况及分组比较情况,具体结果可见下表。合适的指标采用合适的统计方法进行描述,并未进行组间的差异性比较。
2. 研究结果:作者提供了主要研究结局、次要研究结局、不良反应等多个结果。对于结果,作者提供了全面的信息。比如在描述主要结局生存时间的差异性上,作者写出:For all patients combined, there was no significant difference n the primary outcome of time to clinical improvement within 28 days: 51.9% (27/52) in the convalescent plasma group vs 3.1% (22/51) in the control group (difference, 8.8% [95% CI,-10.4% to 28.0%]; HR, 1.40 [95% CI, 0.79-2.49]; P = 0.26).
我们从下表可以看出,作者不仅提供了P值,还有HR值及95%CI置信区间,还提供了事后分析的结果Absolute difference。作者指出,这是Restricted mean survival time,即限制性平均生存时间的差值及95%CI。
对于生存时间结局,生存曲线是不可缺少的。因此,作者也提供了生存曲线,与上表结果一致。
解读总结
虽然JAMA系列杂志的统计指南,只是一家之言,但它作为顶级医学期刊,背后是顶级生物统计学家对当前数据统计分析与统计写作最为主流的建议。因此,它的一些建议值得我国国内论文写作者、学术期刊编辑学习与探讨。
而阅读刘忠团队的论文,我们可以发现,虽然该文章样本量未达到原计划,且结果为阴性,但是文章很好地执行了JAMA统计指南的大部分细节,统计学方法读起来简单易懂,规范性很强。在结果方面,该论文实际呈现的数据与图表与JAMA指南高度符合。因此,这是一篇值得学习的范文。
本栏目编辑:张俊彦
数字排版:黄林美