我们真的清楚什么是医学证据分级吗?
循证医学是现代医学发展的重要基础。而在面对海量的医学文献和信息时,我们需要去辨别和评价这些信息的质量。因此,临床研究证据等级和评价的系统应运而生。
然而,对于临床研究证据等级,我们经常会有以下常见的三个误解。
误解 1:临床研究证据等级评价系统全球都是一样!
误解 2:这个研究是meta分析,所以是等级最高证据!
误解 3:这个药物的有效性被大型的RCT证明或者Meta分析证明,所以就是强烈推荐!
在开始讨论这三个问题前,我们首先简单普及一下临床研究的分类:
另外,还有我们常说的系统性综述和meta分析,是指针对某一具体临床问题检索所有相关研究,并对研究逐个进行严格质量评价,对研究结果进行整合分析得出二次研究结论。其中大部分系统性综述使用了meta分析的统计分析方法,但是也有的系统性综述在检索所有研究后,发现相关研究无法进行meta分析。
最后,提一下指南和共识。目前各个学科,各个国家,各个学会发表了各种各样的疾病治疗指南和共识。需要强调的是,这里所指的“共识”和证据等级里的共识不一样,后者指的是无临床证据的专家经验总结。指南和共识,是一群KOLs针对某个特定疾病的治疗或者特定药物的使用,根据目前已有的研究证据,形成的观点和意见,用来指导普通的医生的临床实践。这些观点和意见其实是通过对已发表的研究结果的复习并结合各个专家的深入讨论形成的。全文发表的“专家共识”和“指南”是类似的,只是“指南”的等级更高,更加权威。可以把“指南”比作是法律,而“专家共识”只是行为准则。
误解 1:临床研究证据等级评价全球都是一样的!
目前临床研究证据等级评价的标准和方法,全球并没有统一,各个指南之间,使用的评价方法都可能不一样。比如最新发表的《2016中国成人血脂异常防治指南》和《2012绝经期管理与激素补充治疗临床应用指南》对于循证证据的分类和意见就不相同。
因此,大家在阅读指南的时候,一定要仔细阅读指南中对于证据分级评价的方法。
目前已经有的证据分级的方法和体系有哪些呢?有很多:
1979年,加拿大预防保健工作组(CTFPHC)的Fletche等人首次按临床研究设计将证据强度分为Ⅲ级5等,推荐强度分为Good、Fair和Poor 3级;
1996年美国预防服务工作组(USPSTF)评估系统将证据分Ⅲ级5等,推荐强度分5级;
1996年美国卫生与政策研究机构(AHCPR)将证据分7级,推荐强度分3级;
1998年英国约克大学“北英格兰循证指南制定计划”将证据分6级,推荐强度分4级。
CTFPHC证据分级(1999)
2001年英国牛津大学循证医学中心(Oxford Centre for Evidence-based Medicine)制定的证据分级标准。
GRADE工作组于 2004年推出的评级系统GRADE是一个由指南制定者、系统评价作者和临床流行病学家共同(参与成立的推荐、评估、发展和评价分级工作组 ( the grading of recommenda2tions assessment、development and evaluation workinggroup, GRADE)从 2000年始就在致力于制定和传播一套证据质量和推荐意见评级系统)
目前使用和接受的比较广泛的是最后2个评价系统,即2001年英国牛津循证医学中心推出的评价系统,和GRADE评价系统。但是,每个指南的作者也可能在这2个评价系统上进行一些调整和修改。
GRADE的评级系统突破了单从研究设计角度考虑证据质量的局限性 ,它依据未来的研究是否改变我们对目前疗效评价的信心和改变可能性的大小将证据质量分为高、中、低、极低 4 个等级。而牛津标准是基于科研设计的角度来评价证据级别的。因此,GRADE的评价系统更加的科学。
误解 2:这个研究是meta分析,所以等级最高证据!
这个误解可能最主要就是来自于前面提到的2001年牛津循证医学中心的证据分级系统,还有我们常见的一个证据金字塔图。
先不讨论单纯针对研究的设计类型对研究质量排序是否科学。而是对于某个单个研究来说,定义它是一个I级或者II级的证据等级是否正确?
笔者理解,证据等级的评价是针对一个特定问题的研究群体的。首先要有一个论断,然后评价针对这个论断的相关的证据等级。举个例子:“人如果渴了,请喝水。喝水可以解渴。”这句话是一个论断和意见。那么我们有没有证据支持这样的论断呢?根据牛津的评价系统,如果有RCT研究证实了这样的结论,那么我们认为这个论断是有I级证据的。但是,我们不能说这个RCT本身是I级的。
同一类型的研究,比如meta分析和RCT研究,由于研究设计,统计,执行等各个因素的影响,对于研究得出的结论也会有很大的影响,单纯的根据研究设计类型就对证据等级进行评价是不完善的。同一个证据等级的证据不一定研究的质量和风险偏倚就是一样的,例如都是RCT,可能有的RCT设计严谨,样本量足够,这样的RCT的结果可信度更高一些,而有的RCT设计差,风险偏倚高,这样的RCT可信程度低一些。
所以,证据等级的评价是针对某一“论断和意见”相关证据群的,不是评价单个研究的。
误解 3:药物有效性被大型RCT证明或Meta分析证明,所以强烈推荐!
首先我们要区分2个概念:证据等级和推荐等级。
证据等级,通俗点讲是指对于一个意见有多大的把握。比如说“喝水可以解渴。”有数个RCT研究证实了,因此我们很有把握得出这样的结论。同时还有一个意见“喝可乐可以解渴”,也有一个meta分析支持这样的意见。按照牛津评价系统,这2个意见的证据级别都是I级的。
推荐等级,不等同于证据等级。现在很多人分不清证据水平和推荐等级。认为高等级证据就一定强推荐,低等级证据就一定弱推荐;事实上高等级的证据不一定强推荐,低等级的证据不一定弱推荐。是否推荐还要根据药物价格,药物的可及性,不同人群的风险/获益比等等因素。比如“喝可乐可以解渴”虽然它有I级证据,但是考虑到喝可乐并不经济,喝多了可能导致肥胖,另外还有更好的解渴方法,因此这个意见仍然可能只是“弱推荐”甚至“不推荐”。
一般情况下,指南和共识的作者在回顾现有的临床证据并结合临床实际情况进行综合考虑后,才能形成推荐级别。同一个意见,不同国家的指南可能推荐级别都不同。比如对于大剂量他汀治疗,中国和美国指南的推荐就完全不同。
临床研究证据的评价的方法各不相同,GRADE评价系统更加科学。
证据级别是对某一个论断的相关证据群的评价,不是针对单个研究的。单个研究用研究质量来评价。
证据级别不等于推荐级别。