JAMA surgery喊你来学大数据挖掘需要了解的潜规则
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO, SEER数据挖掘。
2018年6月 JAMA surgery在线发表了 Editorial文章专门点评基于大型临床数据库的研究。
一个残酷的真相
每年JAMA Surgery都会收到数百份对大型手术数据库进行回顾性分析的论文。尽管这些尝试中有许多试图阐明新的重要问题,但大多数都没有发表。大多数提交的稿件甚至没有发送给同行评审,因为它们在数据分析技术上存在明显缺陷,或者试图解决无法用建议的数据集充分回答的研究问题。在那些发送给同行评审的论文中,许多专家建议同行评审专家拒绝,因为他们发现使用这些本来功能强大的数据集存在严重的方法学缺陷。经常发表的文章来自选定的一组研究人员,因为他们已经掌握了特定的数据集和真正发挥其潜力所需的分析技术。
好好学统计
为了帮助越来越多的研究人员发展适当使用越来越多的大型外科手术数据集所需的技能,JAMA surgery的编辑已委托此系列统计方法文章。该系列旨在为学术外科医生和研究人员提供简短实用的指南,指导他们使用最广泛的外科手术数据集,这些数据集可用于整个研究过程,从概念化到同行评审的出版物。为了实现这一目标,JAMA Surgery与Surgical Outcomes Club(http://www.surgicaloutcomesclub.com)合作,出版了一系列文章,这些文章将有助于提高手术结果研究的科学性。
这个由13个部分组成的系列文章简要概述了11种最广泛使用的数据库(方框1),它们的特定功能,优势,局限性以及一些重要的统计注意事项。此外,我们在本社论中提出了10个项目的清单(方框2),作者可以用来确保他们涵盖了使用这些数据库之一的手稿中“至少”期望的内容。最后,我们将由生物统计学家的同事在社论12中对本系列进行支持,他们对实践指南中提到的统计方法以及需要避免的潜在陷阱提供了更深入的信息。为了确保这些指南的真实性和实用性,我们利用我们的合作伙伴关系作为外科手术结果俱乐部的官方期刊,建立了一个三人作者团队,其中包括
(1) a surgeon investigator who is a senior member of the Surgical Outcomes Club with extensive experience using that particular data set;
(2) a member of the JAMA Surgery Editorial Board who commonly reviews such manuscripts; and
(3) a JAMA Surgery* biostatistician** who is routinely consulted to knowledgeably evaluate the methods for these types of papers (in some cases, the J*AMA Surgery board member is also an expert methodologist, obviating the need for a biostatistician).。
这种作者策略可以确保以与外科医生相关的术语来呈现每本指南,即使他们以前没有生物统计学或所涉及数据集的经验,也包括为严格的JAMA surgery 同行评审准备手稿所需的基本信息处理。
覆盖的研究数据库
Agency for Healthcare Research and Quality Healthcare Cost and Utilization Project databases: National Inpatient Sample, State Inpatient Databases, and Kids’ Inpatient Database1
Surveillance, Epidemiology, and End Results Program2
Medicare Claims Data3
Military Health System Tricare Encounter Data4
Veterans Affairs Surgical Quality Improvement Program5
National Surgical Quality Improvement Program6
Metabolic and Bariatric Surgery Accreditation and Quality Improvement Program7
National Cancer Database8
National Trauma Data Bank9
Society for Vascular Surgery Vascular Quality Initiative10
The Society of Thoracic Surgeons National Database11
提供研究的科学性
有扎实的研究问题和明确的假设。考虑使用FINER(可行,有趣,新颖,道德,相关)或PICO(患者,人群或问题;干预,预后因素或暴露;比较或干预;结果)标准来制定这些标准。
确保遵守机构审查委员会和数据使用协议。
进行彻底的文献审查。使用参考管理程序可以简化稿件开发。
确保这是可用的最佳数据集,并且具有适当的变量来回答您的研究问题。
明确定义纳入标准,排除标准和结果变量。使用流程图描述最终的患者选择。
考虑使用有向无环图来表示潜在的关联。在报告这些观察性研究的结果时,避免使用因果语言。
确保数据变量未随时间变化。如果是这样,请对此进行说明。
Ensure that competing risks are identified and addressed.
Ensure that data issues, such as missing data, are discussed and that any sensitivity analyses or imputations performed are reported in a clear and cohesive way.
Ensure that your article has a clear take-home message that addresses how your research advances current knowledge and has important policy or clinical implications.
值得作者注意的关键问题
为了帮助作者提高提交质量,我们制定了10项清单。我们清单中的第一项鼓励作者追求假设驱动的科学。定义可靠的研究问题是将问题转化为操作假设的关键。FINER(可行,有趣,新颖,道德,相关)标准或PICO(患者,人群或问题;干预,预后因素或暴露;比较或干预;结果)格式可以帮助提出有意义的研究问题。适当定义感兴趣的人群为研究结果的解释,适用性和可概括性打下坚实的基础。我们了解到,在许多情况下,作者可能会使用这些大型数据库进行“假设生成”研究。这当然是可以接受的,但是必须从一个扎实的研究问题开始,进行有意义的研究项目,该研究项目将从大量数据集中产生重要的假设,然后可以使用转换或预期方法进行进一步研究。一些作者询问尝试并查看他们可以在没有真正研究问题的情况下可以访问的数据集中找到什么是可接受的。
* 其次,我们提醒作者寻求机构审查委员会的批准或豁免,并适当记录和遵守适用的数据使用协议。
这些通常被忽略,但是出于患者隐私和各种重要原因,必须遵守适用的规则。
第三,全面的文献综述将有助于确保选择最佳的数据库来回答研究问题,并确保先前未回答过研究问题。
第四,我们鼓励作者尽早投入足够的时间来了解数据库,确认数据库具有适当的变量,并了解方法上的考虑,以确保这是可用于研究的最佳数据集。
第五,对于纳入者和排除者的标准以及结果变量的明确定义,对于审阅者和读者理解被研究的人群是必要的。这也有助于促进数据查询和提取完整且有用的数据集。
关键问题
使用数据库的另一个重要方面是需要识别潜在的混杂因素或协变量,并使用风险调整来最大程度地减少偏差。鉴于这些手术登记中数据的观察性质,一种方法是创建有向无环图,这将允许直观地描述正在探索的潜在关联以及需要记住的协变量和混杂因素。在描述这些观察性研究的结果时,作者还应避免使用因果语言。第七,作者必须说明感兴趣变量随时间的任何更新或显着变化,因为这可能会损害跨年和跨年的比较(例如,在美国国家癌症数据库中,乳腺癌和黑色素瘤前哨淋巴结活检的定义已更改在过去的10年中,必须予以考虑)。
第八,鼓励作者确定结果中是否存在竞争风险。例如,如果作者正在研究术后30天的并发症发生率,则必须说明可能已经死亡并且没有发生这些并发症风险的患者。
第九,作者必须确保以清晰,一致和可复制的方式公开讨论任何数据问题,例如丢失数据。作者必须列出所有数据限制,解决方法以及为减少其影响而采取的措施(例如,敏感性分析,对缺失数据的多次推算)。
最后,作为清单中的最后一项,我们鼓励作者清楚地说明take-home信息。最好是交流研究如何促进科学发展,解决知识差距,突出进一步的研究机会以及讨论这项工作的重要政策或临床意义。
最后
我们建议作者使用此清单,所选数据集的实用指南以及分析数据集的统计技巧(共三部分)在提交稿件之前进行咨询。我们希望,通过遵循这些简单的指南,作者可以从过去成功完成类似分析的众多同事的集体智慧中受益。我们期待有机会发表分析性高级研究,并希望这些指南将有助于提升外科数据库研究的科学性。