很多医生想通过挖掘临床数据库发表SCI,但是因时间精力有限等原因未能建立自己的专科数据库,或因一些重症患者资料过少,难以分析。不过我们身处于大数据时代,只要用心,数据的获取并不难。目前国内外已经有很多免费对外开放的大样本的临床数据库,只要通过一定的申请,就可以获得相应的数据。今天小助理先跟大家分享的是MIMIC重症监护数据库(https://mimic.physionet.org/)。
随着医疗信息化建设的高速发展,医疗领域已经积累了大量的电子健康档案(EHR)数据,包括:来自各级医院的医疗记录,如生命体征信息、实验室检查、影像学检查、基因数据;公共卫生服务机构数据;地方卫生局行政管理数据等等,其中既有大量结构化数据,也有非结构化数据。对EHR分析利用一直是医务工作者及其他相关研究人员关注的重点,包括循证医学、公共卫生领域、药物研究开发、基因分析等各方面的研究。以重症监护医学信息数据库(MIMIC)为例,它是由麻省理工学院计算生理实验室建立的大样本、单中心危急重症监护数据库,包含了美国波士顿BID医学中心(Beth Israel Deaconess Medical Center)重症加强治疗病房(ICU)去隐私化的医疗记录,并免费提供给全球研究者进行学术研究;其数据类型包括患者生命体征、实验室检查结果、药物使用、护理记录、手术操作代码、疾病诊断代码等。最新版本MIMIC-于2015年年底发布,包含了49 785例患者的入院记录,以及从2001至2012年53 423例次年龄≥16岁的ICU患者记录。相比MIMIC-数据库,MIMIC-数据库增加了2.8万条记录,而且在数据清洗校对方面做了更多工作,使其结构更加简单,数据可靠度更高。机器学习、大数据技术在医学上成功应用的案例,使越来越多的研究者和临床医生对利用医疗数据资源进行研究产生了极大的兴趣。目前国内外基于医疗数据库开展临床科学研究的思路通常是进行回顾性研究,首先由临床医生根据工作中需解决的重点难点问题提出需求,再与工程师组成跨学科团队,基于EHR共同解决问题。在该种模式中的重点环节之一就在于由临床医生提出合理化的科学问题,工程师围绕该核心问题进行数据提取、建模和分析。然而对于从事一线临床工作的医生和学者来说,由于缺乏SQL编程和EHR数据库架构的相关知识,对MIMIC-等大型数据库疾病谱认知的缺失,其提出问题的模式还基于自身所在医疗机构疾病谱特点,导致所提出的临床问题得不到数据支撑。因此,让临床医生或研究者先期了解数据库中的数据内容是促进其与工程师交流合作,高效利用EHR进行二次分析的重要手段。
1.免费,是同类中唯一可自由访问的重症监护数据库;2.数据集跨越十多年,包括多样化和大量的ICU患者因此,在没有自己独立的数据库之前,大家不妨先用公众数据库练练手。MIMIC-III内是以逗号分隔值(CSV)文件的集合,一般使用PostreSQL,MySQL和MonetDB等将数据导入数据库系统。由于数据库包含有关患者临床护理的详细信息,因此必须谨慎对待并予以尊重。研究人员想要获取数据库系统,必须通过MIMIC网站上记录的流程正式请求访问。1.完成相关课程。在授予访问权限之前,必须完成CITI“仅数据或样本研究”课程。首先在CITI计划网站上注册,选择“麻省理工学院附属机构”作为组织从属关系(https://www.citiprogram.org/index.cfm?pageID = 154 &icat = 0&ac = 0),添加麻省理工学院附属课程,在人类受试者培训类别中,选择“仅数据或样本研究”课程2.请求访问MIMIC-III。在PhysioNet上创建一个帐户(https://physionet.org/pnw/login)后,按照PhysioNet上的说明申请访问MIMIC-III项目,并提供您的CITI完成报告(https://physionet.org/works/MIMICIIIClinicalDatabase/access.shtml)3.完成申请后,批准至少需要一周时间。一旦申请获得批准,你将收到电子邮件通知,其中包含从PhysioNetWorks下载数据库的说明。4.接着就可以访问PhysioNet上的“MIMIC-III临床数据库”项目页面(https://physionet.org/works/MIMICIIIClinicalDatabase/)下载数据进行分析。1.从physionet进入个人账号,进入MIMIC III数据库,下载所有的数据包(约40G),然后解压缩为本地计算机上某处的.csv文件不过要提醒大家的是,MIMIC-III的数据文件内容非常大,约有40G的文件,在下载前,建议大家预留好相应的空间。更具体的安装过程可以参阅官网上给出的参考:https://mimic.physionet.org/tutorials/install-mimic-locally-windows/;https://mimic.physionet.org/tutorials/install-mimic-locally-ubuntu/。“它山之石可以攻玉”,最后当然就是按照自己感兴趣的点,对数据库进行挖掘和讨论,得出研究结论。不过要强调的是,MIMIC虽然是一个免费公开的数据库,但其中涉及到很多医护人员的心血,如果引用了其中的数据,记得加上相应的引用,以感谢他们的付出。
欢迎关注公众号启帆医学BioSCI, 创始人之一为留美海归生物医学博士,经过数年积累,汇聚了大批国内外顶级名校的教授、博士、博士后以及其他科研人员等强大人脉资源。