大数据时代最全的医学公共数据库合集整理
数据库技术是研究、管理和应用数据库的一门软件科学。通过研究数据库的结构、存储、设计、管理和应用的基本理论和实现方法,对数据库中的数据进行处理和分析。
本文我们将介绍几种数据库和数据挖掘技术,帮助临床研究人员更好地理解和应用数据库技术。
目 录
1. 前言
2. 医疗公共数据库概述
2.1 SEER数据库
2.2 MIMIC数据库
2.3 CHNS数据库
2.4 HRS数据库
2.5 Dryad数据库
2.6 UK biobank
2.7 BioLINCC
2.8 GEPIA数据库
2.9 TCGA数据库
2.10 TARGET数据库
2.11 eICU-CRD
2.12 GEO数据库
2.13 GBD数据库
3. 临床数据挖掘方法
4. 医学数据挖掘的前景与挑战
5. 总结
1. 前言
在信息大爆炸时代,信息产生的速度日益加快。在过去几年里,大数据已经成为工业、金融和医疗领域使用最多的词汇之一。
医疗领域是大数据应用的重要领域,每天都产生大量的医疗数据,为了给患者提供更好的治疗和护理,许多国家的医疗机构已经提出了医疗信息系统的多种模式。因此,如何更好地利用庞大的医疗数据已经成为人们关注的焦点,推动医疗大数据的研究和应用成为现代医学研究的关键因素。
大数据是一个抽象的概念,通常解释是指现有数据库管理工具难以处理的数据集成,其既具有海量特征,又具有复杂性特征。
海量是'huge in volume',随着数据的产生和收集,数据规模越来越大,已经超越了传统存储和分析技术; 速度是'speed',即大数据的及时性,表示数据的收集和分析必须快速、及时; 广泛性是'a wide range of data types',包括音频、视频、网页、文本等半结构化和非结构化数据,以及传统结构化数据; 价值就是'value',主要体现在价值密度低,商业价值高。 准确性,强调有意义的数据必须是真实和准确的。
使用大数据的关键是如何从海量、多样化的数据集中发现价值,整合数据库的计算分析已成为医学和分子生物学的基本方法。
医疗大数据有多种来源,如行政索赔记录、临床登记、电子健康记录、生物特征数据、患者报告数据等。
医学大数据有几个不同于其他学科大数据的独特特点:
医学大数据往往很难获取; 通常基于协议、收集、相对结构化; 在分析数据和解释结果时,专业知识可能占主导地位; 与时间相关。
构建大数据平台将便于远程会诊、降低成本、加大全球合作力度、推动临床教育和科研,助力全球精准医学转型和出现新的健康管理模式。
2. 医疗公共数据库概述
2.1 SEER数据库
SEER全称为Surveillance,epidemiology,and end results
为了减轻癌症负担,美国国家癌症研究所于1973年建立了癌症患者的SEER数据库,这是北美最具代表性的大型肿瘤数据库之一,覆盖了美国约28%的人口。
几十年来,SEER数据库收集了美国一些州和县的癌症患者发病率、患病率、死亡率和循证药物等信息,为临床医务人员提供了癌症疾病的宝贵信息,特别是为恶性肿瘤和罕见肿瘤的研究提供了途径。
SEER成立之初,只有少数几个登记注册站,现已扩大到18个。这些登记站使用SEER*STAT
软件,两年一次进行频率统计和汇总,然后向全世界公布登记人群的癌症相关信息。
SEER数据库样本量大、质量高、统计能力强,可以为肿瘤相关研究人员提供高临床参考价值的数据。
从SEER数据库中获取数据有三种方式:
通过 SEER*Stat
软件获取,最简单,应用最广泛;从SEER官网下载压缩文件,解压后提取二进制数据,然后使用R等软件转换成标准格式的数据,要求用户具备一定的软件知识; 向DVD光盘管理人员申请使用 SEER*Stat
,不需要高速互联网支持。
自2016年11月数据提交以来,数据库中的放射治疗和化疗变量已被删除。这些变量可以在签订附加数据使用协议后获得。
虽然SEER数据库存在一些缺点,但SEER数据库仍不失为一个很好的数据来源,为临床研究人员提供了高质量的数据。
2.2 MIMIC数据库
MIMIC全称为Medical information mart for intensive care
重症医学的重点是对危重病人进行监测、对功能减退器官实施支持,让患者在保证供氧、维持器官功能的情况下争取时间寻找和去除病因。
众所周知,ICU在医院中处于非常特殊的重要地位,承担着危重病人的救治任务。诊疗水平也是现代衡量医院水平的重要指标之一。大数据时代为危重患者研究提供了前所未有的机遇,通过加强基础和临床研究,充分利用大数据和人工智能是未来危重医学的发展趋势。
为推动重症医学研究工作,麻省理工学院计算生理实验室、以色列迪康医学中心、飞利浦医疗联合发布了MIMIC数据库,数据库收集了以色列迪康医学中心ICU 2001年至2012年4万余名真实患者的临床诊疗信息。
该数据库样本量大、信息全面、患者跟踪时间长、可免费使用,为危重症研究提供了丰富的资源。
MIMIC数据库在不断更新,目前最新版本为MIMICIII 1.4版(https://mimic.physionet.org/about/releasenotes/
)。
该数据库的患者信息来自两个不同的重症监护信息系统:
飞利浦carevue临床信息系统( https://mimic.physionet.org/mimicdata/carevue/
)IMD ICU系统( https://mimic.physionet.org/mimicdata/metavision/
)。
从2001年到2008年,飞利浦临床信息系统用于跟踪患者至少4年;从2008年到2012年,IMD ICU系统用于跟踪患者至少90天。
MIMIC数据库在使用过程中涉及编码操作,这对临床医生来说是一个挑战。在gitHub平台(https://github.com/MIT-lcp/mimiccode
)有一个用于分析患者特征的开源代码包,可供世界各地的研究人员免费下载和使用。
当发现bug或需要改进时,可以自己修改拉取请求,当平台合并时,您可以将修改后的代码包分享给全世界,其他用户也可以免费使用。
MIMIC数据库为危重医学、循证医学、临床大数据挖掘、医疗监护设备数据分析等领域的研究提供了极大的支持,并取得了丰硕的成果。
2.3 CHNS数据库
CHNS全称为China healthand nutrition survey
中国居民健康与营养调查项目是北卡罗来纳大学与中国疾病预防控制中心营养与健康中心联合开展的国际合作项目。该研究旨在探索中国社会经济转型和计划生育政策在过去30年里如何影响国家的健康和营养状况。研究内容包括社区组织、家庭和个人经济、人口和社会因素的现状和变化。
该项目始于1989年,先后于1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年、2015年进行了项目研究和数据汇编发布。
CHNS网站于2018年6月12日更新了数据集内容。更新的数据集涵盖了从1989年到2015年的10项调查数据的垂直整合数据。中国健康与营养调查(CHNS)显示,营养素或食品或饮食模式的形式发生了变化,这种饮食变化与教育、收入、城市化以及宏观食品环境和政策有关。
调查采用多阶段分层整群随机抽样方式,收集了中国东中西部15个省、自治区、直辖市的数据,截至2018年8月,共纳入社区样本220个、家庭样本7200个、居民样本3万个。
调查数据包括社区调查、家庭调查和个人调查数据。
个人和家庭调查数据包括基本人口统计数据、健康状况、营养和饮食状况、健康指标以及医疗保险。这些数据在CHNS的官方网站上免费向公众提供。
社区数据可通过社区级数据使用协议获取并在线填写数据联动申请表。
研究人员如果需要利用好CHNS数据库信息,详细阅读CHNS项目研究文件是很有必要的。
2.4 HRS数据库
HRS全称为Health and retirement research
人口老龄化作为衡量国际经济社会发展水平的重要指标,老龄化不仅意味着老年人口的增加,而且也会对经济和社会构成严峻挑战,这已成为一个不容忽视的重大社会问题。
关于老龄化人口健康的研究种类繁多,数据类型不断丰富,数据储备快速增长。传统的数据采集方法很难进行有效、全面的统计分析。
健康和退休研究(HRS)是密歇根大学自1992年以来进行的一项纵向研究小组调查,建立了一个具有代表性的大样本数据库。通过每两年对50岁以上的参与者进行一次独特和深入的访谈,收集了越来越多的多学科数据。
HRS数据库样本量大、质量高、结构复杂。为了使数据更易于研究,HRS数据分为公开数据和敏感/受限数据。任何人都可以在HRS数据下载网站上创建帐户以获取公共数据,而限制数据和敏感健康数据需要使用单独的应用程序。
HRS数据库是美国关于健康和经济环境变化的老龄化相关数据库。数据库中的大多数数据可以通过用户注册免费获得。HRS数据库的多学科数据侧重于对收入和财富、健康、意识和医疗服务使用、工作和退休以及与家人联系的调查。自2006年以来,数据收集已扩大到包括生物标志物和遗传学、以及更深入的心理学和社会背景。
2.5 Dryad数据库
随着大数据时代的到来,数据可重用性和数据共享政策正引起全球关注。在过去的十年中,数据管理和数据共享的基础设施和相关法规发展迅速。
Dryad数据库由国家科学基金会资助,于2008年9月成立的一个非营利性组织。Dryad数据库存储了医学、生物学和生态学领域的研究数据,面向世界开放,可以免费下载并重复使用。
Dryad数据库诞生于生物学和生态学领域的领先期刊和科学团体的倡议下,他们鼓励提交手稿的研究人员将研究数据提交到Dryad数据库进行存储并共享数据(http://dryad2.lib.ncsu.edu/pages/organization
)。Dryad数据库使研究人员认识到,数据是可以长时间存档,并开放、免费重复使用的。截至2018年2月,有600多种期刊在使用Dryad数据库,有60000多个数据文件和230多万次下载(http://dryad2.lib.ncsu.edu/
)。
越来越多的期刊鼓励研究人员提交研究数据。一方面鼓励科研数据再利用,产生更多科学新发现。另一方面促进医学研究的透明化、公开化。
Dryad会对每个提交的文件进行必要的检查。比如数据完整性和正确性、文件是否可以打开、是否有病毒、是否有版权限制、是否有敏感数据等。
与其他公共数据库相比,Dryad数据库与许多主流期刊合作,在数据共享方面更加高效。通过为研究数据分配DOI,可以引用数据,在提高科研人员和出版商学术声誉的同时,提高了科学数据的利用率,Dryad有详细的数据维护和数据缺失-恢复的管理策略,数据'零门槛'的使用和友好的界面也使得Dryad数据库越来越受到研究人员的欢迎。
2.6 UK biobank
UK生物库(http://www.ukbiobank.ac.uk
)是全球最大的生物医学样本数据库,于2017年4月30日正式向全球研究人员开放所有数据。
在2006至2010年间,UK生物库从英国各地招募了50万名年龄在40-69岁的志愿者,收集了大约1500万份血液、尿液和唾液的生物样本,并对所有参与者进行了基因分型和血液生化分析,并长期跟踪他们的健康和医疗状况信息。同时该数据库收集所有研究成果,并将其提供给其他研究人员。
UK生物库于2014年启动了一项新的医疗成像数据收集计划,使用磁共振成像(MRI)和X射线技术对超过10万名志愿者的大脑、心脏和骨骼进行了分析。成像分析是为了建立一个内部器官扫描图像的数据库,这也将是迄今为止世界上最重要的健康成像研究。这些海量的数据将帮助研究人员分析人群差异及其原因,如癌症、心脏病、糖尿病、关节炎、阿尔茨海默氏症,甚至改变科学家对这些慢性病和流行性疾病的看法。
UK生物库的申请过程对研究人员和研究机构的研究背景、研究目的和研究动机有很高的要求,需要提供最近发表的学术成果证据,以确保研究是真诚进行的。
UK生物库最大的好处是,所有招募的志愿者都在英国国家医疗服务体系注册,这使得UK生物库能够通过国家医疗数据详细跟踪所有志愿者的健康状况。UK生物库的前瞻性和大样本量以及与健康记录的持续整合为研究人员提供了一个解决各种研究问题的绝佳平台。
英国生物库的缺点是,样本提供者必须填写详细的基本情况问卷,包括姓名、性别、NHS号码、疾病信息等,不可避免地存在隐私泄露。同时注册和申请过程复杂繁琐,周期长。对于第一次申请的人来说,这可能会很困难。
我们相信,英国生物库未来将提供更全面的研究数据和生物样本覆盖,为全球研究人员提供更高效、更便捷的资源注册、申请和使用服务,以及更安全的信息安全。
2.7 BioLINCC
BioLINCC全称为Biologicspecimen and data repositories information coordinating center
BioLINCC由美国国家心肺血液研究所(NHLBI)于2008年成立。该研究所在心、肺和血液疾病的预防和治疗中处于全球领先地位,并支持这些领域的基础研究、转化性研究和临床研究。通过建立BioLINCC,NHLBI为医学研究人员提供了获取科学数据和生物样本的途径,最大限度地利用了NHLBI开发和维护的研究资源。这些资源是1975年以来由血液疾病资源部管理的全国生命周期生物样本库和2000年以来由心血管科学研究中心管理的全国生命周期生物样本库。
BioLINCC公共网站(https://biolincc.nhlbi.nih.gov/
)成立于2009年10月。该网站提供NHLBI收集的110多个研究机构的临床和流行病学研究数据和生物样本。BioLINCC积极从事数据共享,受到众多医疗科技工作者的喜爱。每年都有100多名研究项目负责人向BioLINCC申请他们的临床数据。
存储在BioLINCC数据库中的数据和生物样本是免费提供的,但生物样本的运输费用由调查人员承担。研究人员必须向BioLINCC提交申请,以审查和获取他们正在申请的数据或生物样本。在研究人员申请数据或生物样本后,NHLBI工作人员将对申请材料进行审查。
对于数据资源的应用,NHLBI主要审查申请数据是否与研究计划匹配,以及伦理委员会对研究计划的说明,伦理审查是否通过或豁免。BioLINCC将在每年3月1日发送电子邮件提醒提交该研究的进度报告,也就是研究人员可以在申请成功后的任何时候在他的申请页面上提交进度报告。
BioLINCC的缺点是需要单独申请BioLINCC共享的各个资源。对于想要申请多个研究资源的申请者,申请流程复杂;在搜索生物样本时,BioLINCC需要提供生物样本的名称用于研究目的。这种搜索方法对身份不明的研究人员来说效率不够高。未来,BioLINCC还将拓展数据共享领域,提供更加便捷的资源申请流程,以'高效率-低成本'的方式采集和维护数据和标本,最大限度地利用现有资源。
2.8 GEPIA数据库
GEPIA全称为Gene expression profiling interactive analysis
大数据分析的使用促进了癌症基因组学研究的发展。从本质上说,癌症的原因是一种由细胞内基因表达差异引起的遗传性疾病。随着众多公共数据库的建立和开放,越来越多的研究人员可以访问测序数据。GEPIA是一种对基因表达谱数据进行动态分析的网络服务器,用于癌症和正常基因的表达谱分析和交互分析,填补了癌症基因组大数据信息的空白,帮助临床研究人员更有效地利用公共数据资源。
GEPIA是由北京大学张泽民教授开发的。GEPIA使用的RNAseq数据集基于UCSC Xena项目(http://xena.ucsc.edu
)。该项目采用标准管道计算,并分析了来自TCGA和GTEx项目的9736个肿瘤和8587个正常样本的RNA测序表达数据。TCGA生产了33种癌症的9736个肿瘤样本,而这个项目只提供了726个标准样本。肿瘤和标准数据之间的不平衡可能导致各种鉴定分析的效率低下,因此GEPIA还整合了来自GTEx的数据。GTEx项目产生了8000个标准样本的RNA测序数据。同时,UCSC Xena项目使用标准管道重新计算了TCGA和GTEx原始RNA-Seq数据,从而使两个数据集兼容。因此,TCGA和GTEx数据可以集成起来进行非常全面的表达分析。
GEPIA是一个由中国人开发的公共数据库。使用GEPIA数据库,实验室生物学家可以很容易地探索TCGA和GTEx数据集,找到问题的答案,并检验他们的假设。在差异分析和表达谱分析中,用户可以很容易地发现差异表达的基因。随着基因检测技术的应用,以免疫组织化学为基础的肿瘤预后评估和治疗选择的模式逐渐改变,更加准确的肿瘤分类对预后评估和治疗具有更加重要的指导意义。
2.9 TCGA数据库
TCGA全称为The cancergenome atlas
长期以来,肿瘤预防、早期筛查、个体化治疗、预后评估一直是医学界致力于的重点问题。研究发现,基因变异是所有肿瘤细胞的重要微观分子原因。因此,越来越多的肿瘤学研究人员开始从分子遗传学的角度进行相关研究。通过测量特定基因表达的生物学特性,可以预测肿瘤的生长、扩散和患者生存,并基于基因表达制定有针对性的诊断和治疗计划。全基因组测序和生物信息学的发展为癌症基因组研究提供了新的线索。
TCGA是由NCI于2006年牵头的公共资助项目。自2008年以来,它已经公布了阶段性成果。2009年,它继续投资2.75亿美元,增加了各种类型的癌症数据。到2014年,这项分析扩展到了33种其他类型。肿瘤数据(包括10种罕见肿瘤),来自11000多个肿瘤样本,数据量高达255T,包括临床数据、DNA、RNA、蛋白质等多层次数据。在数据生成方面,该项目取得了无可争议的成功。
TCGA的目标是通过大规模、高通量的基因组测序和基因芯片技术集成多维基因组数据,研究、定义、发现和分析人类所有肿瘤基因组的变化,最终绘制出全基因组的多维肿瘤基因组图。TCGA为肿瘤学研究人员提供了大量的基因组数据和相关的临床数据,为发现癌症相关基因的微小突变和研究肿瘤的生物学机制提供了巨大的数据库,从而提高了人们从分子水平上对癌症的科学认识和预防、诊断和治疗的能力。
TCGA开启了肿瘤分子生物学和精准医学的时代,给研究人员提供了研究癌症发展的新机会,让我们以前所未有的微观视角看待癌症,从而一步步接近它的全貌。目前,TCGA数据已经被用来发现新的突变,识别固有的肿瘤类型,并确定泛癌的相似和不同之处。同时收集肿瘤演化的证据。越来越多的生物信息学工具被开发用于TCGA数据库。
2.10 TARGET数据库
TARGET全称为Therapeutically applicable research to generate effective treatments
近年来,随着医学水平的不断提高,儿童癌症的整体预后有了很大改善,但儿童恶性肿瘤仍是儿童死亡的主要原因。
TARGET数据库是一种多组学方法,用于确定驱动儿童癌症发展和进展的分子变化。数据库以儿童肿瘤为目标,主要疾病项目包括急性淋巴细胞白血病(ALL)、急性髓系白血病(AML)、肾脏肿瘤(KT)、神经母细胞瘤(NBL)和骨肉瘤(OS)。
TARGET通过测序和芯片技术检测特定儿童癌症的基因组、转录组和表观遗传学。使用多组学方法为每种类型的癌症生成一个全面的分子改变图(改变是指DNA或RNA的改变,如染色体结构的重排或基因表达的改变)。通过计算和验证生物学功能来确定哪些改变破坏了基因的功能通路,促进了癌症的生长、进展和生存,从而从癌症相关的改变中识别出候选的治疗靶点和预后标记物。
到目前为止,TARGET由五个项目组成:ALL、AML、KT、NBL和OS。
TARGET数据库针对的是儿童肿瘤,虽然包含的疾病种类较少,但更具针对性。在一定程度上,该数据库可以帮助研究人员进行更深入的疾病研究,并导致更精确的治疗选择。
2.11 eICU-CRD
eICU-CRD全称为eICU collaborative research database
危重病学涉及无创通气的应用和管理、抗生素的合理使用、营养评估和支持的实施、镇痛和镇静药物的适应症、ICU风险评估模式的适用范围等诸多难题。
eICU-CRD是飞利浦集团与麻省理工学院计算生理学实验室合作创建的大型公共数据库。eICU-CRD的发布基于MIMIC-III的成功建立,并通过提供来自多个中心的数据扩展了研究范围。
该数据库由来自美国多个ICU的数据组成。当前版本为2.0版,于2018年5月17日发布。该数据库涵盖了2014年和2015年20多万名ICU患者的常规数据,收集了丰富的高质量临床信息,包括生命体征、护理计划、疾病严重程度、诊断和治疗信息。
要访问eICU-CRD数据库,首先必须申请注册。协议规定申请者不得与他人共享数据,不得试图重新识别任何患者或机构,并遵守协作研究的原则。GitHub上有一个储存库,用于存储eICU-CRD数据库代码,生成表格和描述性统计数据的代码可在网上获得(https://github.com/mit-lcp/eicu-code
)。
随着卫生信息网络的出现,人类需要开发具有成本效益的系统,以减少记录卫生保健数据所花费的时间和精力。在整个住院期间,ICU的患者都受到密切监测,以检测病情的变化。患者病情的变化要求医务人员及时修改治疗方案。eICU-CRD数据库解决了医务人员难以有大量时间和精力收集大量完整信息的问题。
2.12 GEO数据库
GEO全称为Gene expression omnibus
GEO数据库是NCBI创建的国际公共功能基因表达库。数据具有强大的存储功能,允许用户或研究人员提交、保存和检索多种不同类型的数据。GEO提供了一种简单的提交流程和格式,其数据来源依赖于研究人员提交的数据。
GEO数据库不仅为研究人员提供了丰富的疾病相关基因表达图谱,还提供了查询和下载实验和基因表达数据的工具,允许用户查询和下载有趣的研究和基因表达图谱。GEO数据库包含原始数据和从原始数据生成的数据集或地图。GEO的原始数据放在三个不同的实体数据库中:platform、sample和series。
GEO数据集的搜索结果包括名称、描述、物种、平台、提交者联系人、系列、发布时间、数字类型和样本数。GEO表达图的搜索结果以图片的形式显示所有样本的基因表达水平。搜索结果中的实验条件便于我们观察不同条件下基因表达水平的差异。每个数据集概述其研究数据报告和目的,显示与其关联的平台、样本和系列的数量,研究人员可以从中选择感兴趣的研究内容来下载数据。
GEO还提供GEO2R在线分析工具,GEO2R是一个交互式网络工具,它使用GEO2R筛选差异表达的基因,允许用户比较两组或更多组GEO系列,以识别在不同实验条件下差异表达的基因,结果显示有意义(基因排序表)。GEO2R使用来自BioConductor项目的GEOquery和LIMMA软件包对提交者提供的原始处理数据表进行比较。与GEO的其他数据集分析工具不同,GEO2R不依赖于整理的数据集,而是查询原始的矩阵数据文件系列。
GEO由NCBI开发和维护,是著名的芯片数据存储和查询综合数据库之一。芯片技术平台多种多样。GEO创建于2000年,最后一次修改日期是2016年7月26日。
研究人员通过对基因芯片提供的基因表达数据信息进行深入挖掘和分析,发掘其潜在的生物学价值,并将其应用于基因分析、基因表达调控、疾病诊断、药物筛选等研究。对基因表达谱数据的挖掘和分析有助于了解基因的功能和基因间的相互作用,分析基因的遗传特征和功能。GEO顺应了芯片数据库的发展趋势,降低了芯片检测成本,缩短了数据读取时间,高效合理地利用了资源,整合了更多研究人员的数据。
2.13 GBD数据库
GBD全称为Global burden of disease
准确掌握世界范围内各种疾病的负担,对于了解疾病的危害程度和发展,提高卫生服务效率,促进居民健康和社会经济发展具有重要意义。1988年,在世卫组织和世界银行的支持下,哈佛大学公共卫生学院开始了对GBD的研究,随后华盛顿大学健康测量与评估研究所成立了GBD研究小组,对GBD进行研究。
GBD数据库包含所有GBD疾病、风险、病因、损伤、自然损伤和后遗症综合征。
衡量GBD的指标包括:死亡、寿命损失、寿命残疾、限制生命的残疾、患病率、发病率、预期寿命、死亡概率和健康预期寿命、孕产妇死亡率和总暴露。
提取的数据指标包括:数量、比率、百分比、年份和死亡概率。
可提取数据的年份为:1990年至2017年所有指标的年度结果,以及所有GBD年龄段;
性别:男性、女性或两者兼有。
研究领域分为:GBD超级地区、地区、国家、以及选定的国家以下单位、世界卫生组织地区、世界银行收入水平等。
虽然GBD数据库可以查询和下载数据,但包含很多搜索参数都会造成问题:查询时有时会导致文件忽略查询中指定的某些结果:特定的年龄组、年份等;同时查询所有位置,很多或所有的原因、年龄组、年份等都会出现不完整的数据。
此工具不适用于Internet Explorer 10及更早版本。
3. 临床数据挖掘方法
随着信息时代的到来,数据挖掘越来越多地应用于临床实践。
有了信息技术,病历和随访数据可以更高效地存储和提取。同时从医学数据中寻找潜在的关系或模式,获得有关患者诊断和治疗的有效信息,还可以增加疾病的预测准确率,及早发现疾病,提高治愈率。
与传统的研究方法不同,数据挖掘是在没有明确假设的情况下挖掘信息和发现信息,即在没有事先研究和设计的情况下,所获得的信息应该具有三个特点:先前未知、有效和实用。
数据挖掘技术的出现不是要取代传统的统计分析技术,而是对统计分析方法论的延伸和延伸。
4. 医学数据挖掘的前景与挑战
利用新前沿学科产生和分析大数据是传统医学和精准医学之间演变的趋势。大数据的发展将有助于精准医疗的全球应用和新的健康管理模式的出现。
医学大数据挖掘仍然面临巨大的挑战,主要表现在:
医学知识概念复杂,医学知识推理关键技术没有突破; 医学信息源广泛,数据形态高,纬度高,类型不平衡,结构复杂; 医院电子病历系统开放性和可扩展性差,院外流程监管不力。
虽然要在海量数据中产生新的发现和结论并不容易,但只要我们在正确的系统上进行生产性投资,在技术和劳动力上实现关键突破,未来的大数据分析、可视化和人工智能是可以预见的,医疗和生活的便利和改变值得期待。
5. 总结
本文首先简要介绍了大数据时代常用的数据库和数据挖掘方法。
介绍的数据库只是一个很小的部分,还有许多值得研究的数据库,如COSMIC、HGMD、Oncomine、CBioPortal、SRA等。随着理论研究的深入和实践探索的深入,医学数据挖掘将在疾病诊断与治疗、医学研究与教学、医院管理等方面发挥重要作用。