深度学习(DL)已被广泛用于各种医学成像任务,并在许多医学成像应用中取得了显著成功,从而将我们带入了所谓的人工智能(AI)时代。但人工智能的成功主要归功于单任务标记大数据的可用性以及高性能计算的发展。医学成像领域中的DL方法因此面临着独特的挑战。在本文中,作者们首先介绍了医学成像的特点,强调医学成像的临床需求和技术挑战,并讨论了DL的新兴研究如何解决这些问题。本文涵盖了深度学习不同算法的特征,医学图像数据中稀疏和混杂的标签,元学习,可解释性,不确定性量化等主题。然后,介绍了一些在临床实践中常见的案例研究,包括数字病理学以及胸部,大脑,心血管和腹部成像。本文重点介绍一些在当前研究具有重要进展以及存在巨大的未来前景的研究。由于本文较长,我们的分享分成两部分,今天的部分主要介绍了医学成像研究中DL方法需要面对的影像特征的特殊性、难题以及可行的解决方案,并对一些成功应用的深度学习方法进行了介绍和讨论。除此以外,还介绍了在胸部影像检测中成功应用的深度学习案例。本文发表在Proceedings of the IEEE杂志。原文及DOI见文末。
思影科技曾做过多期关于脑影像机器学习及深度学习相关文献的解读,如感兴趣可点击以下链接浏览:
基于原始影像数据的深度学习模型预测脑龄可获得可靠的遗传生物标志物
基于功能磁共振成像数据的机器学习对精神分裂症进行分类
使用多元表征方法提升对大脑-行为之间关系的机器学习研究的泛化
用于临床心理学和精神病学的机器学习方法
PLOS Biology:重度抑郁症多成像中心的泛化脑网络标志物
Nature Medicine:持续的实验性和临床性疼痛的神经影像生物
深度学习在婴儿大脑的磁共振图像分析中的作用(上)
参数选择对脑卒中后失语症预测模型的影响
大脑数据分类时意外过拟合的危险
IEEE Signal Processing Magazine:从手工放射组学特征到深
机器学习在静息态功能磁共振成像中的应用
有监督机器学习在系统神经科学中的作用
使用多模态脑部扫描数据的自动脑肿瘤分割
Radiology:脑部MRI影像组学:转移瘤类型预测的应用
神经放射学诊断中的MRI数据分析
AJNR:深度学习在神经放射学的应用
Neuro-Oncology:对脑胶质瘤IDH突变状态进行分类的一种新型的
Neuro-Oncology:深度学习算法全自动评估脑胶质瘤负荷
Lancet Oncology:利用人工神经网络对神经肿瘤学MRI成像进行
AJP:精神分裂症患者大脑加速老化的纵向识别研究
Nature Protocols:为解释神经成像中的机器学习模型
Biological Psychiatry: 基于多模态脑影像的个体指标预测-方法
BRAIN:基于全球14468名被试MRI数据特征预测脑龄和疾病
Biological Psychiatry:自闭症的神经亚型研究进展
PNAS:灰质年龄预测作为痴呆风险的生物标志物
BRAIN:用于阿尔茨海默病分类的可解释深度学习框架的开发
异质性问题:识别精神疾病亚型的方法
Radiology:人工智能系统脑MRI鉴别诊断精度接近神经放射科
NPP:结构MRI数据的生理性别分类显示跨性别者女性的错误分
利用功能连接对脑疾病进行分类和预测
基于脑影像的精神疾病预测
基于影像学和定量感觉测试预测慢性疼痛的治疗结果
深度学习在医学图像分析中的应用
BRAIN:利用机器学习揭示了两种精神分裂症的神经解剖学亚型
识别最优的数据驱动特征选择方法以提高分类任务的可重复性
Neuron脑影像机器学习:表征、模式信息与大脑特征
Molecular Psychiatry:静息态fMRI预测青少年认知能力
JAMA Psychiatry:脑影像机器学习预测精神疾病患者社会功能
AJP:基于脑网络的可卡因戒断预测
基于机器学习的情绪障碍诊断:功能网络预测药物反应
脑影像特征预测散发性阿尔茨海默病症状发作时间
医学成像利用光,电磁辐射,放射性,核磁共振(MR)和声音等物理现象通过非侵入性方式或通过侵入性方式来生成人体或人体局部的内部组织的视觉表示或图像。临床医学中最常用的成像方式包括X射线照相,计算机断层扫描(CT),MR成像(MRI),超声和数字病理学。影像数据约占所有医疗数据的90%,因此,是临床分析和医学干预的最重要证据来源之一。
图示:医学影像的主要特征以及可以表明这些特征的技术如图1所示,医学成像具有几个影响深度学习(DL)解决方案适用性和性质的特征。请注意,这些特征不一定是医学成像所独有的。例如,卫星成像与医学成像具有以下所述的第一个特征。首先,医学图像具有多种形式,并且像素分辨率很高。现有许多成像方式,并且常常会发明新的采集方式,例如频谱CT。即使对于常用的成像模态,像素或体素分辨率也变得更高,并且信息密度也增加了。例如,临床CT和MRI的空间分辨率已达到亚毫米级别,而超声的空间分辨率甚至更高,而其时间分辨率更是超过了毫秒级。医学图像数据是在非标准设置中获取的。虽然临床上存在大量医学成像数据,但是由于缺乏标准化的采集协议,设备和扫描设置方面存在很大差异,从而导致了所谓的“分布漂移”现象。由于患者隐私和临床数据管理的要求,图像分散在不同的医院和成像中心之间,真正集中的开源医学大数据很少。医学图像中的疾病模式众多,其发病率呈现出长尾分布。放射学领域本体论定义了12878个“症状”(导致结果的条件)和4662个“疾病”(影像学发现)。疾病的发病有典型长尾分布:即虽然少数常见病有足够的病例进行大规模分析,但大多数疾病在临床上并不常见。此外,还有类似当前放射学给出的症状中未表现出的新型传染性疾病(例如COVID-19的爆发)会以某种频率发生,更加大了医学图像中涉及的疾病模式的范围。与医学图像相关的标签是稀疏且嘈杂的。标记或注释医学图像既费时又昂贵。同样,不同的任务需要不同形式的标签,这会造成标签稀疏的现象。由于不同图像采集时经历的变化和条件不同,医生之间甚至于医生内部的标签不一致率很高,因此必须将标签视为嘈杂的。实际上,建立图像标签的黄金标准仍然是一个悬而未决的问题。样本是异类且不平衡的:在已经标记的图像中,图像中的特征会在不同图像下产生不同的情况,其概率分布是多峰的。正负样品之间的比率非常不均匀。例如,属于肿瘤的像素数通常比正常组织少一个数量级。医学图像处理和分析任务复杂而多样:医学成像具有大量任务。在技术层面上,存在一系列技术,包括重建,增强,恢复,分类,检测,分割和配准。当这些技术与多种图像模式和多种疾病类型相结合时,就形成了与众多应用程序相关的大量高度复杂的任务。医学成像通常是医学诊断和治疗过程的关键部分。通常,放射科医生会检查所获取的医学图像并写出其发现的总结报告。推荐医师根据图像和放射科医生的报告定义诊断和治疗计划。一般在患者随访中会要求进行医学成像,以验证治疗是否成功。此外,图像作为侵入性程序的组成部分正变得越来越重要,会既用于外科手术计划又用于实时成像。一个具体的例子是在过去的十年中,随着与图像获取过程有关的技术的发展,成像设备的速度和分辨率得到了提高。例如,在1990年,一台CT扫描仪可以获取50–100个切片,而如今的CT扫描仪可以为每个案例获取1000–2500个切片。对应于单个前列腺活检核心的单个完整载玻片的数字病理图像可轻松占据10GB的空间,可以进行40倍放大。总体而言,全世界每年进行数十亿次医学成像,并且这一数字正在增长。医学图像的大多数解释是由医生进行的,尤其是由放射科医生进行的。但是,由于人类的主观性,不同解释者之间的巨大差异,并且一些其他因素限制了人类对图像的解释(如疲劳)。审查病例的放射科医生审查图像的时间越来越短,这会导致部分结果的遗漏,周转时间长以及数值结果或定量分析的匮乏。反过来,这极大地限制了医学界朝着更多基于数据的个性化医疗发展的能力。诸如DL技术之类的人工智能(AI)工具可以通过自动图像分析为医师提供支持,从而可以称为“计算放射学” 。在已开发的自动化工具中,包括病理结果的检测,疾病程度的量化,病理特征的描述(例如,分为良性还是恶性)以及可以被广泛地表征为决策支持的各种软件工具。这项技术还可以扩展医师的能力,使其观察包括3D事件和时变事件的特征描述(由于时间有限以及可视化和定量工具的限制,这些特征通常不包括在当今的放射学报告中)。1)医学图像重建,旨在从医学成像设备(例如CT或MRI扫描仪)获取的信号中形成视觉表示(又称图像)。对低剂量和/或快速采集重建高质量图像具有重要的临床意义。2)医学图像增强,旨在调整图像的强度,以使结果图像更适合显示或进一步分析。增强方法包括去噪,超分辨率重建,MR偏置场校正和图像调和。最近有很多研究专注于模态转换和合成,可以将其视为图像增强步骤。3)医学图像分割,旨在将标签分配给像素,以便具有相同标签的像素形成分割的对象。分割在临床量化,治疗和手术计划中有许多应用。4)医学图像配准,其目的是将一个或多个图像的空间坐标对准一个公共坐标系。配准在种群分析,纵向分析和多中心融合中得到广泛使用,并且也常用于通过标签转移进行图像分割。5)计算机辅助检测(CADe)和诊断(CADx):CADe旨在定位或找到包含感兴趣对象(通常为病变)的边界框。 CADx旨在将局部病变进一步分类为良性/恶性或多种病变类型之一。6)其他技术包括标的物检测,图像或视图识别,自动报告生成等。在数学中,以上技术可以视为函数逼近方法,该函数逼近将一个图像(或多幅图像,如果可访问多模态)作为输入并输出特定y的真实映射F,则y = F(x)。 y的定义取决于技术,而技术本身又取决于应用程序或任务。在CADe中,y表示边界框。在图像配准中,y是变形场。在图像分割中,y是标签mask。在图像增强中,y是质量增强的图像,通常与输入图像x的大小相同。有许多近似F的方法,但DL是功能逼近最强大的方法之一。自从复兴以来,DL已广泛用于各种医学成像任务,并在许多医学成像应用中取得了巨大的成功。由于它专注于学习而不是建模,因此在医学成像中使用DL表示与医学成像中以前的方法有很大的出入。以监督DL为例。假设训练数据集{(xn,yn); n = 1,...,N}是可用的,并且深度神经网络由θ进行参数化,其中包括层数,每层节点数,连接权重,激活函数的选择等。被发现近似于F的神经网络可以写成φθ^(x),其中可最大程度减小θˆ这样的参数的函数称为损失函数。
其中l(φθ(x),y)是惩罚预测误差的逐项损失函数,R1(φθ(xn))反映了关于输出的先验概率,而R2(θ)是关于网络参数的正则化项。虽然神经网络φθˆ(x)确实代表一种类型的模型,但由于它不代表基于充分理解物理或数学原理的设计模型,因此通常被认为是“黑匣子”。关于基于DL的医学图像分析关键技术有很多调查论文。为了使本评论文与这些作品有所不同,我们特别省略了对DL本身技术细节的任何表述,它不再被认为是新的,并且在许多其他著作中都有很好的报道,而着眼于新兴的DL方法之间的联系。以及医学成像中的特定需求,并通过一些案例说明现有技术。在这里,我们简要概述了DL在医学成像中的发展时间表。DL被称为2013年十大突破性技术之一。这是因为在2012年大规模图像分类挑战之后,该挑战在ImageNet数据集上引入了CNN优势。那时,DL成为一般成像和计算机视觉领域中领先的机器学习工具,医学成像界开始就DL是否适用于医学成像领域展开辩论。这些担忧是由于我们上面概述的挑战所致,主要挑战是缺乏足够的标记数据(称为数据挑战)。在医学成像领域,可以采用以下几步作为DL技术的推动力:2015-2016年的技术是使用“迁移学习”(TL)(或也称为“从非医学特征中学习” )开发的,用于将通过解决源问题获得的知识应用于不同但相关的目标问题。一个关键问题是,经过自然图像训练的网络是否适用于医学图像。有几个小组证明了这种情况;使用基于ImageNet训练的深度网络并对医疗成像任务进行微调有助于加快训练收敛并提高准确性。在2017-2018年,合成数据增强作为处理有限数据集的第二种解决方案出现。经典数据扩充是任何网络训练的关键组成部分。仍然需要解决的关键问题是,是否有可能使用诸如生成模型之类的方案来合成医学数据,以及所合成的数据是否可以作为可行的医学实例,并在实践中提高目前医学任务的性能。跨越不同领域的几项研究结果表明,事实确实如此。例如,基于生成对抗网络(GAN)的合成图像增强显示会产生放射线专家无法识别为合成病变图像样本,还可以提高CNN在对肝脏病变进行分类中的性能。 GAN,变分编码器及其相关变型仍在不断探索和发展。对于图像分割,医学影像界的主要贡献之一是U-Net架构。 U-Net最初是为显微细胞分割而设计的,已被证明可以有效地学习许多医学图像分割任务的有效功能。1)网络体系结构:与浅层神经网络相比,深层神经网络具有更大的模型容量和更强的泛化能力。在大型标记数据库上针对单个任务训练的深度模型可实现出色的性能,远远超出了传统算法甚至人类的能力。更深的网络:从AlexNet开始,有一种使网络更深的研究趋势,以VGGNet,InceptionNet和ResNet为代表。像DenseNet和U-Net中一样,跳接的使用使深度网络更易于训练。最初提出了U-net来解决分割问题,而其他网络则被开发用于图像分类。深度监督学习进一步提高了判别力。对抗和注意机制:在GAN中,Goodfellow等人提出将生成模型与判别模型结合在一起,判别模型告诉样本是来自模型分布还是来自数据分布。生成器和判别器都由深层网络表示,并且它们的训练是通过最小化最大优化来完成的。对抗学习被广泛用于医学成像,包括医学图像重建,图像质量增强和分割。注意机制允许在描述图像内容或进行整体决策时自动发现要关注的“哪里”和“什么”。压缩和激励可以被认为是一种注意机制的通道。可以将注意力与GAN相结合,或者将注意力与U-Net相结合。神经网络架构搜索(NAS)和轻量级设计:NAS旨在自动设计深度网络的体系结构,以实现针对给定任务的高性能。朱等人成功地将NAS应用于医学图像分割。另一方面,轻量级设计旨在设计在保持准确性的同时,在资源受限的设备(例如移动电话)上实现高效计算的体系结构。为了解决稀疏和嘈杂的标签问题,我们需要用于高效标注的DL方法。因此,关键思想是利用从现有模型和数据获得的特征来进行迁移。为此,文献中提出了几种方法,包括:TL(Transfer learning),域自适应学习,自我监督学习,半监督学习和弱/部分监督学习。TL(Transfer learning)的目的是将通过解决源问题获得的知识应用于另一个不同但相关的目标问题。一种常用的TL方法是使用基于ImageNet训练的深度网络并将其微调为医学成像任务,以加快训练模型收敛速度并提高准确性。由于大量带标签数据集的可用性,此类TL方法取得了显著成功。然而,ImageNet由自然图像组成,它的预训练模型仅适用于二维图像,不一定适用于医学图像,特别是对于小样本设置。刘等人提出了一种3D各向异性混合网络,该网络可以有效地将从2D图像中学到的卷积特征转移到3D各向异性体积中。 Chen等人将来自多种医学挑战的多种数据集与多种模态,目标器官,和病理学以学习一个为3D医学图像分析任务提供有效的预训练模型的3D网络。域自适应学习是TL的一种形式,其中源域和目标域具有相同的特征空间,但分布不同。通过尝试对输入数据的特征空间进行分类的对抗机制来学习领域不变特征。张等人提出使用具有循环和形状一致性的GAN来合成和分割多模式医疗图像。提出了一种域自适应模块,该模块将目标输入映射到与源域特征空间对齐的特征,用于跨模态生物医学图像分割,使用域判别器模块来区分两个域的特征空间。黄等人提出了一种通用的U-Net,其包括领域通用参数和领域特定参数,以处理多个领域的多个器官分割任务。这种集成学习机制为处理多个领域甚至多个异构任务提供了新的可能性。自我监督学习是无监督学习的一种形式,它通过某种代理任务来学习数据的表示形式,在该任务中,数据提供监督信号。一旦学习了表示形式,就可以使用带标签的数据对其进行微调。可以使用变形的图像作为输入来恢复原始图像。可能的失真包括非线性灰度值转换,局部像素混乱以及图像补全。朱等人建议解决Rubik的多维数据集代理任务,该任务涉及三个操作,即多维数据集排序,多维数据集旋转和多维数据集mask。这使网络能够学习平移和旋转不变且对噪声也很稳定的特征。半监督学习通常使用一小组带标签的图像来训练模型,然后为带有注释的大量图像生成伪标签,然后学习混合两组图像的最终模型。 Bai等人实现了这种用于心脏MR分割的方法。 Nie等人提出了一种基于注意力的半监督深度网络进行分割。它利用对抗方法训练分割网络,从该分割网络中计算出置信度图作为基于区域注意的半监督学习策略,以包括未标记的数据进行训练。弱/部分监督学习:Wang等人从胸部X射线解决弱监督的多标签疾病分类。为了放宽对图像分割的严格逐像素标注,提出了使用图像级注释或弱注释(例如点和涂鸦)的弱监督方法。对于多器官分割,Shi等人使用新提出的marginal loss and exclusion loss从多个数据集的联合中学习单个多类网络,每个数据集具有较小的样本量和部分器官标签。 Schlegl等人仅从正常图像建立深度模型,以检测测试图像中的异常区域。无监督学习和解耦(耦合是指两个或两个以上的体系或两种运动形式间通过相互作用而彼此影响以至联合起来的现象。 解耦就是用数学方法将两种运动分离开来处理问题,常用解耦方法就是忽略或简化对所研究问题影响较小的一种运动,只分析主要的运动。):无监督学习不依赖于带标签的图像。有研究者设计了一种具有对抗性学习策略的解耦网络结构,该策略促进了深度特征的统计匹配,该策略已被广泛使用。在医学成像中,无监督学习和解耦已用于图像配准,运动跟踪,伪影减少,改进分类,域自适应和一般建模。图像知识来自各种来源,例如成像物理,统计约束,任务细节以及嵌入DL方法的方式也各不相同。对于胸部X线疾病的分类,李等人将不成对的CT中嵌入的解剖学知识编码为一个深层网络,该网络将胸部X射线分解为肺部,骨骼和其余结构(见图2)。使用增强的骨骼抑制图像,可以提高分类性能,从而预测出14种常见的肺部疾病中的11种。通过学习从基于CT的模拟X射线(DRR)中提取肺结构并将其与原始X射线图像融合,可以增强肺部X线照片。所显示的增强作用可以增强真实X射线图像中病理学表征的结果。
图2 将CT中的解剖知识嵌入到X射线数据中实现更高准确率的解码
为了解决与数据隐私,数据安全和数据访问权有关的问题,通过分布式计算和模型聚合策略学习通用的,鲁棒的算法模型的能力变得越来越重要,这样就不会将任何数据传输到外部医院或影像实验室。该研究方向称为联合学习(FL),与传统的集中式学习将所有本地数据集上传到一台服务器相反。与联合学习有关的研究挑战很多,例如减少通信负担,各个本地站点的数据异质性和易受攻击性。尽管这方面的研究很重要,但最近才报道在医学成像中进行FL的工作。 Sheller等人提出了在不共享患者数据的情况下首次将FL用于多机构DL模型,并报告了在以联合或集中方式训练的模型之间相似的脑部病变分割性能。Li等人研究了几种实用的FL方法,同时在BraTS数据集上保护数据隐私以进行脑肿瘤分割,并证明了模型性能与隐私保护成本之间的权衡。最近,FL与领域自适应学习一起被用于训练具有增强的分析性能和疾病相关生物标记物可靠发现的模型。5)可解释性:临床决策在很大程度上取决于证据的收集和解释。缺乏证据和解释使医生很难相信ML模型的预测,尤其是在疾病诊断方面。另外,可解释性也是新知识的来源。Murdoch等人将可解释的机器学习定义为利用机器学习模型来提取有关数据中包含的特征关系的相关知识,旨在为使用者提供有关选定特征问题的见解。大多数解释方法可以分类为基于模型的解释和事后解释。前者是关于约束模型的,因此它可以轻松提供有关未发现关系的有用信息(例如稀疏性和模块化)。后者是关于提取有关模型已学习的关系的信息。基于模型的可解释性:对于心脏MRI分类对潜在空间中具有诊断意义的概念进行编码。当训练健康和肥厚型心肌病分类模型时,它利用了从3D分割中学到的可解释的,特定于任务的解剖模式。事后解释性:通过将图神经网络的解释能力与随机森林进行比较,计算出了特征重要性得分。Li人提出了一种通过频率归一化采样策略破坏图像的大脑生物标志物解释方法。也有研究者在语义分割的上下文中评估了各种可解释性方法,以解释深度学习方法从结肠镜检查图像中发现息肉的能力。6)不确定性量化:它使用置信度度量来表征模型预测,这可以被视为事后可解释性的一种方法,尽管通常将不确定性度量与模型预测一起计算。最近,有一些新兴的工作可以量化用于医学图像分割,病变检测,胸部X射线疾病分类和糖尿病性视网膜病变分级的DL方法的不确定性。不确定性的另一扩展是将不确定性与给定标签有噪声的认识相结合。现在开始出现考虑网络架构建模及其训练中标签不确定性的工作。鉴于DL已在众多医学成像应用中使用,因此在单篇论文中涵盖所有可能的相关文献几乎是不可行的。因此,我们涵盖了临床实践中常见的几种选定病例,包括胸部,神经,心血管,腹部和显微镜成像。此外,我们没有提供每个研究案例的详尽文献调查,而是在每个案例研究中提供了一些突出的亮点。肺部疾病具有很高的死亡率和发病率。在全球十大死亡原因中,我们发现了肺癌,慢性阻塞性肺疾病(COPD),肺炎和结核病(TB)。在撰写本文时,COVID-19的死亡率可与结核病相当。影像学与诊断,计划治疗以及进一步了解导致这些及其他肺部疾病的原因和机制密切相关。除此之外,住院患者的肺部并发症也很普遍。到目前为止,胸部X光检查是最常见的放射学检查,通常占放射科所有研究的三分之一以上。普通X线照相术和CT是对胸部成像的两种最常见的方式。充气的肺实质与组织之间的高密度对比使得CT非常适合进行体内肺部分析,即使在非常低的辐射剂量下也可以获得高质量和高分辨率的图像。电子断层扫描成像(PET/CT)可用于诊断和分期肿瘤患者。MRI在肺部受到一定限制,但可以产生独特的功能信息。超声波成像也很困难,因为声波会在空气和组织的边界强烈反射,但是急诊部门使用了现场护理超声波,并且广泛用于观察COVID-19患者的基于DL的首个决策支持应用。1)解剖结构分割:对于胸部CT扫描的分析和定量,主要解剖结构的自动分割是重要的先决条件。最新的研究令人信服地证明,DL现在是实现此目标的最先进方法。从检查LOLA11的结果可以明显看出这一点,该竞赛于2011年开始进行胸部CT的肺叶分割术。针对这一挑战的测试数据集包括许多极具挑战性的肺部病例。多年来,通过交互方法获得了最佳结果。在2019年和2020年,基于U-Net及其变体的七种全自动方法在肺部分割和肺叶分割方面名列前十名,最近的两种方法获得的结果优于最佳交互方法。这两种方法均接受了来自COPDGene研究的数千次CT扫描训练,说明了大型高质量数据集对于使用DL获得良好结果的重要性。这些数据可应要求公开提供。两种方法都使用类似U-Net的多分辨率架构,并具有多个自定义设置。脉管系统的分割,分为动脉和静脉,以及气道树,包括分支的标记和支气管壁的分割,这是另一个重要的研究领域。尽管已经提出了在某些步骤中使用卷积网络的方法,但是开发一种完全基于DL的体系结构,该体系结构可以准确地跟踪和分段交织的树结构并利用这些复杂结构的已知几何结构仍然是一个不小的挑战。2)胸部放射成像的检测和诊断:最近,有关胸部X线检查异常的出版物数量大大增加。这种趋势是由大型公共数据集(例如ChestXRay14,CheXpert,MIMIC和PadChest)的有效性驱动的,总共提供了868k图像。通过文本挖掘随附的放射学报告收集了超过150种标签是否存在的不同异常迹象。这使得数据的标签非常嘈杂。大多数出版物使用一种流行的卷积网络体系结构中输入整个图像的标准方法。方法学的贡献包括新颖的图像预处理方法,处理标签不确定性,以及将自我监督学习作为预训练的一种方法。到目前为止,只有少数出版物分析同一位患者的多次检查以检测随时间变化的特征。3)肺癌筛查的决策支持:NLST试验取得积极成果后,美国开始了一项针对重度吸烟者的筛查计划,以通过低剂量CT扫描在早期发现肺癌。预计世界上许多其他国家也会效仿。在美国,检查中心必须使用称为Lung-RADS的报告系统。阅读肺癌筛查的CT扫描非常耗时,因此,自动化Lung-RADS中的各个步骤已引起了广泛的关注。研究最广泛的主题是结节检测。结节可能代表肺癌。在LUNA16挑战中比较了许多DL方法。Lung-RADS根据结节的类型和大小将最可疑的结节扫描分类。当前已经提出了用来确定结节类型的DL系统,并且可以通过基于阈值和数学形态学的传统方法以及DL网络来完成对结节尺寸的测量。逐步使LUNG-RADS指南自动化的优势在于,这形成了一个可解释的AI解决方案,可以直接为放射科医生的阅读工作流程提供支持。或者,可以要求计算机直接预测CT扫描是否包含可治疗的肺癌。这是2017年组织的Kaggle挑战的主题,吸引了近2000支队伍参与。排名前十的解决方案全部使用DL,并且都是开源的。两年后,来自Google的团队根据获胜团队在Kaggle挑战赛中的方法发布了一种实现方案,该实现采用了3-D膨胀inception架构(I3D)。 I3D体系结构建立在用于2D图像分类的Inception v1模型的基础上,但将滤波器和池化核合并为3D。这使得可以将预先训练有2D数据的图像分类模型用于3D图像分类任务。已有研究表明,该模型的性能优于参与Lung-RADS项目的六位放射科医生。该模型还扩展到可以处理后续扫描,该扫描所获得的性能略低于人类专家。
图3 一个在CORADS-AI系统进行COVID-19病例检测的例子,可以在第三列中看到AI系统检测到的异常组织,即磨玻璃样特征,最下面的一行,右侧表示了检测到的位置和可能性,左侧表示了预测为covid-19的概率。
4)COVID-19案例研究:为了说明如何使用具有预训练元素的DL来快速构建应用程序,我们简要讨论了两种用于COVID-19检测的工具(用于胸部X光片和胸部CT)的开发。 2020年3月,许多欧洲医院被出现呼吸困难的急诊患者所淹没。 COVID-19的分子测试能力不足,并且测试结果的交付时间通常是几天。因此,医院使用胸部X射线或CT进行诊断,以决定是否住院以及如何治疗患者。在短短的六个星期内,来自荷兰和德国多家医院,研究所和一家公司的研究人员设法创建了一种通过X射线和CT扫描检测COVID-19的解决方案。图3显示了此CORADS-AI系统对COVID-19阳性病例的结果。X射线解决方案从使用局部和全局标签的卷积网络开始,经过预训练以检测结核病,使用肺炎患者和健康对照的公共和私人数据进行微调,以检测总体上的肺炎,然后对来自荷兰医院COVID-19患者的X射线数据进行测试。随后,该系统在另一家荷兰医院的454张胸部X光片上进行了评估,与6位胸部放射科医生的表现相当。该系统目前正在非洲进行现场测试。称为CO-RADS的CT解决方案旨在自动化用于COVID-19患者CT的临床报告系统。该系统以从CO-RADS 1(极不可能)到CO-RADS 5(极可能)的等级评估COVID-19感染的可能性,并根据百分比从0到5的肺叶评分来量化受影响的肺实质疾病的严重程度,最高CT严重度评分为25分。采用了先前提到的叶分割方法。肺部异常区域使用内置的基于U-Net框架的3-D U-net进行分割并以交叉验证的方式进行,包括108次扫描和相应的参考描述,以进行分割。通过计算每个叶受影响的实质组织的百分比,从分割结果中得出CT严重性评分。 研究者对U-Net与其他几种方法进行了比较,发现U-net性能最好。在今天的分享部分,我们可以看到,DL面对的医学图像具有多种形式,并且像素分辨率很高,这就导致模型学习时需要处理大量的图像特征。但医学图像数据是在非标准设置中获取的,不仅导致质量较高的大样本数据难以获取,更是导致了样本是异类且不平衡的:在已经标记的图像中,图像中的特征会在不同图像下产生不同的情况,难以获得有效平衡。但是,临床需求时巨大的,以当前还在肆虐于世界各地的COVID-19为例,需要阅片的数量已经大大超过了医生能处理的范围,急需先进、可靠和解释性良好的AI工具进行辅助。值得欣喜的是,当前已经出现了一些对医学图像处理具有良好效能的深度学习方法,如迁移学习、联合学习和嵌入学习等。除此以外,一些对特定任务具有良好效能的算法也被开发出来,如对分割任务具有良好表现的U-net架构。在肺部图像的分割检测中,U-net框架的深度学习方法已经表现出临床应用的价值。在明天,我们会进一步对深度学习方法在脑成像方面的最新进展和方法进行分享。
A review of deep learning in medical imaging: Imaging traits, technology trends, case studies with progress highlights, and future promises
SK Zhou, H Greenspan, C Davatzikos… - Proceedings of the …, 2021 - ieeexplore.ieee.org10.1109/JPROC.2021.3054390