文献速递 | 通过临床应用深度学习从多模态多视角超声图像前瞻性评估乳腺癌风险
(一)文献基本信息
文献题目:Prospective assessment of breast cancer risk from multimodal multiview ultrasound images via
clinically applicable deep learning
研究单位:University of Southern California
发表时间:2021年6月
期刊名称:Nat Biomed Eng
影响因子:25.672
期刊分区:1
(二)核心亮点
本研究最重要的贡献是提高了临床适用性。具体而言,在一组预期连续的患者中,将人工智能系统的性能与七名人类专家的性能进行了比较。
创建了数字热图,强调与人工智能系统预测相关的特征图的重要性。这种可解释性特征允许评估感兴趣区域(ROI),对于每种成像模式都具有潜在的临床价值(即,它们指导临床医生研究原始US图像中的相应区域,然后重新评估其临床价值)。因此,将此类辅助信息与原始临床医生评估相结合,可能会提高临床医生在做出最终知情决定(如BI-RADS分类和常规转诊活检/随访建议)时的信心水平。
(三)思路与方法
本研究证实了一个可解释的深度学习系统,该系统对来自两家医院的634名患者的721个活检证实的病灶的10,815个多模态乳腺超声图像进行了训练,并对来自141名患者的152个病灶的912个附加图像进行了前瞻性测试,该系统预测乳腺癌的BI-RADS评分与经验丰富的放射科医生一样准确,双模态图像的受试者操作曲线下面积为0.922 (95%置信区间(CI)= 0.868–0.959)和0.955 (95%)。
(四)摘要
The clinical application of breast ultrasound for the assessment of cancer risk and of deep learning for the classification of breast-ultrasound images has been hindered by inter-grader variability and high false positive rates and by deep-learning models that do not follow Breast Imaging Reporting and Data System (BI-RADS) standards, lack explainability features and have not been tested prospectively. Here, we show that an explainable deep-learning system trained on 10,815 multimodal breast-ultrasound images of 721 biopsy-confirmed lesions from 634 patients across two hospitals and prospectively tested on 912 additional images of 152 lesions from 141 patients predicts BI-RADS scores for breast cancer as accurately as experienced radiologists, with areas under the receiver operating curve of 0.922 (95% confidence interval (CI) = 0.868–0.959) for bimodal images and 0.955 (95% CI = 0.909–0.982) for multimodal images. Multimodal multiview breast-ultrasound images augmented with heatmaps for malignancy risk predicted via deep learning may facilitate the adoption of ultrasound imaging in screening mammography workflows.
乳腺超声在癌症风险评估和乳腺超声图像分类深度学习方面的临床应用受到了分级间可变性和高假阳性率的阻碍,也受到了深度学习模型的阻碍,这些模型不符合乳腺成像报告和数据系统(BI-RADS)标准,缺乏临床可解释性,并且没有进行前瞻性验证。在这里,我们证实了一个可解释的深度学习系统,该系统对来自两家医院的634名患者的721个经活检证实的病灶的10,815个多模态乳腺超声图像进行了训练,并对来自141名患者的152个病灶的912个附加图像进行了前瞻性验证,该系统预测乳腺癌的BI-RADS评分与经验丰富的放射科医生一样准确,双模态图像的接收器操作曲线下面积为0.922 (95%置信区间(CI)= 0.868–0.959)和0.955 (95%)通过深度学习预测恶性肿瘤风险的热图增强的多模式多视图乳腺超声图像可能有助于在筛查乳腺摄影工作流程中采集超声成像。
(五)图表
Fig.1用于乳腺癌风险预测的整体人工智能系统。使用深度学习框架(详见补充图1),在视图级多模式US图像(即US B-模式、US彩色多普勒和US弹性成像图像)上开发了该模型。对于每个前瞻性临床试验病变,AI系统每次使用单视图多模式US图像作为输入,从多个视图(即横向和纵向视图)评估可疑病变,并输出总体恶性肿瘤概率。通过改变操作阈值,在AI系统中提出了三种不同的bcr,以供临床医生比较和帮助。
Fig2.回顾性和前瞻性工作流程概述。由于回顾性调查的性质,多视角超声图像没有完全保存和/或视图描述在某些病变中没有明确标记。为了利用现有的大型多模态超声成像数据集,人工智能系统是基于视图级多模态超声图像(未区分横向或纵向视图)开发的。具有明确标记的正交视图的病灶级多模态超声图像是在前瞻性环境中收集的。需要指出的是,本研究中所有的BI-RADS分类都是在超声影像学上专门确定的。
表1.患者人口统计和乳腺病变特征
Fig3.使用病灶级US图像预测前瞻性临床试验集乳腺癌风险时ai系统和读取器的性能。a–d,结果对应于整个集合(a,b)和BIRADS 4子集(c,d)的双峰(a,c)和多峰(b,d)图像。将我们的人工智能系统的性能与七个阅读器中的每一个以及七个阅读器在三种决策模式下的平均性能进行了比较。误差线代表95%置信区间,是根据1,000次数据引导计算得出的。
Fig4.人工智能预测基础示例
使用梯度-计算机辅助制造方法从最终卷积层生成与相应的美国图像重叠的彩色编码热图。
a.恶性病变的横向(第一)和纵向(第二)视图示例。结合两个恶性概率得分,人工智能系统正确地将真正的阳性病变分类。b.良性病变的例子。尽管从横向观察的假阳性和从纵向观察的真阴性之间存在差异,但是结合正交视图可以减轻总体预测偏差。预测基础可以帮助人类专家理解人工智能系统所做决策的合理性。
Fig.5 可理解的人工智能系统潜在地指导人类专家做出更好的临床决策
显示了人工智能辅助读者研究的工作流程。对于每个随机分配和显示的测试病灶,读者从三个方面检查信息,包括原始多模态多视角超声图像、相应的高亮热图和对恶性肿瘤风险概率的人工智能预测,然后最终确定BI-RADS分类。
表2. 放射科医生R1–R7在完成人工智能辅助阅读器研究过程中对Bi-RADS和活检决策变化的总结
(六)不足
人群均来自中国,没有排除种族差异。
仅适用一款超声仪器,不同仪器之间可能存在成像差异。
测试集中的患者群体不能代表筛查人群中癌症患者的自然分布。由于只有活检证实的患者被纳入本研究,该数据集缺乏接受随访的患者的信息。
系统没有纳入患者的病史信息。
(七)启发
一个结合了高灵敏度,高特异性以及解释一致性的人工智能系统可以为临床医生提供帮助,目前已开发有很多人工智能辅助系统,当务之急是增强其可解释性和临床适用性。
现有的深度学习系统多只学习了一个超声图像视角,不符合BIRADS标准诊断方案,在今后的模型建立中应考虑加入多角度,多模态的超声图像,增强其准确性与临床适用性。
【参考文献】
Qian, X., et al. (2021). 'Prospective assessment of breast cancer risk from multimodal multiview ultrasound images via clinically applicable deep learning.' Nat Biomed Eng 5(6): 522-532.
采编:涂梦节 审核:张杰