NIHCC发布迄今世界最大的CT医学影像数据集

医学影像领域的ImageNet。

7月20日发表在《Journal of Medical Imaging 》上的文章“DeepLesion: Automated mining of large-scale lesion annotations and universal lesion detection with deep learning”,NIHCC声明发布目前世界上最大的CT医学病变图像数据集,所有人都可以公开获得。这些数据将会是机器学习算法的训练集基础;到目前为止,世界上尚没有机构公开提供对深度学习方法发展至关重要的大规模已经标注的放射图像数据集,而Deeplesion将会填补这一领域重要空白。

(欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~)

DeepLesion由美国国立卫生研究院临床中心(NIHCC)的团队开发,是通过从他们自己的图片存档和通信系统中挖掘历史医学数据而开发的。这个新的数据集具有极大的潜力,将会大大促进计算机辅助检测(CADe)和计算机辅助诊断(CADx)领域的技术发展。

该数据库中图像包括多种病变类型,包括肾脏病变,骨病变,肺结节和淋巴结肿大。缺乏多类别病变数据集,一直是开发能够检测多种病变类型的更通用CADe框架的主要障碍。而DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。

数据库是使用原始注释 - “书签”构建的 - 来自图像档案的医学图像中具有临床意义的发现。在分析了这些书签的特征(包括箭头,线条,椭圆,分段和文本等不同形式)后,团队收集并整理这些书签创建了DeepLesion数据库。

虽然计算机视觉领域可以获得包含数百万个图像的强大的ImageNet数据集,但医学成像领域并没有相同数量的数据。大多数公开可用的医学图像数据集往往数量少的可怜,仅包含数十或数百个病例。DeepLesion数据集包含来自10,000多个病例研究的超过32,000个病变标注,现在是面向所有人可公开获得的最大的医学图像数据集。

“我们希望该数据集对医学成像研究领域有帮助,就像ImageNet使计算机视觉领域受益一样,” 该论文的第一作者,资深作者Ronald Summers博士,博士后博士研究员Ke Yan说。

除了构建数据库,该团队还开发了基于数据库的通用病变检测器。研究人员指出,病变检测对于放射科医师来说是一项耗时的任务,但却是诊断的关键部分。该检测器可以作为放射科医师或其他专业CADe系统的初始筛查工具。

除了病变检测之外,DeepLesion数据库还可用于对病变进行分类,或基于字符串查询检索病变,或基于数据库中的现有模式预测新病例中的病变增长。

未来的工作将包括将数据库扩展到其他图像模式,如MR,合并来自多家医院的数据,以及提高检测器算法的检测精度。

该数据库可以在https://nihcc.box.com/v/DeepLesion下载。

(0)

相关推荐