专访北京协和医院陈有信主任:两年而立,样板第三方测评数据库重塑AI测评

建立AI标准数据库这一设想早在2017年便已有有识之士提出,最早的标准数据库圈定在了彩色眼底图像和肺部CT影像两个范围内,当时主要以《医疗器械软件注册技术审查指导原则》、《移动医疗器械注册技术指导原则》和《医疗器械网络安全注册技术审查指导原则》三个指导文件作为建库基准,建立了包含6327例数据的眼底影像标准数据库与包含623例数据的肺部影像标准数据库,其标准化流程可以说走到世界前列。借助标准数据库与相关标准流程,就可以对AI产品进行审评审批。

不过,这个数据库并没有沿用太久,原因主要有以下几点:

  • 其一,数据来源于医院与企业的共同标注,由于缺乏数据行业标准,各家企业提交的数据差异太大,与真实世界情况发生偏移;

  • 其二,在测评过程中,企业既是数据提供方,又是数据考核方,其结果难以保证绝对的公平公正;

  • 其三,由于数据库缺乏严谨的质量控制体系,数据质量的不可控以及不可溯源同样存在安全隐患。当然,数据量、数据安全、数据利益归属等问题也一定程度上阻碍了这项工作的后续发展。

期间也有医院、机构尝试建立自己的测评数据库,但一直没有产生太大的波澜。归根结底,标准数据库的建立不仅需要权威机构主导、政策助力,还需要数据标准的确定、测评平台的建立……多条件的叠加,标准数据库才建得起来,跑得起来。

时至今日,距当年的两个数据库建立已经过去约30个月,医疗AI产业发生了巨大变化,大家对于医疗AI发展的桎梏与解决方案已经逐渐清晰。在这个时间节点上,北京协和医院重磅发布了按《深度学习辅助决策医疗器械审评要点》构建的糖尿病视网膜病变常规眼底彩色照相AI标准数据库(简称“糖网AI标准数据库”),重启标准数据库建设,预示着医疗AI的第三方检验迎来突破性进展。

据动脉网了解,工信部、信通院、各大医院、高校等机构对此合作了一年多时间,才有今天的成果。

糖网AI标准数据库是如何建立的?

2019年6月起,国家药监局开始频繁在医疗AI的标准制定上展开动作。6月29日,药监局正式向AI企业发布《深度学习辅助决策医疗器械软件审批要点》,将审批相关的具体指标确立下来。

文件下发仅半月后,药监局再次开展了AI器械审批相关的大动作。7月17日,国家药品监督管理局医疗器械技术审评中心、中央网络办国家计算机网络与信息安全管理中心、中国信息通信研究院等14个机构、高校联合成立了人工智能医疗器械创新合作平台。

人工智能医疗器械创新合作平台结构

在这一组织之中,北京协和医院负责真实数据应用工作组的管理,主导推进组内各单位学科的真实数据研究工作,承担“中国糖尿病视网膜病变人工智能眼底图像标准数据库”图像收集、标注与检测平台搭建,这便是糖网眼底AI标准数据库的由来。

截至2019年末,北京协和医院陈有信主任领导的团队便已完成了眼底数据的标注,大半年过去了,为何直到近日才公开发布数据库?究其原因,单一的第三方测评数据库难以进行流程化的监测,要实现规模化和标注化,还需要第三方测评平台与病种对应的测评标准。

在2020年WAIC大会上,人工智能医疗器械创新合作平台总计发布了包括医疗人工智能测评公共服务平台、糖尿病视网膜病变常规眼底彩色照相AI标准数据库、《基于胸部CT的肺结节影响辅助决策产品性能指标和测试方法》、《基于眼底彩照的糖尿病糖尿病视网膜病变辅助决策产品性能指标和测试方法》等多项成果。本次发布一次性涵盖了数据库、平台、标准三个要素,第三方测评从结构上看已经可以实现,AI审评审批的推动力发生了质变——医疗人工智能测评公共服务平台是基底,在保证数据、软件的安全性的前提下安装第三方数据库与测试产品,并予以修正后的、符合AI产品迅速迭代特征的测评体系。而在这之中,第三方数据库将为其提供核心支持。

对于其中的意义,陈有信主任表示:“AI是一个新生事物,它被划为器械,却与传统器械不同,我们必须用全新的眼光审视它,通过创新手段验证它的安全性和有效性。因此,我们协和医院领导的真实数据应用工作组便要为这样的创新验证打下基础。这项工作我们从18年便开始努力,如今终得以成型。”

糖网AI标准数据库内涵

这个数据库的终极意义在哪里?

从量上看,该数据库一共包含了1.5万张糖尿病患者后极部眼底彩照,数据来源于全国14个地区的真实世界数据,涵盖了目前市场上主要眼底相机机型,且每个数据在入库时都经过了严格的伦理审查和清洗脱敏。

从数据的采集来看,该数据库数据包含了早期病变、中期病变和晚期非增殖型病变等不同时期、不同种类的糖尿病视网膜病变。同时,北京协和医院对各病例分为了“无其他疾病”与“合并其他病症”两类,使其尽可能的符合真实世界情况。

“在建库时,我们曾详细考虑过糖网数据库的数据来源,希望能够让数据库的病历构成与我们世界中的实际情况高度贴合。这意味着这个数据库既要包含各种时期的糖网病变数据,又要包含存在多种眼部疾病的数据,当然,这里面也得有无病症患者的数据。从最后的结果来看,31%的图片包含其他合并病变,这与真实世界的情况高度相符。”

AI标准数据库数据分布情况

在数据标注方面,所有阅片工作都由北京协和医院眼科阅片团队进行标注,标注后的数据将交由国内同行权威专家进行外部评审,保证了标注过程的高准确性。此外,协和医院还书写了完整的建库文件,提供数据说明文件,实现了测评的可溯源性,防止实际过程中发生问题时的责任纠纷问题。

另一方面,为了满足实际过程中的多样的检验需求,北京协和医院对AI标准数据进行了进一步的划分,建立了“需要转诊/不需要转诊DR”、“国际分期DR”、“有/无DR”、“合并/不合并其他病变”、“画面质量良好/差”五大子数据库。

数据库质量管理体系是如何建立的?

数据的管理水平在一定程度上决定着数据库的“质量”。据悉,为建设一个高质量的糖网AI标准数据库,建设团队开创性地引入了ISO9001质量管理理论,按照体系中人、机、料、法、环的要求对数据的收集进行质量控制(见图1 质量管理理论用于AI数据收集的质控)。

据参与数据库质量管理体系设计和建设的上海博方负责人冯庆宇介绍,由于数据库建设包括数据采集、预处理、标注及构建等诸多环节,所以在整个体系建设过程中,对数据的质量管理一一对应ISO9001质量管理体系中人、机、料、法、环的要求,将医疗环节中的要素以及管理要求予以明确,其中:人——实施者、相关参与人员及相应的资质,如医生、专家、算法工程师及资质要求;机——实施的设备,如具体的医疗器械、采集通讯设备、存储设备;料——图像数据,如医学图像、生理信号、患者信息;法——法规标准及操作规程,如临床指南、人员管理SOP、人员操作及设备操作SOP;环——环境要求,如阅片环境、计算机运行环境、网络环境。

图1 质量管理理论用于AI数据收集的质控

6大特征奠定糖网AI标准数据库的开创性地位

在上述设计下,糖网AI标准数据库由此具备了诸多特性。具体而言,陈有信主任将这些特性归纳为了权威性、多样性、科学性、封闭性、动态性和规范性6个方面。

权威性:本次数据标注团队中的14名医生均来自于北京协和医院眼科,且拥有至少两年的临床经验。标注过程分为两人标注与三人标注,两人标注时要求意见完全一致,三人标注时要求意见一致,以确保数据标注的有效性。

标注后的数据首先会经由陈有信主任领衔的团队进行内审,而当时的、标准一致性Kappa值达到了0.9427。完成内审后的数据会交至10名三甲医院主任医师团队进行外审,这一团队由北京同仁医院张风教授领衔,结果显示,标准一致性Kappa值达到了0.9677。

多样性:具体表现为数据来源的多样性、设备的多样性、人口信息分布多样性,疾病构成的多样性。具体而言,数据库的数据分别来源于14家临床机构,覆盖华东、华北、华中、西北、东北五大区域;由多种影像设备产生,涵盖了Zeiss VISUCAM 500、Kowa Nommyd、α-DⅢ、Kowa Nonmyd D7、Canon CF1、Daytona P200T、Topcon 50IX 6种主流眼底相机型号;覆盖20岁到80岁年龄段,包含52%的男性患者与48%的女性患者;31%的图片包含其他合并病变,以符合真实世界情况。

科学性:来源于数据库本身。15000张图片量创造了行业中第三方数据库数据量的纪录,同时,这些数据在采集之时便经过了严格的筛选,以覆盖DR国际分级、激光术后、合并其他病变、图像质量识别等多种临床实际场景,这赋予了数据库生命——并非简单的数据合集,而是真实世界的缩影。

封闭性:包含数据库的封闭管理与测评过程的封闭管理两个维度,尤其是后者,企业未来在参与测评,与公共服务平台合理助力产品测评时,两者间的VPN通道需遵守“加密”和“只进不出”原则,以保证数据库内数据的安全性与测试过程的公正性。

动态性:虽然数据库处于封闭管理之下,但并不意味着数据的一成不变,在陈有信主任的计划之中,这一数据每年会对5%的数据进行流动管理,即淘汰部分旧的数据,并在每年新增同一类型的新数据。

“如果不作动态更新,那么测试过程中似曾相识的照片就会逐渐增多,反复测试说不定就会出现记忆的现象。此外,医院使用的设备、影像处理软件会随着时间的推移而发生变化,我们的数据库也需随着数据产生环境的变化而不断变化,这样才能保证数据库的有效性。” 陈有信主任描述道。

规范性:“从数据库采集原始数据库到我们数据处理的规范,到数据标注的规范,工作组有一系列的数据SOP规范,包括标注质量内部的评估规范、标注质量外部的评估规范、包括新注入的新数据、淘汰的数据,这些SOP我们写了若干的文件。”通过建立这些规范,使得整个数据库建立在SOP的基础上,同时能够帮助我们完好的溯源。

作为我国首个拥有超过万例数据的第三方影像AI标准数据库,北京协和医院建立的糖尿病视网膜病变常规眼底彩色照相AI标准数据库能够一定程度上代表现有市场上,企业对于第三方数据库的需求。

更多第三方数据库即将建立

糖网AI标准数据库无疑为第三方AI测评开启了新的大门,包括肺结节、冠脉CTA、心电、脑MR等等AI软件,都需要这样的第三方数据库,进而连接公共服务平台进行创新测评。

“我们走出了第一步,但要推动整个医疗AI影像的发展,更多医院应该参与进来。我们希望能把这种模式推动到每一个AI领域。”陈有信主任表示。“借助于协和糖网AI标准数据库的经验,这件事在未来可以推进得更快。”

因此,糖网AI标准数据库不仅在于它对于眼底AI产品审评审批的推动作用,更在于它开启了一种新模式,能够帮助AI产品通过一种创新性、权威性的方式通过审批,并在后续的迭代之中迅速完成审核。

陈有信主任同时表示:“数据收集、数据标注、SOP规则制定、数据安全问题……要建这样一个数据库并不简单,需要大量优秀的医生耗费大量的时间才有可能完成。所以,我们也在探索建立合理的激励机制,以鼓励更多的医生参与到AI的建设之中,这条路任重道远。”

众所周知,AI产品生产企业需要不断提高自己AI产品的性能,那么,AI标准数据库能够通过提供不同的测试数据集,用以训练产品的算法、测试产品的性能,进而推动产品的后续迭代。同时严谨的质量控制体系的建立,也保证了标准数据库的安全有效性和可追溯性,从这个层面讲,AI标准数据库为医疗AI产品上市监管的安全有效性提供了可溯源的证据链,必将是医疗AI产品商业化进程的有力助推器。

虽说医疗AI标准数据库的推进阻碍仍然存在,但糖网AI标准数据库的发布无疑是对产业的一剂强心剂。前路漫漫,已见微光。无论是AI企业、医院,还是相关政策方和监管机构,都在多年的摸索中基本达成共识。

方向有了,就能够避免弯路。当第一个AI产品通过公共服务平台及糖网AI标准数据库完成测试时,医疗AI的下半场便真正开始了。

*封面图来源:123rf。

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
生活原本沉闷,但跑起来就有风
(0)

相关推荐