详解登上《Nature Medicine》的NLP成果,为什么说这是一次里程碑式的胜利?

北京时间12日零时14分,国际知名医学科研期刊《自然医学》(Nature Medicine)在线刊登于文章题为《使用人工智能评估和准确诊断儿科疾病》(Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence)。

这一研究结果由广州市妇女儿童医疗中心夏慧敏教授、张康教授(加州大学圣地亚哥分校)、数据中心梁会营博士、医务部孙新主任以及儿内科门诊何丽雅主任团队与依图医疗倪浩团队、康睿智能科技等业内顶级研究团队及广东省再生医学重点实验室,利用人工智能技术诊断儿科疾病实现。

这是全球首次在顶级医学杂志发表有关自然语言处理(NLP)技术基于中文文本型电子病历(EMR)做临床智能诊断的研究成果。其核心是利用儿科疾病的文本病例数据训练人工智能,以达成智能诊断的目的。

那么,为什么说这是一次里程碑式的胜利?动脉网记者采访到了依图医疗CEO倪浩与广州市妇女儿童医疗中心的梁会营博士,以了解这一项目背后的故事。

如何让机器像医生一样思考?

自然语义处理是人工智能技术中至关重要的一个分支,其目的是帮助人工智能在识别影像的基础上,通过自动学习病历文本数据(医生的知识和语言)中的诊断逻辑,逐步具备一定的病情分析推理能力,并更进一步读懂、分析复杂的病例,逐渐使人工智能能像医生一样“思考”。

将人的智慧以机器形式表现出来是该研究的目的,所以人工智能的学习是对医生日常就诊流程的学习。

常规的就诊包括望闻问切、视触叩听,即医生看病时需要融合患者的主诉、症状、个人史、体格检查、实验室检验结果、影像学检查结果,甚至在来医院前的用药信息,多方面才能做出综合的病情判断。

如果人工智能能把这些信息都给吃进去,然后消化,并吸收。当医生或患者输入病症时,输出的便是一个诊断结果。

梁会营认为:“要实现人工智能模拟医生就诊,做临床推理,必须做到以下几点;第一,它要自动学习文本病历中的诊断逻辑,医生是从书本中去学习的,而人工智能是从上百万份电子病历中去学习;第二,学习后,人工智能需具备一定的进行病情分析的推理能力;第三,要能够像人类医生一样,读懂各类儿科文本病历,并做出准确的智能推荐。简单而言,当这个算法成熟后,患者察觉病情时,无需百度就可以获得专业的诊断结果。”

在实践之中,倪浩认为,这将分为两个阶段:“第一个阶段是如何去解构各个领域的责任与数据,所谓的解构就是去挖取数据中的信息点。本篇文章中一个非常重要的基础就是基于解构后的电子病历数据,建立一个高质量、结构化的病种库,并在这个病种库的基础之上去做诊断模型。第二个阶段是语义理解,即通过训练让机器的模型能够完全去理解人类语言。这个阶段相当困难的,整个业界还有很长的路要走,但依图的工作已经实现了语义理解的初级阶段。”

十倍于常量的数据集

过去发布在顶级期刊上的相关论文,其使用的数据集的数据量级在十万左右,而本次实验中的人工智能理解了近60万患者,136万份电子病历的数据。

这些数据来源的患者均为儿童,平均年龄为2.5岁,其中40%是女孩;数据结构覆盖了患者主诉、症状、个人史、体格检查、实验室检验结果、影像学检查结果、用药信息等多方面的数据。所患疾病包括消化科、呼吸科等55种疾病,覆盖了超过75%的常见儿童疾病疾病。对于脑膜炎等危急疾病,实验同样也做了一些设计,以提高人工智能的诊断能力。

研究团队利用依图医疗的NLP技术建立了一套病历智能分析系统,深度挖掘和分析医疗文本的信息,将非结构化文本形式的病历数据变成规范话、标准化和结构化的数据,以便AI准确完整地“读懂”病历。

为此,医生、科学家和技术人员通力合作,由30余位高级儿科医师和10余位信息学研究人员组成的专家团队手动给电子病历上的6000多张图表进行注释,并持续对模型进行检验和迭代。

图表是研究人员研究疾病的副机码,作用为找出某一疾病的特征。一个疾病可能有300个特征是有意义的,只要按这个特征填进去的话,人工智能就可以诊断这个疾病。在现实中,医生书写的最完善电子病历的特征数在100左右。

同时,不同疾病的图表结构不同,有的疾病不含诊断,而有的包含家族史、主诉、实验室检查、影像学检查、超声检查等多维信息,研究人员必须对不同情况下的图表进行区分。

优异的训练结果

由于丰富数据库的加持,所训练出的模型也表现出了优异的结果,以部分疾病为例:神经系统的准确性为0.98,呼吸系统的准确性为0.92,全身性疾病的准确性为0.87,最低的消化系统的准确性为0.85。若细化疾病的分类,上呼吸道的准确率为0.89,而下呼吸道的准确率为0.87。

不同的疾病之间准确率的差异源于数据与特征的差异。某一疾病的特异性的症状越多,它就更容易被学习,这是因为这些特异性给了人工智能进行区分的先决条件。同时,学习更多数据的人工智能将在准确度方面做出更好的表现,这一点人与机器同理。

倪浩对此举了一个很好的例子:“如果某患者患有急性喉炎,但喉炎发病的部位和症状与支气管炎类似,要区别两种疾病,需找出喉炎的特异性的症状。由于医生可能不会描述相关症状,患者病历中便会缺失,造成结果的误诊。对此,我们作出了这样的解决方案:假如系统怀疑患者有可能是急性喉炎,而它的置信度不是排名第一,人工智能会追问是否出现了呼吸时伴随卷鼻音(急性喉炎的另一特征),这是医生容易缺失的一个操作。尽管现有准确率已达到一定水平,但仍有提升的空间,通过这种方式,我们能逐渐在现有准度的基础上进一步提升系统准确率。”

NLP的发展是漫长而充满意义的过程

谈及为什么选择儿科作为突破口,除了广州市妇女儿童医疗中心提供的翔实数据,儿科荆棘的现状也是倪浩团队选择这一领域进行实验的重要原因:“中国儿科医生非常稀缺,流感季节的三甲医院总是爆满。此外,儿科是一们哑科,很多小孩子不具备很强的语言表达能力,他们不能详细讲述自己的病情,这是我们一直坚持在儿科做出巨大投入的原因。”

“我一直在想象这样的场景,在就诊时,当医生与患者的问答环节结束,关联电子病历的语音识别助手就已经写好了电子病历,而辅助诊断系统也根据这一病例得出结果,告知患者该去做什么样的检查。这样下来,医院的效率将大幅提高,医生的解放也得已实现。”

总的来说,本次研究是一次成功的尝试,这为NLP技术在其他科室的发展打下了一个很好的开端。在接下来的研究之中,依图医疗将沿着就诊链路进行产品延伸,包括但不限于治疗方案、护理方案、给患者家长健康指导以及互联网医院场景。

通过互联网技术打破地域的限制,通过语音识打破就诊方式的限制,通过智能诊断打破医院效率的限制,依图医疗正通过技术不断打破传统医疗模式,让人工智能技术惠及更多的患者。也许,人们理想中的医疗方式,离我们不再遥远……

文 | 赵泓维

微信 | qq850860074

添加时请注明:姓名-公司-职位

后台发送关键词即可获得相关好文

网站、公众号等转载请联系授权

近期推荐

★ 特朗普慌了?中美AI顶层之战或将打响,医疗领域早已剑拔弩张……

★ 和肿瘤赛跑,中国新医药的创新速度

★ 这个园区品牌价值超400亿元,有13家潜在独角兽正全力发展互联网医疗

★ HIMSS预测2019年医疗行业四大趋势

★ B2B医药电商实操宝典,千亿市场2019年趋势预判

新春特辑

★ 医疗信息化  ★ 医药  ★ AI

★ 互联网医疗  ★ 医疗器械

★ 健康管理    ★ 消费医疗

DRG深度解读

★ 系列一:DRG支付体系构建的国际经验借鉴(综述篇)

★ 系列二:DRG支付体系构建的国际经验借鉴(临床数据篇)

★ 系列三:DRG支付体系构建的国际经验借鉴(成本数据篇)

★ 系列四:DRG支付体系构建的国际经验借鉴(DRG分组篇)

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
(0)

相关推荐

  • 左手医生张超:让AI复制更多优质医疗资源

    新冠疫情从2020年漫延至2021年,对诸多行业发展造成或大或小的冲击.医疗健康行业却是整个经济大环境中的亮色之一,得到用户.市场和资本的追捧.由于线上需求激增,互联网医疗.医疗科技类公司更是颇受瞩目 ...

  • 组建实验室仅3年,团队人均26岁,这位博导成果登上Nature

    她,回国组建实验室仅三年多,带领一支平均年龄只有26岁的年轻科研团队在植物免疫学领域取得重要进展. 日前,这位85后上海女科学家.中国科学院分子植物科学卓越创新中心研究员辛秀芳及其团队登上国际顶尖学术 ...

  • 【进出口食品安全】进口乳品通关详解(上)

    (来源:厦门海关12360) Dairy product 乳品 根据<进出口乳品检验检疫监督管理办法>,乳品包括初乳.生乳和乳制品. 1.初乳是指奶畜产犊后7天内的乳. 2.生乳是指从符合 ...

  • 长篇:药性歌括400味白话详解(上)

    <药性歌括四百味>为明代医家龚廷贤所撰,在医药界流传颇广,影响很大,是一本深受读者欢迎的中医启蒙读物.该书以四言韵语文体,介绍了四百味常用中药的功效和应用.内容简要,押韵和谐,便于记诵,不 ...

  • 八字命理揭秘—八字术语详解(上)

    什么是八字术语? 在我国民间,有很多从古代就流传下来的学说以及一些其它宝贵的文化遗产,比如生辰八字或者四柱八字,就是其中的一种,而且是相对比较重要,受人们重视的一种,所谓"术语", ...

  • 七下17讲 不等式典例详解(上)(含几何画板GIF秒杀)

    <一元一次不等式>是苏科版初一数学的最后一章,许多问题可与方程结合,与数轴结合,如再加入参数,可以说是千变万化.今天,我们先从三大类问题入手,借助数轴的动态GIF分析整数解问题,以及含参不 ...

  • 八卦走转十六句歌诀详解(上)

    为了帮助大家尽快掌握八卦走转的要领, 铁恩芳老师编写了<八卦掌健身研修心得>(亦称为"八卦走转十六句歌诀"): 身心修养走当先,四正四隅八步圈. 里直外扣舒膝胯,平起轻 ...

  • 交易课堂 | K线形态十字星详解(上):6种十字星和4种组合

    经常有投资者问,十字星在技术分析中到底有什么意义,如何去依据十字星来判断后期行情走势呢?从今天开始,一点通咨询课堂将分期为大家介绍如何在外汇.黄金和原油交易中的利用十字星交易,今天先为大家介绍6种十字 ...

  • 史上最全的ABB示教器编程指令详解(上集)

    很多人学习ABB工业机器人,最吃力的就是不知道指令是什么意思,现在ABB示教器指令名称全集来了! 1.Common选项 指令 说明 := 对程序数据进行赋值 Compact IF 如果条件满足,就执行 ...

  • 初中数学解题思路技巧详解(上)

    多做题不如巧做题,对于数学学科,没有规律的盲目刷题 并不可取,好教师就针对初中数学各个题型和知识点的解答技巧做一次归纳总结附带讲解一些数学思想的应用.栏目分为上下两期,这期主要是选择填空题的内容,希望 ...