一个都不能用？62个AI算法被指存在重大问题，剑桥团队：都不具有新冠临床诊断价值

2024-06-11 04:33:13

2020 年，新冠肺炎肆虐全球。为了能协助医生快速而精确地筛查潜在患者，各国的计算机科学家们发布了上千种机器学习算法，并声称这些算法能根据胸部 X 光片、CT 图像诊断或预测新冠肺炎。

然而，近日由剑桥大学领衔的一项最新研究却发现，这些算法存在着算法偏见和不可重复性等重大问题，并不具有临床价值。

当地时间 3 月 15 日，这篇名为 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 的论文发表于自然子刊《自然机器智能》（Nature Machine Intelligence）上。

（来源：Nature Machine Intelligence）

这项由剑桥大学科学家们领导完成的研究，涵盖了从 2020 年 1 月 1 日到同年 10 月 3 日内所有科学论文和预印本提到的相关机器学习算法。同一时间段内，在 BioRxiv、medRxiv 和 arxiv 上刊登的所有手稿以及 EMBASE 和 MEDLINE 的所有条目也被纳入了研究范围。

在 2212 篇用机器算法诊断新冠肺炎的论文中，研究人员最终确定了 62 篇质量相对较高的论文进行讨论，其中 37 篇论文为深度学习算法，23 篇论文为传统的机器学习算法，2 篇为混合算法。

但遗憾的是，由于算法偏见和不可重复性等问题，没有一个具有潜在的临床应用价值。

论文第一作者、剑桥大学应用数学和理论物理系博士迈克尔（Michael Roberts）在接受采访时表示：“任何机器学习算法（的应用价值）都取决于训练它所使用的数据，特别是对于像新冠肺炎这样的新流行病来说，数据的多样性是至关重要的。”

算法偏见和不可重复性

一般来说，算法偏见是指算法在数据集构建、目标制定与特征选取、数据标注等环节中产生的信息偏差，导致算法失去公平和准确性。在这项研究中，剑桥大学人员使用 “预测性算法的偏见风险评估工具”（PROBAST），从参与者、预测因素、结论和分析等四个方面系统性地评估了 62 个算法的偏见性风险。结果发现，有 55 个算法在至少一个方面有较高的算法偏见。

拿参与者举例，研究人员认为从公共数据集里获得的胸部 X 光片和 CT 影像具有选择性偏见，因为无法确认患者是否真的新冠肺炎呈阳性。又比如，相当一部分算法采用了儿童的相关影像作为 “非新冠肺炎” 对照组。事实上相比于成人，儿童感染新冠肺炎的几率要小得多。因此这种设计上的偏差会让算法产生很大的偏见。

除了算法偏见以外，算法的性能，也就是预测结果的可重复性，也是剑桥大学在这项研究中关注的重点之一。一般来说有两种方法来验证算法的性能，即内部验证和外部验证。内部验证是指测试数据与开发数据属于相同来源；外部验证是指测试数据属于不同来源。研究人员发现，在 62 篇论文中，有 48 篇只考虑了内部验证，有 13 篇使用了外部测试数据集（其中 12 篇使用了真正的外部测试数据集，1 篇使用了与训练算法完全相同的数据来进行测试）。

对此，论文作者剑桥大学医学院博士路德（James Rudd）指出：“在新冠疫情初期，人们对信息的渴求是如此强烈，以至于一些论文无疑是仓促出版的。但是，如果你的算法只是基于一家医院的数据之上的话，那么它很可能不适用于另一个城市的某家医院。这些数据需要多样性，最好是国际化的。否则，当你的机器学习算法被更广泛地测试时肯定是要失败的。”

在这篇论文中，研究人员特别指出了 “科学怪人数据集”（Frankenstein datasets）的问题。“科学怪人数据集” 是指从不同的数据集合并而成并重新命名分布的数据集，这样的数据集涉及到复杂的数据来源重复问题。例如，训练某算法的数据集集合了 N 个子集而成，但算法开发人员没有意识到其中一个子集还包含了其他子集的成分。这种对数据集的重新打包虽然实用，但会不可避免地导致算法在相同或重叠的数据集上进行训练，进而出现问题。

图 | 用于模型测试的图像数量

除了算法偏见和预测结果的不可重复性之外，这些论文的另一个普遍问题是缺乏放射科医生和临床医生的参与。罗伯茨认为：“不论你是使用机器学习来预测天气或研究疾病如何发展，确保不同领域的专家一起参与并保持沟通是非常重要的，这样才能专注于研究正确的问题。”

5 点建议

毫无疑问，机器学习算法在医疗方面有着巨大潜力和广阔的市场前景。在过去的一年间，全球范围内的算法开发人员也为抗击新冠肺炎做出了巨大的努力。

出于严谨的治学态度，剑桥大学研究人员对 2020 年相关机器算法文献的系统性问题给出了 5 点建议：

（1）用于算法开发的数据使用和常见陷阱；

（2）评估被训练算法；

（3）预测模型的可重复性；

（4）手稿中的文献；

（5）同行评议过程。

其中，他们尤其强调需要谨慎使用公共数据库。由于数据来源和 “科学怪人数据集” 的原因，公共数据库会导致高风险的算法偏见。他们认为，算法开发人员应该着眼于广泛采用不同人群的统计数据，这是一个经常被忽视但却非常重要的偏见性来源。除此之外，外部数据的检验也必不可少，任何用于诊断或预测的模型都必须足够稳健，以便为目标人群的任意样本得出可靠结果。

论文还指出，清楚地认识到新冠肺炎检测相关的人工智能算法与明确的临床需求之间需求关系是技术转化的关键。因此，开发人工智能算法需要临床专业知识和计算机知识的互补，同时也需要高质量的医疗数据。

尽管研究人员在新冠肺炎 AI 模型中发现了缺陷，但研究人员表示，通过一些关键的修改，机器学习可以成为抗击这种流行病的强大工具。在未来的临床场景中，被改进的算法可以更好地被验证。

参考资料：

https://www.nature.com/articles/s42256-021-00307-0

方法赏析：《人文地理学进展》定量研究方法第一弹之“复制量化研究”

[导读] 可重复的定量研究是经过严格记录的研究,第三方可以重现任何定量结果的研究.本文认为这样一个目标对于定量人文地理研究是可取的,特别是该领域已经转向使用仿真技术和大数据分析创建算法和代码.文章列举 ...
陈根：纠偏AI歧视，从打破行业偏见开始

文/陈根科技是人类现有文化的延伸.科技在延展了人类智慧的同时,也继承了人们的偏见和歧视. 当前,人工智能作为第四次工业革命中的代表性技术,正在迅速改变我们所认知的世界.然而与此同时,现实世界中,由人 ...
AI时代的领导力是什么样的？

红杉汇 · 昨天关注了解算法的确切功能,知道它的局限性是什么.潜力是什么. 编者按:本文来自微信公众号"红杉汇"(ID:Sequoiacap),作者:洪杉,36氪经授权发布. ...
他们翻遍用AI检测新冠的论文，一篇临床可用的也没有？！

丰色鱼羊发自凹非寺量子位报道 | 公众号 QbitAI 搜集的全部新冠机器学习"看片"论文,一篇能用的都没有?! 就在"广州两名医务人员核酸检测呈阳性" ...
图注意力网络一作回母校剑桥大学做图神经网络讲解

仅做学术分享,如有侵权,联系删除转载于 :机器之心最近,图注意力网络一作 Petar Veličković 在母校剑桥大学做了一场讲座,介绍图神经网络的理论基础. 图神经网络(GNN)是机器学习中 ...
美云智数AI算法开放平台荣获“数字化转型优秀解决方案”

本文转自广东美云智数科技有限公司官方公众号近期,"2021第七届中国国际大数据大会"在北京举办,围绕"数字筑基智见未来"的主题,研讨大数据赋能数字化转型的难 ...
电脑好用的浏览器无绑定主页，华为浏览器智能AI算法上网速度更快

电脑好用的浏览器无绑定主页，华为浏览器智能AI算法上网速度更快
这可能是最强的AI算法可视化神器！

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 198篇原创内容公众号仅凭数行代码 ...
如何成功转行AI算法工程师

一般来说想要转行成为AI算法工程师的人,无非就是:薪资待遇太低.前途渺茫.对工作缺乏热情以及对算法工程是感兴趣等原因. 想要成功转行AI算法工程师,需要掌握良好的学习方法.以下是小编为大家整理的学习方 ...
AI算法工程师面试常见问题

金三银四的招聘旺季,很多想入行机器学习的程序员却在面试上发了愁.AI算法工程师内容复杂.网上资料良莠不齐,想要靠自己梳理清楚确实不容易,为了帮助想要入行人工智能的程序员们在金三银四顺利挺进大厂,小编整 ...
宝马集团在生产中使用AI算法，现已在开源平台上共享

宝马集团在生产中使用了越来越多的人工智能(AI)应用程序.人工智能可以减轻工人的单调任务,例如检查警告三角是否位于行李箱的正确位置.现在,此任务由照相机和自学习软件执行,该软件将照相机的实时图像与数百 ...
（娓娓道来）五子棋AI算法原理，博弈树、极大极小搜索、αβ剪枝

这是我本科时的一篇文章了-依稀还记得当晚写完大作业,通宵肝出这篇文章的激动,也是我csdn上阅读量最高的文章,献给大家! 我在最近撰写五子棋AI程序设计报告时,翻阅了很多的资料博客,但却发现大佬们的博 ...
AI 算法工程师面试高频 100 题（附答案详解）

2021年的金三银四跳槽季已经来啦,根据著名招聘网站的数据,人工智能.机器学习岗位已经逐渐成为行业的刚需,但薪酬上涨的同时,竞争压力也会越来越大.那么,面对这样高薪岗位的面试,你真的准备好了吗? cr ...
“遥感大数据+AI算法”赋能空间监测分析与城市体检研究|清华同衡

作者 │ 张茜如何进一步提高城市体检中空间指标的可评估性.精准性与客观性?2020年11月北京市规划和自然资源委员会数据管理中心数据创新发展科张茜科长在清华同衡第八届学术周上作了题为<遥感AI ...

一个都不能用？62个AI算法被指存在重大问题，剑桥团队：都不具有新冠临床诊断价值

相关推荐