机器学习相关研究的复现标准是什么？

2024-06-09 20:23:22

随着生命科学领域数据量的增多，一些基于机器学习方面的研究也就越来越多。只要是科研方面的结果，就会涉及到研究结果重复性的问题。但是数据分析这些的，不像基础实验那样，把做的实验说清楚了就有可能重复出来。数据分析的话，有时候一个相同的算法，里面一个参数的不同都会导致结果的不同。所以为了保证机器学习这些的研究结果的可重复性，就有了下面的这个文章。

在这篇文章当中，作者主要来说明了机器学习在生命科学领域的可重复性标准。类似于一些游戏里面的等级机制。作者把可重复性的标准分成了三个等级：

青铜水平: 作者公开了分析中使用的数据、模型和代码。青铜标准是再现性的==最低标准==。
白银标准: 除了满足青铜标准还需要符合下面三个要求：

可以使用单个命令下载和安装分析所需要的软件；
记录重现工作的关键细节，包括运行分析脚本的顺序、使用的操作系统和系统资源要求；
分析中的所有随机分量都设置为确定性的。
白银标准是最低可用性和完全自动化之间的中间点。符合这个标准的作品比只符合青铜标准的作品需要更少的时间来复制。

黄金标准。除了符合银级标准之外，作者需要提供可以自动化进行数据分析的流程。重现性的黄金标准是完全自动化。当一项工作符合这个标准时，科学家几乎不需要努力就可以复制它。

具体标准	青铜	白银	黄金
数据已发布和可下载	✅	✅	✅
模型已发布和可下载	✅	✅	✅
原代码已发布和可下载	✅	✅	✅
通过单个命令解决依赖关系		✅	✅
关键分析的详细记录		✅	✅
分析组件设置为确定性		✅	✅
通过单个单个命令一键复现数据			✅

以上是这篇文章的基本介绍了。其中关于三个标准。作者在后面提供了详细的说明。同时一些相关的工具也进行了推荐。有兴趣的可以了解一下。

方法赏析：《人文地理学进展》定量研究方法第一弹之“复制量化研究”

[导读] 可重复的定量研究是经过严格记录的研究,第三方可以重现任何定量结果的研究.本文认为这样一个目标对于定量人文地理研究是可取的,特别是该领域已经转向使用仿真技术和大数据分析创建算法和代码.文章列举 ...
他们翻遍用AI检测新冠的论文，一篇临床可用的也没有？！

丰色鱼羊发自凹非寺量子位报道 | 公众号 QbitAI 搜集的全部新冠机器学习"看片"论文,一篇能用的都没有?! 就在"广州两名医务人员核酸检测呈阳性" ...
复现是科学的唯一标准吗？

2021-03-11 22:34 科学的可重复性是科学区别于伪科学的一大特征,然而随着科学研究的快速发展及不断细化,其不可重复性的隐患不断加剧.针对该问题,美国国家科学研究委员推出了<科学中的可 ...
一个都不能用？62个AI算法被指存在重大问题，剑桥团队：都不具有新冠临床诊断价值

2020 年,新冠肺炎肆虐全球.为了能协助医生快速而精确地筛查潜在患者,各国的计算机科学家们发布了上千种机器学习算法,并声称这些算法能根据胸部 X 光片.CT 图像诊断或预测新冠肺炎. 然而,近日由剑 ...
GRR_测量系统的重复性和复现性

GRR是Gauge Repeatability and Reproducibility的缩写,意思是测量系统的重复性和复现性,需要在相同的归零条件下,在短时间内取得数据. GRR是什么 GRR指&qu ...
Nat Chem｜化学机器学习的最佳实践：推荐的一套标准化指南

2021年6月,来自哥伦比亚大学的Nongnuch Artrith等人在Nature Chemistry上合作发表评论,为化学机器学习训练和报告的标准化推荐了一套指南. 以下是全文内容. 摘要基于机 ...
公开处刑：研究者自建网站，张贴复现不了的论文

机器之心报道编辑:蛋酱在 Papers 「Without」 Code 网站上,复现不了的论文可是要被公开处刑的,作者也可能面临「社会性死亡」. 「无法复现的论文都是耍流氓.」二十几天前,Redd ...
论文无法复现「真公开处刑」，PapersWithCode上线「论文复现报告」

近日,机器学习资源网站 PapersWithCode 上线了一项新功能,对于其举办的论文复现挑战赛 RC2020 中提交的一些论文,它们将提供详细的复现报告.这是 ML 社区重视「研究论文可复现性」的 ...
科研 | Am. J. Hum. Genet.：在西班牙裔社区健康研究中，一项全基因组相关研究发现了人类代谢组的46个基因座

编译:阿温,编辑:Tracy.江舜尧. 原创微文,欢迎转发转载. 导读人体代谢物水平的变化反映了体内平衡的变化,为了解健康和疾病提供了一个窗口.在西班牙裔这个心脏代谢疾病高发的人群中,基因对循环代谢 ...
糖代谢相关研究试剂盒

糖类分解代谢的三大途径:糖酵解途径(EMP).有氧氧化.磷酸戊糖途径(PPP途径). 1.糖酵解途径糖酵解途径(glycolytic pathway)又称EMP途径,是将葡萄糖和糖原降解为丙酮酸并伴 ...
「西窗月报」第六期：胫骨平台宽度的相关研究

风险提示:研究超出临床常规,仅作参考,不推荐低年资的医生以此来主导自身实践.本栏目的主要是为同道们梳理新的研究动向,不对研究本身负责.相关的问题,欢迎读者朋友们在群里积极讨论. 增宽 > 5~1 ...
我们学习效率为什么这么低？CMU和PITT的科学家利用BCI技术对此做了相关研究

卡内基梅隆大学(Carnegie Mellon University)和匹兹堡大学(University of Pittsburgh)的研究人员使用脑机接口(BCI)技术研究了内部状态(如参与度)的变 ...
线粒体呼吸链复合体活性检测相关研究

一.线粒体呼吸链简介: 线粒体呼吸链,在生物细胞中,接受代谢物上脱下的氢(或电子)的载体有三种-- NAD+.NADP+和FAD.其中NADPH不进入呼吸链合成ATP,而是作为生物合成的还原剂:只有N ...
《肿瘤变异与人体力学变异相关研究》纪录片

(内容提纲) 之所以需要制作肿瘤变异与人体力学变异相关的科研纪录片,而不是撰写科研论文,在于文字不能准确反映人体力学的变异结构.纪录片中的运动图象和图片,能较为准确地反映人体力学变异结构和运动特点.通 ...
新民间借贷司法解释逐条解读2：民间借贷案件的起诉条件及对相关证据的审查标准

阅读提示:在民间借贷案件的起诉受理阶段,原告一方向人民法院提供了借据.收据.欠条等债权凭证以及其他能够证明借贷法律关系存在的证据,而被告一方对原告的债权人资格提出有事实依据的抗辩的,此时,人民法院是否 ...
乳腺癌易感基因相关研究现状

乳腺癌是女性最常见的恶性肿瘤,其发病率.死亡率均位居前列.据统计,2018 年全球新增乳腺癌病例208．8 万例,有62．6 万女性因乳腺癌死亡.在欠发达国家,乳腺癌仍是最常见的死因,在女性中死亡率仅 ...
2021ASCO丨刘秀峰教授：从仑伐替尼相关研究进展来看肝癌系统治疗策略优化

*仅供医学专业人士阅读参考 2021 ASCO落下帷幕,新证据如何更好指导临床实践? 近年来随着肿瘤治疗领域发展日新月异,肝癌系统治疗取得了多维突破,分子靶向治疗.免疫治疗及诸多组合方案的出现,为系统 ...

机器学习相关研究的复现标准是什么？

相关推荐