Nat Chem|化学机器学习的最佳实践:推荐的一套标准化指南
摘要
基于机器学习的统计工具正在融入化学研究的工作流程。本文讨论了训练可靠、可重复和可再生模型的所需要素,并为机器学习报告推荐了一套指南。
前言
机器学习的发展和FAIR
下面概述了在构建和应用机器学习模型时要考虑的一组准则。这些应该有助于开发鲁棒的模型,为手稿提供清晰度,并建立统计工具所需的可信度,以获得化学领域的广泛接受度和实用性。
使用机器学习模型时的指南
1 数据来源
2 数据清洗和整理
3 数据表示
建议说明用于表示数据的方法并与标准特征集进行比较。建议借鉴已发表的化学表示方案的经验,以及在标准开放库中的参考,例如 RDKit (https://www.rdkit.org)、DScribe (https://singroup.github.io/dscribe) 和 Matminer ( https://hackingmaterials.lbl.gov/matminer ),然后再尝试设计新的。
4 数据来源
建议通过将基线与更简单——甚至微不足道的——模型以及当前最先进的模型进行比较来证明模型选择是合理的。应提供软件实现,以便可以使用新数据训练和测试模型。
5 模型训练和验证
6 代码和再现性
建议在保证长期存档的公共存储库中提供完整的代码或工作流(如使用永久 DOI 存档的在线存储库)。提供代码不仅可以让其他人完全复制研究,而且可以受到挑战、批评和进一步改进。至少应提供一个脚本或电子笔记本,其中包含重现报告结果的所有参数。
保持高标准
赞 (0)