Nat. Commun.| 从化学反应文本表示中探究实验过程
今天给大家介绍瑞士IBM研究实验室及比萨大学研究人员联合发表在nature communication 上的一项工作。在这项工作中,作者提出了从化学方程式的文本表示中预测完整合成步骤的数据驱动模型。作者使用最新的自然语言模型从专利中提取并处理与实验过程相关的文本,生成了包含693,517个化学方程式和相关的动作序列的数据集。经资深化学家分析表明,在超过50%的案例中,作者使用该数据集训练的三个模型预测的合成步骤可以在无需人工干预的情况下执行。
介绍
近年来,有很多人工智能(AI)算法在化学领域成功应用,例如生成模型可以帮助设计具有特定属性的分子,而逆合成模型则表明了合成这些分子的潜在途径。
反应预测算法可帮助化学家确定合成策略的优先级并选择有效的途径。然而,合成路线并不能涵盖每个合成步骤中详细的实验过程。规划化学合成路线需要了解精确的操作顺序,确定其最佳参数,这些操作任务的组合大部分由化学家的经验决定,并需要反复试验。迄今为止,使用AI技术预测实验过程的工作很少涉及预测溶剂或反应条件的工作,并且现有的化学程序必须经过人工修订和补充才能使用。
为了解决上述问题,作者提出了 Smiles2Actions,这是第一个将化学方程式转换为完全明确的实验步骤序列的AI模型。作者用文本(SMILES)表示化学方程式,并使用自然语言处理模型,生成了包含693,517个化学方程式和相关的反应步骤序列的数据集。作者利用这些数据训练了三种不同的数据驱动模型:nearest-neighbor模型,基于Transformer和BART(bidirectional and autoregressive transformer)模型。当整体比较真实的和预测的化学合成过程时,性能最佳的模型对68.7%的反应实现了50%的匹配度,对74.7%的反应达到了75%的匹配度,对3.6%的反应实现了100%的匹配度。这些模型能够估算产物在不同溶剂中的溶解度,并预测沉淀物,或何时加热或冷却反应混合物,而这些概念从未明确告诉模型。最后,一位化学专家分析并评估了不同化学反应类别之间的500个预测反应步骤序列,发现该序列足以执行一半以上的预测反应而无需人工干预。
图1 数据集生成和Smiles2Actions模型
2
结果
预测任务 作者将推断实验过程的任务当作从化学方程式中预测反应步骤序列。预测任务涉及单个反应步骤,对于多步合成,将针对每个单独的反应分别预测实验过程。输入中的化学方程式由一组前体(反应物+试剂)和一组产物分子组成,使用涉及相应转换的分子的SMILES表达形式来描述化学方程式,例子如下:
图2 一个缩合反应
图3 上述反应的反应SMILES表示
在处理化学方程式的SMILES表示时,生成的输出是一系列合成步骤,每个步骤都由具有相关属性的类型组成(特定于动作类型)。这些操作涵盖了有机分子合成中最常见的批处理操作,并且旨在包含在实验室中再现该反应所需的所有必要信息。
为了提高计算模型的训练性能,作者限制两种类型的属性值。第一个属性与预测步骤序列中化合物的命名规范有关。作者尽可能用表示反应输入中相应分子位置的标记,从而使计算模型可以将更多的精力放在相关的指令模式上,而不是尝试学习分子的命名规范。第二个属性与温度和持续时间的数值有关。作者标记了温度和持续时间的预定义范围,并在训练过程中使用了这些标记,而不是确切的报告值。预测的过程步骤将包含对应于预定义范围的最佳标记。在推断时,可以用简单的方式将这些标记替换为实际数值。这两个修改简化了设计并提高了所有计算模型的性能,因为它们消除了学习化合物名称,持续时间或温度的词汇和语法的必要性,并且表明持续时间和温度范围效果与精确值相同。
另一个重要方面是化学转化的质量规模。实际上,化合物的数量会影响化学程序。因此,有可能通过指定额外的反应标记来引入对质量的功能依赖性。但从专利文献中获取到的信息没有为不同的规模下的反应提供合适的范围,因此,作者从预测步骤序列中删除了化合物数量,从而得出了在不同质量范围内平均的最佳过程。考虑到这些因素,表1给出了图2中所示反应的可能的步骤顺序。
表1 上述反应可能的反应步骤列表
数据
该数据集是从Pistachio数据库中提取多个反应步骤得到的,该数据库包含专利中公开的8,377,878条反应记录,每条记录均包括反应SMILES字符串,实验过程以及分子SMILES字符串与相关化合物名称的映射。作者使用自己团队最近发布的最新自然语言模型(Paragraph2Actions)提取了与其余3,464,664次反应相对应的反应步骤序列,提取的序列经过一系列的后处理步骤,以产生更高质量的标准化数据集。作者将得到的数据集随机分为554,813、69,352和69,352个反应记录,分别进行训练,验证和测试。
表2 在生成数据集时减少的反应记录
在表2中,作者列出了与初始反应记录数相比,导致数据集大小减少的主要因素。超过四分之一的初始反应记录与化学方程式和提取的反应步骤序列之间分子的不成功映射有关。
模型
作者使用不同的体系结构设计了三个计算模型来推断反应步骤序列,并将化学方程式的文本表示作为输入:最近邻居模型,Transformer和BART。
模型评估和比较
作者在测试集中评估了所有模型,其中包含69,352个化学方程式和相关的反应步骤序列。在表3中,显示了针对这项工作研究的三个模型的六个度量,有效性衡量了预测序列的句法正确性,这三个模型的性能均优于随机基线,这表明它们都能够学习特征反应模式。
表3 模型性能比较
图4a显示了由不同(非随机)模型预测的反应步数的分布。最近邻模型的序列长度与基本事实的分布接近,Transfomer在较短的序列有明显的优势,而BART模型则偏向中等长度的序列。
图4b显示了使用Transfomer模型以100%,75%和50%的精度预测的反应步骤序列长度的分布。正确的(100%)预测涵盖了与完整数据集相似的序列长度范围,并且不仅限于短序列。短序列比例略高,这与正确预测短序列的较高概率相一致。
图4 预测反应步骤列表的长度分布
3
总结
在这项工作中,作者利用化学方程式的文本表示预测具体化学实验步骤。作者从Pistachio反应数据库生成了一个数据集,用于训练三类预测模型:最近邻模型,以及基于Transformer和BART架构的模型,这些模型表现出相似的性能。作者表明,可以构建有效的深度学习方案来学习化学反应过程中的特征模式,并且模型性能与从数据集中获取到的质量相关。
参考资料
Vaucher, A.C., Schwaller, P., Geluykens, J. et al. Inferring experimental procedures from text-based representations of chemical reactions. Nat Commun 12, 2573 (2021).
https://doi.org/10.1038/s41467-021-22951-1
代码
https://github.com/rxn4chemistry/smiles2actions