BRIEF BIOINFORM｜基于BAN的策略，来改善基于SMILES字符串的分子表征学习

2024-04-17 17:58:40

今天给大家介绍的是 Briefings in Bioinformatics上结合SMILES枚举（SMILES enumeration）策略，使用基于注意力机制（attention mechanism）的双向长短期记忆（BiLSTM）模型-BAN，进行基于SMILES的分子潜在表征学习的文章 "Learning to SMILES: BAN-based strategies to improve latent representation learning from molecules"。

作者提出基于注意力的双向长短期记忆模型-BAN，用于基于SMILES字符串的分子特征预测。同时采用SMILES枚举（SMILES enumeration）在训练阶段大幅增加标记数据的数量，在预测阶段纠正模型预测偏差。该策略有效解决了基于SMILES的深度学习(DL)方法中模型标记数据稀缺的问题，从而提高从SMILES字符串中学习潜在特征的性能。在与目前最先进的几种模型比较中，该策略具有更强的竞争力。

1.研究背景

近年来，快速发展的深度学习(DL)方法可以在端到端的训练过程中从原始数据中自动提取有用的特征。这种数据驱动的方法可以大大减轻对广泛专业知识的依赖，并为广泛任务中的应用程序提供出色的灵活性和可扩展性。

简化分子输入行输入规范（SMILES）字符串以ASCII字符的形式对分子的所有组成和结构信息进行编码，在化学信息学中被广泛用作灵活的分子结构存储格式。在标记数据足够的情况下，各种DL模型可用于文本处理。这启发我们应用相关的DL模型从SMILES字符串的复杂语法中解析出分子的潜在有用信息。

然而，由于获得类别标签的成本很高，大多数与生物活性相关的数据集都非常有限，使得基于SMILES的DL模型存在训练数据不足的问题，极大地限制了它们的有效性和泛化能力。因此，在大多数分子特性预测任务中，基于SMILES的DL模型与传统的特征工程方法或新提出的图神经网络(GNN)相比竞争较低。

在这项研究中，作者的目标是通过一种新的DL模型结合训练和预测阶段的数据增强策略来改进分子的表征学习。该模型可以从复杂的SMILES字符串中更好的学习分子表征。该策略在11个实际任务（包括回归和分类任务）中表现出良好的竞争力。

2.数据集

该研究从ADMETlab中采用了11个高质量的吸收、分布、代谢、排泄和毒性(ADMET)数据集，这些数据集的大小从数百到数万不等。所有数据集以8:1:1的比例分为训练集、测试集和验证集。SMILES字符串的长度跨度非常大，为了保证数据集拆分的平衡，作者采用了按长度分层抽样来拆分数据集。

3.模型框架

3.1 BAN模型框架

BAN的整体架构由几个组件组成（图1）：一个输入层、一个BiLSTM层、一个多步注意力层和一个前馈神经网络。BiLSTM层和多步注意力层构成了网络的核心。

图1：BAN模型的结构

3.2 BiLSTM层

LSTM主要思想是引入自适应门控机制来保留长期信息，这使得LSTM在处理序列数据（如非结构化文本）方面表现出色。在本文中，我们使用BiLSTM来聚合来自前向和后向的信息。具体来说，将SMILES输入到输入层然后逐步输入BiLSTM,接着将BiLSTM的输出结果输入一个前馈神经网络（feed-forward neural network）经过其进一步处理，生成分子标记(tokens)的上下文敏感表征（context-sensitive representations）。

3.3多步注意力层

基于输入SMILES标记的上下文敏感表征，我们采用多步注意力机制来构建分子表征。具体来说，多步注意力机制根据历史信息关注最相关的特征，而不是一步生成注意力权重。算法循环执行T次，提取LSTM的最终隐层状态作为分子表征。然后，分子表征被馈送到前馈神经网络以获得最终预测。

4.实验

4.1过程概述

实验过程如图3所示，首先，我们将特定数据集以8:1:1的比例拆分为训练、测试和验证集。接下来，训练集中的每个SMILES字符串都被完全枚举扩增（图2），再将其标记为数字。然后，将这些经预处理的数据用于训练和调整BAN模型。在预测阶段，测试集中的每个分子也被枚举扩增，我们计算出所有被扩增数据的预测平均值作为最终预测。某些分子的SMILES字符串数量可能多达数百个，这超出了研究的需要。根据研究在结果部分的实验，作者将上限设置为50。

图2：SMILES枚举

图3：实验流程

4.2模型训练和评估

该模型使用标准梯度下降法通过Adam优化器进行训练。均方误差和修正的交叉熵函数分别被用作回归任务和分类任务的损失函数。根据每个类别的比例分配不同的权重来处理数据不平衡问题。多数类别会比少数类别获得相对较小的权重，可以防止多数类别主导整个损失。回归模型通过平方决定系数（R²）进行评估，分类模型通过ROC-AUC曲线进行评估。作者使用提前停止来避免过度拟合并设置最大训练epoch为100。为了减少随机误差，每个数据集都用随机数据集拆分重复训练10次，并将计算出的平均值报告为最终性能。

4.3 评估不同策略在11项任务上的表现

研究评估了不同策略在11项规范任务上的表现，这些策略包括：（1）使用双向LSTM作为基本模型，（2）引入注意力机制，（3）在训练阶段进行数据增强，（4）在数据预测阶段的数据增强。

表3中的结果表明，双向LSTM和注意力机制都可以提高模型效果。并且，将BiLSTM模型和注意力机制结合起来，其效果可以超过普通LSTM 1-4%。

具有数据增强的BAN模型在回归任务中表现出R²提高5-15%，在分类任务中AUC提高2-5%。这些结果表明，训练阶段的数据增强可以使模型学习更有用的特征，并有利于模型更好地泛化。

预测阶段数据增强可以使LSTM模型在所有任务上的表现始终提高 1-3%。证明该策略可以纠正预测偏差并提供更准确的预测。

表3：不同策略在11项任务上的表现

4.4 与先进模型的比较

该研究的BAN模型与基线方法的性能比较列在图5中。基于分子指纹的ML方法在分类任务上表现出比回归任务更好的性能。这些结果表明，分子指纹中包含的分子片段信息可以胜任分类任务，但对于回归任务还不够。当提供足够的标记数据时，两个GNN模型（GCN和Weave）表现良好。但是，如果标记数据量不足，则其性能会相对较差。我们提出的BAN模型配备了有效的数据增强策略和强大的从SMILES字符串中提取潜在信息的能力，显示出非常有竞争力的性能。

总的来说，BAN模型在11项任务中的8项上优于基线模型，并且以非平凡的方式超越了最先进的模型在某些任务中的余量。在其他三项任务中，BAN的表现也与最好的任务相当。与之前的方法相比，整体改进为17.3%（分类任务为0.6%，回归任务为16.7%）。这些结果充分证明了所提出的基于SMILES的BAN模型以及几种优化策略达到了分子表征学习的新水平，为分子特性预测提供了更好的方法。

图5：BAN模型和其他模型的性能比较：回归任务（A）、分类任务（B）

5.总结

本文提出了基于注意的BiLSTM模型用于基于SMILES字符串的分子性质预测。另外，还利用SMILES枚举来增加训练集的数量和多样性，这有助于该模型挖掘字符串中真正相关的特征，提高泛化能力。此外，SMILES枚举还用于纠正模型的偏差，并在预测阶段进行更精确的预测。实验的结果表明，在大多数情况下，基于注意力的BiLSTM模型优于目前最先进的策略，具有良好的表现。

参考资料

Neves BJ, Braga RC, Melo-Filho CC, et al. QSAR-based virtual screening: advances and applications in drug discovery.Front Pharmacol 2018;9:1275.

任务方案思考：序列标注（NER）篇

0 小系列初衷计划篇章: (已完成)文本分类篇.针对NLP文本分类任务. 序列标注(NER)篇.针对命名实体识别.序列标注任务. 文本匹配篇.针对语义相似度计算.向量匹配等问题. 人工特征学习篇.针 ...
Nat. Commun.| 从化学反应文本表示中探究实验过程

今天给大家介绍瑞士IBM研究实验室及比萨大学研究人员联合发表在nature communication 上的一项工作.在这项工作中,作者提出了从化学方程式的文本表示中预测完整合成步骤的数据驱动模型.作 ...
【KDD2021】 || HTGN: 双曲空间下的时态/动态图嵌入

点击上方蓝字关注我们论文: Discrete-time Temporal Network Embedding via Implicit Hierarchical Learning in Hyper ...
AI创造 | 化合物定向生成

AI作曲,AI 作画,AI 作诗,AI 续写<红楼梦>...今天介绍的这篇文章帮大家剖析AI 如何做化合物定向生成. 1 为什么要做化合物定向生成据估计,类药化合物超过1060 ,但目前 ...
康孟珍副研究员团队：基于语义融合与模型蒸馏的农业实体识别（2021年第1期）

. 引用格式:李亮德, 王秀娟, 康孟珍, 华净, 樊梦涵. 基于语义融合与模型蒸馏的农业实体识别[J]. 智慧农业(中英文), 2021, 3 (1): 118-128. LI Liangde, W ...
「运动康复」“桡侧偏”动作策略如何改善圆肩？

[改善圆肩]动动手腕肩膀最常见的姿势就是圆肩. 圆肩是什么呢? 圆肩除了让你看起来驼背没有自信外,也会让你练肌肉变得没有效率.而且不只是你,其实很多人都有圆肩问题~ 然而如果你是教练或是喜欢运动的人 ...
基于肠道菌群探讨运动改善慢性便秘的可能机制

引用本文: 胡晓敏, 叶佳美, 王丽群, 等. 基于肠道菌群探讨运动改善慢性便秘的可能机制 [J] . 中国全科医学, 2021, 24(15) : 1984-1988. DOI: 10.12114/ ...
『新进展』基于金刚石的晶体管可以改善汽车和火箭发动机性能

近期,澳大利亚国立大学的一队研究人员开发出一种基于金刚石材料的新型超薄晶体管,这种晶体管更耐用,并且比在火箭或汽车发动机等高辐射环境中使用的部件具有更优越的性能. 金刚石的结构示意图H表面经历不同的A ...
长江师范大学Yefeng Feng课题组--基于量子限制策略的PVDF/石墨烯@MXene纳米复合材料具有高介电和击穿性能

石墨烯纳米片被广泛用于制造用于能量存储的高介电常数聚合物纳米复合材料.但是,随着石墨烯含量的增加,复合材料的击穿强度大大降低,这限制了其在高场的应用.为了提高聚偏二氟乙烯/石墨烯复合材料的击穿强度而又 ...
基于科学的 9 种改善肠道菌群的方法--饮食结构改变才是根本

基于科学的 9 种改善肠道菌群的方法,简言之就是:食物多样化,植物基,全食.迄今为止,只有饮食结构的改变(及粪便移植)已被证实可真正长期改变肠道菌群的组成.益生菌应被看作是短暂但具有很重要效果的定 ...
为什么用“日线收盘交易”策略可以改善你的结果

什么是"日线收盘交易",它将为你做什么?你如何精确地交易"日线交易"策略? 当我谈论"日线"交易策略时,我基本上在谈论的是基于每日图表时间范 ...
【文献摘要】基于联合治疗策略的伽玛刀放射外科治疗上皮性卵巢癌中枢神经系统转移患者提高生存率

<Frontiers in Oncology> 杂志 2021 年8月27日在线发表新竹市.台北市和韩国的Yen-Ling Lai, Jun-Hyeok Kang, Che-Yu Hsu ...
RL之PG：基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分

RL之PG:基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分输出结果视频观看地址:强化学习-基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分设计思路测试过程 Episo ...
学术︱基于变寿命模型的改善风电可调度性的电池储能容量优化

"2015第二届轨道交通供电系统技术大会"本周五在京开幕报名方式1 浏览会议详情和在线报名参会,请进入"分布式发电与微电网"微信号(dggrid),点击菜单栏 ...

BRIEF BIOINFORM｜基于BAN的策略，来改善基于SMILES字符串的分子表征学习

相关推荐