今天给大家介绍的是 Briefings in Bioinformatics上结合SMILES枚举(SMILES enumeration)策略,使用基于注意力机制(attention mechanism)的双向长短期记忆(BiLSTM)模型-BAN,进行基于SMILES的分子潜在表征学习的文章 "Learning to SMILES: BAN-based strategies to improve latent representation learning from molecules"。作者提出基于注意力的双向长短期记忆模型-BAN,用于基于SMILES字符串的分子特征预测。同时采用SMILES枚举(SMILES enumeration)在训练阶段大幅增加标记数据的数量,在预测阶段纠正模型预测偏差。该策略有效解决了基于SMILES的深度学习(DL)方法中模型标记数据稀缺的问题,从而提高从SMILES字符串中学习潜在特征的性能。在与目前最先进的几种模型比较中,该策略具有更强的竞争力。