JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用
今天给大家介绍的是 J. Chem. Inf. Model. 上有关基于图神经网络预测药物-靶点相互作用的文章"Predicting Drug−Target Interaction Using a Novel Graph Neural Network with 3D Structure-Embedded Graph Representation"。
作者提出一种基于图神经网络来预测药物−靶点的相互作用的深度学习的方法,该模型引入距离感知的图注意算法,来区分各种类型的分子间相互作用,并从蛋白质-配体结合模式的三维结构信息中提取分子间相互作用的图形特征。因此,该模型能够学习用于准确预测药物−靶相互作用的关键特征,而不仅仅是记忆某些配体分子的模式。在虚拟筛选 (DUD-E测试集的AUROC为0.968)和模式预测 (PDBbind测试集的AUROC为0.935)方面,该模型显现出比对接和其他深度学习方法更好的性能。还很好的再现了活性分子和非活性分子的自然分布。
1 研究背景
准确预测药物−靶点的相互作用是计算药物开发的关键。高通量筛选(HTS)方法中的分子动力学和量子力学等计算方法能够可靠地预测配体和蛋白质之间的结合亲和力,但是计算成本高昂,而分子对接虽能低成本的预测结合亲和力,但是其准确率很低。因而作为可替代方法的基于深度学习的方法引起了人们的注意。
然而目前开发的各种基于深度学习的DTI模型 (如用独立的向量表示的蛋白质和配体的模型等),虽然显著提高了DTI预测的准确性,但不使用明确的蛋白质−配体结合模式,可能会阻碍模型的泛化能力。利用蛋白质−配体复合物的原子坐标来考虑明确的结合模式的深度学习模型,如三维网格矩阵表示分子,虽然包含了完整的结构信息,但是三维矩形网格表示需要大量冗余的网格点,对应于没有原子的空洞空间,导致计算效率低下。此外,为进一步改善用图形表示的DTI预测,必须准确地考虑各种类型的分子间相互作用,因为它们是特定复合物的结合亲和力的关键因素。而深度学习的一个核心优势是能够直接从原始数据中提取相关特征,因此,最好的方法是使GNN能够直接从嵌入图形的三维结构信息中提取DTI相关的特征。
为此作者提出使用直接纳入蛋白质-配体结合模式的三维结构信息的GNN预测DTI。还设计了距离感知的图注意力机制(distance-aware graph attention mechanism),使模型区分每个相互作用对的结合亲和力。此外,作者利用 DTI 预测 (通过从其复合物的图形特征中减去目标蛋白质和给定配体的每个特征而获得图形特征),并添加gated skip-connection mechanism机制来提高模型的性能。实验结果显示该方法在虚拟筛选和模式预测方面,都超过了以前的深度学习模型和对接方法。而且还可以重现活性和非活性分子的自然群体分布。
2 研究方法
2.1模型
图1:DTI预测方法示意图
在方法论上(图1),作者的贡献分为以下三个部分:
(1)将蛋白质和配体原子之间的结构信息嵌入到A1和A2两个邻接矩阵中,A1代表纯共价相互作用(公式1),A2代表共价相互作用和非共价分子间相互作用(公式2)。通过构造两个邻接矩阵,模型可以了解蛋白质−配体的相互作用如何影响每个原子的节点特征。
(2)设计距离感知的注意力算法以及门增强算法来区分各种类型的分子间相互作用(Distance-Aware Graph Attention Mechanism and Gate Augmentation Algorithm)
(3)引入适合学习蛋白质−配体相互作用的图神经网络(GNN)。GNN由三个阶段组成:(1)更新节点特征,(2)聚集节点特征并处理图特征,以及(2)预测图的标签。第一阶段的目标是获得节点特征的高级表示。然后,对更新后的节点特征进行聚合,生成图特征。最后,图形特征被用来预测整个图形的标签,例如,分子属性等。
2.2数据集
这项研究使用了DUD-E和PDBbind数据集来训练和测试模型。其中DUD-E数据集中的72个蛋白质和25个蛋白质分别被用于训练和测试。提供实验验证的蛋白质-配体复合物的结合结构的PDBbind数据集被用来训练模型以区分给定的蛋白质和配体的最有利的结合模式。对于PDBbind数据集中的每个样本,作者进行对接计算来产生蛋白质-配体复合物的可能结合模式。如果一个生成的模式与实验验证的结合结构的均方根偏差(RMSD)小于2 Å,则标记为阳性样品;如果RMSD大于4 Å,则标记为阴性样品。然后作者根据蛋白质将PDBbind数据集分成训练集和测试集,使得训练和测试集不会共享相同的蛋白质。训练集和测试集的具体样本统计如表1所示。此外,作者将初始原子特征表示为大小为56的向量。第1至28个实体代表配体原子,第29至56个实体代表蛋白质原子(表2)。
表1:DUD-E有效、DUD-E无效、PDBbind阳性和PDBbind阴性的训练样本数和测试样本数
表2:原子的初始特性列表
3 结果和讨论
3.1在DUD-E和PDBbind测试集上的性能
该研究通过测量对活性和无活性化合物的分类能力评估基于结构的虚拟筛选功能。首先作者使用DUD-E数据集对该模型、对接模型以及其他深度学习模型在AUROC、调整后的LogAUC、PRAUC、敏感性、特异性和平衡准确性方面的性能进行比较。在计算灵敏度、特异性和平衡准确性时,研究人员认为DTI预测值高于0.5的样品为阳性,其他为阴性。结果如表3所示,基于GNN的方法优于其他深度学习模型以及分子对接。该模型取得了0.968的AUROC,而对接模型为0.689,其他深度学习模型为0.85-0.9。作者还分析了ROC富集度(RE)分数,并在表4中总结了结果。表4清楚的显示该模型的各项指标均高于其他模型,也证明了距离感知注意力算法明显提高了所有指标的虚拟筛选性能。因此,在LogAUC和RE评分上的如此高的性能表明了该模型在命中发现方面的实际优势。
表3:该模型、对接以及其他深度学习模型的AUROC、调整后的LogAUC、PRAUC、灵敏度、特异性和均衡准确性
表4:该模型、对接和其他深度学习模型的ROC丰富(RE)分数
该模型因为3D构象信息直接包含在蛋白质−配体复合体的图形表示中也可以用于模式预测。因此作者在表5中对比了该模型和对接方法在PDBbind测试集的AUROC和PRAUC方面的性能。结果显示,注意力算法明显提高了模式预测的性能。
表5:该模型与对接方法在PDBbind测试集的AUROC和PRAUC性能测试
作者分析了对接和该模型识别的TOP-N模式的RMSD小于2的复合物百分比。结果表明作者使用的模型比对接的性能提高了5%−7%。然而,与虚拟筛选中的性能差距相比,该模型与对接方法的性能差距相对较小。这意味着,与预测绑定亲和度相比,对接方法对绑定模式进行排序相对更准确。
图2:对接方法和该模型在TOP-N模式中,蛋白质−配体复合物相对于实验结构的RMSD小于2ä的百分比
3.2分子文库的预测活性分布
据估计,潜在候选药物的数量约为1023个−1060个,但是大多数分子对给定的蛋白质都没有活性。为测试该模型能否重现自然预期的分布,作者处理并分析IBS分子对表皮生长因子受体(EGFR)的预测活性分布(图3)。
图3:DUD-E数据集中IBS分子和EGFR活性分子的活性分布
图3A显示非活跃概率占主导地位,这似乎接近于自然总体。为进行比较,还针对DUD-E数据集中的已知EGFR活性分子测试模型。图3B显示,该模型预测大多数活性分子的活性接近1.0。在预测的活度分布中,像图中不自然的峰值表明模型可能存在轻微的过度拟合。
3.3外部库的性能:ChEMBL和MUV
为进一步验证在DUD-E数据集上训练的模型是否可以对经过实验验证的活性和非活性化合物进行分类,作者从ChEMBL数据库收集关于DUD-E测试蛋白的活性和非活性分子,并以与DUD-E数据集相同的方式进行预处理。研究者将IC50值小于1.0μM的ChEMBL分子标记为活性或非活性。此外还在MUV数据集上对模型进行了验证。选择MUV数据集目的是通过在诱饵的化学空间中最佳地扩散活性分子,同时保持活性-活性分子和活性-诱饵分子之间的分子相似性,来消除活性分子和诱饵之间的不良偏差。结果表明,虽然该模型性能仍然优于对接方法,但是相比于DUD-E数据集,ChEMBL和MUV数据集上的显著性能下降。即包括该模型在内的深度学习模型在泛化能力上存在着共同的问题。
表6:该模型、对接和其他深度学习模型在实验验证的活性和非活性分子以及MUV数据集上的AUROC、灵敏度、特异性和均衡准确性
4 总结
作者提出了一种基于图神经网络的预测药物−靶相互作用的新方法。该方法直接将蛋白质−配体结合姿态的三维结构信息融入到邻接矩阵中,并应用距离感知的图注意算法和门机制来提高模型的性能。通过对DUD-E数据集进行虚拟筛选,以及对PDBbind数据集进行结合模式预测,结果显示该模型在虚拟筛选和模式预测方面优于分子对接和其他深度学习模型。此外,该模型还可以再现活性分子和非活性分子的自然种群分布。但是,该模型在泛化方面存在着与其他深度学习模型具有相似的局限性。也就是说,为开发适用于各种数据集的通用深度学习模型,用于虚拟筛选候选药物,应该解决不确定性量化的泛化能力问题。
参考文献
Jaechang Lim,Seongok Ryu,Kyubyong Park,Yo Joong Choe,§Jiyeon Ham,Woo Youn Kim,Predicting drug−target interaction using a novel graph neural network with 3D structure-embedded graph representation. J. Chem. Inf. Model. 2019, 59, 3981−3988.DOI:10.1021/acs.jcim.9b00387