干货 | 化合物靶点预测工具一网打尽

众所周知,药物是可以在体内发挥生物活性作用达到治疗疾病目的的化合物,大部分药物的生物活性都是通过药物分子与体内的蛋白等生物大分子结合来介导的。[1]化合物的靶点结合作用机制是药物研发的重要理论基础,然而目前有大量的生物活性分子其作用靶点是未知的。此外,随着基因组学发展,越来越多的新型靶点正在被发现,老药新用也依赖于对这些药物新靶点的预测。[2]因此,化合物靶点预测具有重大科学意义。

目前靶点预测的方法有很多,大部分的文献都把这些方法分为实验和计算两大类。[3]实验方法中最直接的就是生化测试法,通过孵育小分子化合物和相应蛋白的混合物,洗脱后直接评估两者结合能力来判断小分子是否结合于靶点。[4]另外还可以利用基因组的方法,比如将小分子的作用靶点锁定在一定范围内的基因簇后,通过对该基因簇进行一系列点突变或敲除,如果突变或敲除的样本表现出和小分子作用相同的效应,则突变或敲除基因所编码的蛋白很有可能就是小分子作用的靶点。[5]实验方法准确性比较高,但是比较耗时费力,而且如果不能把小分子靶点锁定在一个较小的范围内的话,需要做大量的筛选工作,往往成本昂贵。而计算预测相对来说耗时比较少,但是当前算法的可靠性不如实验方法,通常理论计算得到的结果都需要实验来进一步验证。接下来将主要介绍靶点预测的一些计算方法。

靶点理论预测方法中使用最多的是基于小分子配体结构的靶点发现,其核心理论就是结构相似的分子也会具有相似的生物学功能。[6]最简单的思路就是对于一个未知靶点的化合物,如果它与一个已知靶点的分子在结构上很相似,那它很有可能也可以作用于相同靶点。因此这个方法中最重要的一点就是化学结构的相似性搜索。

最常见的化学相似性检索方法有二维结构相似性和三维分子相似性检索。二维结构检索主要是采用分子指纹方法生成的描述符,分子指纹是指示化合物结构特征的一组数据,通常用0和1来表示,1表示分子中含有对应结构,0则表示没有,如图1A为PubChem分子指纹的一部分说明,如果分子中碳原子数量大于或等于2,则第9位为1,如果大于或等于4,则第9位、第10位都为1,以此类推。如果分子中含有碳氧双键结构(即C=O),则第420位为1,同样如果还含有C=S结构则421位也为1,否则为0。PubChem分子指纹一共预设了880种子结构特征,也就是说该分子指纹是一个880位的数组,包含的元素都是0或1。除了图中的子结构以外,PubChem分子指纹还对一些基团的数量有预定义,如第除了PubChem以外,常用的分子指纹还有MACCS、ECFP、Daylight fingerprints等分子指纹,它们的区别就在于子结构的定义以及编码的方式不同。计算得到分子指纹后就可以通过计算相似度(图1B)来比较两个分子之间的相似性。[7]以PubChem分子指纹为例,a为分子A中的子结构数量,b为分子B中的子结构数量,则c为分子A、B共有的结构数量,c的比例越大在一定程度上可以说明A、B分子越相似。因此这些相似度计算都是以c为判断标准,不同计算方法区别在于分母的不同(Hamming系数除外)。其中最常用的是Tanimoto系数,不同方法的比较在参考文献7中有详细阐述,本文不再赘述。

图1. A)PubChem分子指纹的部分子结构。B)分子指纹几种相似度计算方法,其中假设有两个分子A和B,则a表示分子A的分子指纹中1的数量,b表示分子B的分子指纹中1的数量,c表示A、B分子指纹中共同为1的数量,m表示分子指纹的总位数。

目前广泛使用的生物活性分子数据库如PDB、Binding DB、DrugBank、ChEMBL 等都带有以分子指纹为基础的化学结构相似性搜索功能,从而在某种程度上也可以提供简单的靶点预测。但是在这些数据库中一个分子的靶点可能有多个,对于用户来说设置不同相似度阈值也会得到不同数量的相似分子。因此有许多工具对这些数据库数据进行整合,并利用统计学等方法综合分子相似度和靶点分布情况给出一个合理的靶点预测结果。比如SEA(Similarity ensemble approach)[8]整合了ChEMBL和MDDR(MDL Drug Data Report)等数据库的化合物和靶点信息,利用Daylight分子指纹计算化合物的相似性,并将相似化合物的靶点进行聚类。用户输入化合物的SMILES结构式就可以在数据库中进行匹配,最终可以得到分子的潜在靶点列表(图2)。SuperPred[9]整合了SuperTarget, ChEMBL和BindingDB数据库,去掉了其中一些结合较弱(比如Ki、IC50值大于10μM)的化合物-蛋白相互作用,并且只保留了在Therapeutic Target Database(TTD)中有收录的靶点,也就是说所有的靶点都是和某些疾病相关的。SuperPred采取ECFP分子指纹计算结构相似性,支持化合物名称,SMILES以及用户自定义结构的查询,同样也可以得到预测靶点的相关信息(图3)。

图2. SEA的搜索结果列表,包含了靶点的Unprot ID,显著性检验P值(P值越小成为靶点的可靠性越大),MaxTC表示数据库中和查询分子相似性最高的相关系数(Tanimoto Coefficient, 图1B)

图3. SuperPred搜索结果列表,可以直接链接到Uniprot、BindingDB、DrugBank、PDB等数据库

除了二维分子指纹以外,三维分子相似性的计算也常用于靶点预测。ChemMapper[10]是一个基于SHAFTS (SHApe-FeaTure Similarity)[11]方法的靶点预测工具,主要是把三维分子的形状转化为数据进行比较。该方法首先定义了七种特征药效团,分别为疏水中心、正电中心、负电中心、氢键受体、氢键供体、芳香环以及金属离子螯合中心,这些药效团都分别对应了一系列的结构特征。对于待预测分子,先将分子中含有的上述药效团全部标记出来,每三个为一组在空间中组成一个三角形(图4),顶点代表不同类型的药效团。对于数据库中已知靶点的化合物做同样的操作,当待预测分子中的药效团三角形和已知化合物的药效团三角形相同(即两个三角形的顶点都是同样的三种药效团)时,称为一次匹配(match),然后单独对这两个三角形所包含的结构进行align,再计算他们的“FeatureScore”(图4中的FAB),FAB越大说明这两个分子相似性越高。

图4. 公式中i,j分别代表A分子和B分子中药效团所包含的原子,f为两分子产生的所有匹配F中的一种, dij为两原子距离,Rf是距离的可接受值,默认为0.8Å

靶点理论预测方法中还有一类基于受体结构特征的靶点预测,通常也指反向分子对接方法,即将小分子与一系列蛋白进行分子对接并进行打分,结合能力好的便认为是化合物的潜在靶点。这种方法的思路更接近于实验方法,但是将生化测试换成了分子对接,在速度上和实验相比要快很多,但是不如基于小分子配体的预测方法快速,而且这类方法很大程度上依赖于蛋白结构的准确性,该类方法的基本原理本文就不再详细阐述。表1列出了常用的开源在线靶点预测工具,可以发现靶点理论预测方法很大程度上依赖于一个完备的包含生物活性分子和靶点结构的数据库,其中ChEMBL、PDB是相对比较权威的数据库,其包含的信息也比较广泛。

表1. 常用的开源在线靶点预测工具

引用次数来源于Google scholar, 截至2019.8.26

随着生物活性数据以及化合物数据的增加,数据挖掘的方法也越来越多地应用于靶点预测,其中机器学习是最常见的方法。Polypharmacology Browser(PPB)[20][21]也是利用二维分子指纹相似性进行靶点预测的方法,在1.0版本中PPB融合了6种不同类型的分子指纹来进行分子相似性评估。而在2.0版本中,还是先将待预测分子与数据库中已知靶点分子用分子指纹进行相似性计算,然后把分子指纹作为特征,靶点作为分类标签,将相似性最高的前2000个分子应用于朴素贝叶斯模型进行训练分类,训练后的模型再以待预测分子的分子指纹为输入特征,输出分类进而得到靶点预测结果。

总的来说,化合物靶点理论预测方法已有不少但预测精度、广度往往还需要不断完善,且各类方法各有优劣。二维分子指纹的方法着重于分子化学结构的相似性,而三维方法更多的是着重于药效团的相似性。理论上说三维方法会比二维方法更加准确,因为化合物与靶点的结合需要考虑三维空间结构的匹配,而且根据药效团模型的理论,具有相同药效团的两个化合物在三维方法比较上是相似的但二维分子指纹的差异可能非常大。有文献指出在主靶点(化合物结合的主要靶点,治疗作用)预测上三维方法的优势不大,而对于脱靶效应(化合物结合的其他靶点,副作用)的预测上三维的方法要明显好于二维。[22]但是根据文献的报道,利用不同分子指纹以及三维相似性等的方法在各自的应用实例中表现也都比较好,不过对于大量用户提供的大量待预测分子是否都能很好地做出预测仍然有待检验。而且随着数据量的增加,数据的冗余和无用数据也在增加,因此对数据的筛选和清洗也是靶点预测需要考虑的地方。对于用户来说,如果条件允许,尽可能多地尝试不同预测工具,将得到的结果汇总后,再经人工判断有选择地对靶点进行实验验证,往往是当前比较切实可行的一个办法。

参考文献:

1. Gfeller, D.; Michielin, O.; Zoete, V., Shaping the Interaction Landscape of Bioactive Molecules. Bioinformatics 2013, 29, 3073-3079.

2. Sam, E.; Athri, P., Web-Based Drug Repurposing Tools: A Survey. Brief Bioinform 2017, 20, 299-316.

3. Forouzesh, A.; Samadi Foroushani, S.; Forouzesh, F.; Zand, E., Reliable Target Prediction of Bioactive Molecules Based on Chemical Similarity without Employing Statistical Methods. Front Pharmacol 2019, 10, 835.

4. Burdine, L.; Kodadek, T., Target Identification in Chemical Genetics: The (Often) Missing Link. Chem. Biol. 2004, 11, 593-597.

5. Zheng, X. S.; Chan, T.-F.; Zhou, H. H., Genetic and Genomic Approaches to Identify and Study the Targets of Bioactive Small Molecules. Chem. Biol. 2004, 11, 609-618.

6. Willett, P.; Barnard, J. M.; Downs, G. M., Chemical Similarity Searching. Journal of Chemical Information and Computer Sciences 1998, 38, 983-996.

7. Willett, P., Similarity-Based Virtual Screening Using 2d Fingerprints. Drug Discov Today 2006, 11, 1046-53.

8. Keiser, M. J.; Roth, B. L.; Armbruster, B. N.; Ernsberger, P.; Irwin, J. J.; Shoichet, B. K., Relating Protein Pharmacology by Ligand Chemistry. Nat. Biotechnol. 2007, 25, 197-206.

9. Nickel, J.; Gohlke, B.-O.; Erehman, J.; Banerjee, P.; Rong, W. W.; Goede, A.; Dunkel, M.; Preissner, R., Superpred: Update on Drug Classification and Target Prediction. Nucleic Acids Res. 2014, 42, W26-W31.

10. Gong, J.; Cai, C.; Liu, X.; Ku, X.; Jiang, H.; Gao, D.; Li, H., Chemmapper: A Versatile Web Server for Exploring Pharmacology and Chemical Structure Association Based on Molecular 3d Similarity Method. Bioinformatics 2013, 29, 1827-9.

11. Liu, X.; Jiang, H.; Li, H., Shafts: A Hybrid Approach for 3d Molecular Similarity Calculation. 1. Method and Assessment of Virtual Screening. J. Chem. Inf. Model. 2011, 51, 2372-2385.

12. Taboureau, O.; Nielsen, S. K.; Audouze, K.; Weinhold, N.; Edsgärd, D.; Roque, F. S.; Kouskoumvekaki, I.; Bora, A.; Curpan, R.; Jensen, T. S.; Brunak, S.; Oprea, T. I., Chemprot: A Disease Chemical Biology Database. Nucleic Acids Res. 2010, 39, D367-D372.

13. Kim Kjærulff, S.; Wich, L.; Kringelum, J.; Jacobsen, U. P.; Kouskoumvekaki, I.; Audouze, K.; Lund, O.; Brunak, S.; Oprea, T. I.; Taboureau, O., Chemprot-2.0: Visual Navigation in a Disease Chemical Biology Database. Nucleic Acids Res. 2012, 41, D464-D469.

14. Kringelum, J.; Kjaerulff, S. K.; Brunak, S.; Lund, O.; Oprea, T. I.; Taboureau, O., Chemprot-3.0: A Global Chemical Biology Diseases Mapping. Database 2016, 2016.

15. Wang, L.; Ma, C.; Wipf, P.; Liu, H.; Su, W.; Xie, X.-Q., Targethunter: An in Silico Target Identification Tool for Predicting Therapeutic Potential of Small Organic Molecules Based on Chemogenomic Database. The AAPS Journal 2013, 15, 395-406.

16. Gfeller, D.; Grosdidier, A.; Wirth, M.; Daina, A.; Michielin, O.; Zoete, V., Swisstargetprediction: A Web Server for Target Prediction of Bioactive Small Molecules. Nucleic Acids Res. 2014, 42, W32-W38.

17. Daina, A.; Michielin, O.; Zoete, V., Swisstargetprediction: Updated Data and New Features for Efficient Prediction of Protein Targets of Small Molecules. Nucleic Acids Res. 2019, 47, W357-W364.

18. Wang, J.-C.; Chu, P.-Y.; Chen, C.-M.; Lin, J.-H., Idtarget: A Web Server for Identifying Protein Targets of Small Chemical Molecules with Robust Scoring Functions and a Divide-and-Conquer Docking Approach. Nucleic Acids Res. 2012, 40, W393-W399.

19. Li, H.; Gao, Z.; Kang, L.; Zhang, H.; Yang, K.; Yu, K.; Luo, X.; Zhu, W.; Chen, K.; Shen, J.; Wang, X.; Jiang, H., Tarfisdock: A Web Server for Identifying Drug Targets with Docking Approach. Nucleic Acids Res. 2006, 34, W219-W224.

20. Awale, M.; Reymond, J.-L., The Polypharmacology Browser: A Web-Based Multi-Fingerprint Target Prediction Tool Using Chembl Bioactivity Data. J. Cheminf. 2017, 9, 11.

21. Awale, M.; Reymond, J. L., Polypharmacology Browser Ppb2: Target Prediction Combining Nearest Neighbors with Machine Learning. J. Chem. Inf. Model. 2019, 59, 10-17.

22. Yera, E. R.; Cleves, A. E.; Jain, A. N., Chemical Structural Novelty: On-Targets and Off-Targets. J. Med. Chem. 2011, 54, 6771-6785.

转载自QMCLab:小分子化合物靶点预测

(0)

相关推荐

  • 北大的这个交叉研究院里,为什么能走出一家AI制药公司?

    在清华建校110周年庆祝大会上,北京大学校长郝平首次宣布,在人工智能教学和科研上,双方将联手建立通用AI实验班. 这意味着,这两家互为榜样,互相调侃多年的对门邻居,在人工智能上首次选择了并肩站队. 而 ...

  • Nat Biotechnol|深度学习快速识别有效的DDR1激酶抑制剂

    今天给大家介绍的是nature biotechnology上有关分子生成的文章"Deep learning enables rapid identification of potent DD ...

  • 灵素系统登上Nature子刊,亿药科技基于AI化合物筛选加速新药研发

    2021年6月17日,亿药科技在Nature Biotechnology(影响因子36.6)在线发表了题目为"Prediction of drug efficacy from transcr ...

  • 科研 | Nat. Chem. Biol. :Qemistree:新型代谢组学质谱数据的化学分析手段

    编译:魏冬,编辑:Tracy.江舜尧. 原创微文,欢迎转发转载. 导读 非靶向质谱法用于检测复杂生物样本中的小分子,会产生难以分析的数据,因此我们开发出Qemistree,这是一种在质谱碎片信息的基础 ...

  • 人工智能在药物研发中的应用前景

    前言 在过去的几年里,制药行业的数据数字化有了很大的增长.然而,数字化带来的挑战是如何应用这些数据来解决复杂的临床问题.这激发了人工智能的使用,因为它可以通过增强的自动化处理大量数据.人工智能是一个以 ...

  • 基于基因指纹的药效预测新模型登顶刊,这家AI制药初创瞄准衰老代谢疾病丨专访亿药科技

    鉴于许多疾病机理不明确或者发病机制涉及多条信号通路,基于靶点的药物开发策略存在一定的局限性.因此,开发一种不依赖于靶点,可以直接预测药效的计算模型似乎是一种解决方案,以往的研究人员已经进行了尝试,但是 ...

  • 词云图制作干货技巧·词云图工具篇

    词云图被广泛的应用到宣传.报告.数据分析.文章配图中,一款操作简单.生成词云图效果好看的词云图工具就极为受欢迎了:今天推荐一款我经常使用的词云图工具,易上手,生成的词云图效果贼好看,功能强大. 微词云 ...

  • 在线基因预测工具介绍-genewise

    基因组项目中基因预测是最重要的一个部分,目前常用的策略有三种,分别为从头预测,基于转录本预测,基于同源蛋白预测. 对于基于同源蛋白预测,最常用的软件是genewise软件.软件的特点是精度较高,但是运 ...

  • 硬干货:八字预测核心知识点(四柱命理学)

    这个知识点比较全面. 八字派别较多,有些路子只用到其中一部分. 总结这么多的知识点是为了查漏补缺,夯实八字基础.新手只需要记住前面的一些必用的就可以了.没总结到位的还请易友们留言补充. 1.天干地支 ...

  • 现今最好的一种预测工具

    想炒好股票,心态才是最重要的,其次才是技术 炒股是一门艺术,发财每个人有每个人的门道.关键问题是这个"道"能不能持续地战胜市场,在我看来,不管什么"道",最重要 ...

  • 编程干货|新手必备工具,轻松调试代码

    #你是否经历过这样的场景 在遇到代码运行错误时 从头一行一行检查代码 来回切换界面费时费力 #不慌,这里就有一份指南! 今天就给大家介绍一款实用的工具 能快速测试语法调用模块 满足各种交互式需求 往下 ...

  • 编程干货|掌握这个工具,新手也能一边写代码,一边写作

     #你是否经历过这样的场景 好不容易熬夜写完的代码 结果运行时出现问题 只能不断检查调试代码 枯燥又麻烦 #不慌,这里就有一份指南! 今天就给大家介绍一款实用的工具 可以一边跑代码一边做笔记 同时还显 ...

  • 绝对干货!膝盖损伤知识 一网打尽!

    膝关节是人体运动链的关键环节之一,同时也是人体内最复杂的关节.特别是跑步时,膝关节除了要承担体重的重压,还要缓冲来自地面的冲击,因此膝关节是跑步中易损伤部位之一. 膝盖的结构 膝盖是由骨头和韧带组织的 ...

  • 干货!无需任何工具,实测macOS双开微信客户端

    iOS 微信不能双开,macOS微信不能双开.想要在网上有两个身份的果粉,只能用两部手机,来回切换人设:自己的自己和公司的自己. iOS上没办法,除了破解越狱这种伤敌八百自损一千的傻办法,必须要双枪. ...

  • 干货 | 自然地理核心考点一网打尽!

    一.太阳辐射的影响因素及分布 1.影响太阳辐射强弱的因素 2.我国年太阳辐射总量的空间分布 我国年太阳辐射总量的分布,从总体上看是从东部沿海向西部内陆逐渐增强,高值中心在青藏高原,低值中心在四川盆地. ...