开天辟地!DeepMind再次改变世界,人工智能平台Alphafold解决生物学50年来重大挑战,预...
今天,一条重磅消息引爆科技圈。
昨晚国际蛋白质结构预测竞赛CASP公布的数据显示,谷歌旗下人工智能技术公司DeepMind开发的深度学习算法AlphaFold的表现令人瞠目结舌。
Alphafold的表现超过了大约100个其他团队,准确性达到了与实验室方法不分伯仲的水平[1],一举解决了困扰学界长达五十年之久的蛋白质折叠问题。
“它将改变医学。它将改变研究。它将改变生物工程。它将改变一切。”马克斯-普朗克发育生物学研究所的进化生物学家Andrei Lupas说[2]。
“我之前认为这个问题在我有生之年不会得到解决。”欧洲分子生物学实验室的结构生物学家Janet Thornton说[3]。
“它的发生比该领域的许多人预测的要早几十年。”2009年诺贝尔化学奖得主、英国剑桥MRC分子生物学实验室结构生物学家Venki Ramakrishnan说[4]。
这么说吧:AlphaFold或许会像“天文望远镜”一样帮助人类了解生命“宇宙”的未知领域。
▲ 图源:deepmind.com
我们都知道,蛋白质是生命的承载者,对生命至关重要,几乎支撑着生命的所有功能,细胞内发生的大部分反应都依赖于蛋白质。
蛋白质的工作方式和功能取决于它独特的三维结构,也就是我们常说的“结构即功能”。因此,了解蛋白质的三维结构,是理解生命与疾病的关键。可以毫不夸张地说,搞清楚了蛋白质的三维结构,就拿到了打开生命的钥匙。
那蛋白质的三维结构是如何形成的呢?
目前学界一致认为,蛋白质的一级结构,即氨基酸的排列决定了蛋白质的三维结构。也就是说,蛋白质会根据氨基酸的排列信息,自动折叠成正确的三维结构。这一过程只受物理定律的指导。
一直以来,实验室实验一直是获得良好蛋白质结构的主要途径。
在1950年代,利用X射线束照射结晶蛋白质,并将衍射光转化为蛋白质原子坐标的技术,首次确定了蛋白质的完整结构。目前已知的绝大部分的蛋白质结构都是通过X射线确定的。在过去的十年里,低温电镜逐渐成为许多结构生物学实验室的首选工具。
不过,传统的实验室方法费时(数月到数年)、费力、烧钱,很多人在尝试寻找新的方法预测蛋白质的三级结构。
▲ 复杂蛋白质的折叠过程(图源:deepmind.com)
实际上,咱们现在耳熟能详的“一级结构决定三级结构”的假说,最早是Christian Anfinsen在1972年诺贝尔化学奖的获奖感言中提出的,他认为:理论上,蛋白质的氨基酸序列应该完全决定其结构。
Christian Anfinsen的这一假设引发了长达50年的探索,很多研究人员希望能够仅根据蛋白质的氨基酸序列来计算预测蛋白质的三维结构,作为那些昂贵且耗时的实验方法的补充。
然而,这一设想面临一个主要的挑战:从理论上讲,一条氨基酸链在形成最终的三维结构之前可能会有许多种折叠方式。这里说的“许多”可是一个天文数字。试想,给你一串珍珠项链,你是不是能折叠出数不清的三维结构。
在1969年,Cyrus Levinthal就指出,通过蛮力计算来列举一个典型蛋白质的所有可能构型所需要的时间比已知宇宙的年龄还要长。然而在自然界中,蛋白质会自发地折叠,有的在几毫秒内就折叠完毕。这就是生命的奇妙之处。
▲ 图源:deepmind.com
到1994年,为了推动蛋白质结构预测技术的进展,John Moult教授和Krzysztof Fidelis教授创立了CASP。
CASP很有特色,它选择那些最近才通过实验确定的蛋白质结构(有些结构在评估时仍在等待确定)作为团队测试其结构预测方法的对象。所有参赛者都是根据对一级结构的计算,预测蛋白质的结构,随后将这些预测结构拿去与实验室获得的真实数据做比较。
正是基于这种盲测的方法,CASP才被誉为评估预测技术的金标准。
CASP用来衡量预测准确性的主要指标是GDT(Global Distance Test),其范围为0-100。简单来说,GDT可以大致认为是氨基酸残基与正确位置阈值距离内的百分比。Moult教授表示,如果一个预测工具的GDT得分在90分左右,可以认为与通过实验方法得到的结果不相上下。
据了解,即使是在1994年的时候,对于小型、简单的蛋白质,算法预测的结构也能与实验结果相匹配。但是对于较大的、具有挑战性的蛋白质,预测工具的GDT分数约为20分。用Lupas的话说,在当时的条件下,预测复杂蛋白的结构简直就是一场灾难。
到2016年,对于最难的蛋白质,计算预测的GDT分数才达到40分左右。粗粗看来,22年的时间只提高了20分左右。
▲ 图源:deepmind.com
时隔两年之后的2018年,DeepMind开发的AlphaFold首次参加比赛,表现亮眼,在每个结构上平均超出对手15%,在最难的蛋白结构上也赢得了高达60左右的GDT分数。AlphaFold的实力可见一斑。
但是,对于这个分数,AlphaFold开发负责人John Jumper显然不满意。因为这些预测仍然太粗糙,没有用处,离真实的蛋白结构还差很远。
为了提高预测的准确性,Jumper和他的同事将深度学习与“tension algorithm”结合起来,这种算法模仿了组装拼图的方式:首先将小块的碎片连接起来,然后寻找将小块连接成一个更大的整体的方法。随后在由128个处理器组成的计算机网络上,用17万个已知的蛋白质结构训练了该算法。
训练的结果就是今年AlphaFold的亮眼表现。
在所有的目标蛋白中,AlphaFold取得了92.4分的GDT中值,而其他团队开发的算法最好表现也就是得到75分左右。这意味着AlphaFold的预测平均误差(RMSD)约为1.6埃,与一个原子的宽度(或0.1纳米)相当。
▲ 历年GDT得分(图源:deepmind.com)
AlphaFold取得的成就,足以与实验室方法抗衡。
Moult甚至说,在某些情况下,他们并不清楚AlphaFold的预测结果和实验结果之间的差异,究竟是预测错误,还是实验过程中的人为因素。
这就很厉害了。
难怪《科学》杂志毫不吝啬地说[3],“人工智能(AI)已经解决了生物学的宏大挑战之一:预测蛋白质如何从一条线性氨基酸链卷曲成3D形状,使它们能够执行生命的任务。”
此外,对于最具挑战性的蛋白质,AlphaFold的中位数GDT为87分,比排名第二的预测方法高出25分。
还有一点值得一提的是,AlphaFold甚至很擅长解决那些被夹在细胞膜中的蛋白质的结构,这些结构很难用X射线晶体学解决,然而这些蛋白质结构又是许多疾病的关键所在。
▲ AlphaFold预测结构与实验结果的比较(图源:deepmind.com)
在今年的CASP中,还有一个小插曲。
由于AlphaFold的表现过于优异,主办方甚至担心DeepMind可能以某种方式作弊。所以Lupas设置了一个特殊的挑战:预测一种古菌的一个特殊膜蛋白结构。
Lupas和他的团队与这个蛋白死磕了10年时间,虽然也得到了一些X射线数据,但是他们没能理解这些数据,更没有搞清楚这个蛋白的结构。
Lupas把这个难题甩给了AlphaFold。
没想到这对于AlphaFold而言不是难题。AlphaFold提供的预测模型让Lupas和他的同事理解了他们之前得到的X射线数据。随后的分析结果证实,AlphaFold预测的结构与实验室的数据相吻合。
“这几乎是完美的,”Lupas说。“他们不可能在这方面作弊。我不知道他们是怎么做到的。”
▲ 神经网络(图源:deepmind.com)
至于AlphaFold对真实世界的影响,那有可能是翻天覆地。
要知道,科学家在自然界中发现了1.8亿个蛋白序列,而且这一数据目前还在快速增长。然而人类只搞清楚了其中17万个蛋白的结构。在未知的蛋白中,究竟还隐藏这多少未知的秘密,想想就让人兴奋。
AlphaFold或许就像一个天文望远镜,帮助我们更深入地观察生命宇宙中的未知。
基于AlphaFold,科学家或许能在更快的时间内阐明人类基因组中数千种未解决的蛋白质的功能,并理解人与人之间不同的致病基因变异,相关药物的开发或许也会变得更快。
当然,AlphaFold的出现不可能完全取代实验室方法,这两种方法在未来可能趋向于取长补短,使新一代的分子生物学家有能力提出更高级的问题,更深入地理解生命和疾病。
此外,AlphaFold还有很多东西需要学习,包括多种蛋白质如何形成复合物,蛋白质如何与DNA、RNA或小分子相互作用,以及如何确定所有氨基酸侧链的精确位置等等问题。
编辑神叨叨