AI攻破50年生物学难题!《自然》:“这将会改变一切”

AlphaFold预测的新冠病毒ORF8蛋白结构;该结构已获实验证实。图片来源:CASP14

1972年诺贝尔奖得主克里斯蒂安·安芬森(Christian Anfinsen)在诺奖颁奖典礼上提出猜想:一个蛋白的氨基酸序列应该能完全决定这个蛋白的结构;而蛋白作为生命的基本构件,其结构与生命的各种功能息息相关。因此,半个世纪以来,科学家努力尝试着利用氨基酸序列预测蛋白结构。然而,迄今为止的大多数尝试皆为徒劳。

现在,一个来自DeepMind的人工智能算法,终于一举解决了这个问题。

撰文 | 罗丁豪

喜讯在昨晚传来:困扰了生物学家半个世纪的蛋白折叠问题(protein folding problem),被一个人工智能算法解决了。这个算法名为“AlphaFold”,由DeepMind公司开发。DeepMind发布于6年前的围棋算法AlphaGo,至今已无人能敌。

DeepMind这次的新突破,其重要程度或许更甚于AlphaGo的诞生。在宣布AlphaFold解决了蛋白折叠问题后,《自然》《科学》等著名杂志相继发文,在祝贺DeepMind之余,也强调了这是人工智能的又一次重大胜利。DeepMind母公司Alphabet和其姐妹公司Google的CEO桑达·皮采(Sundar Pichai)在推特上表示,这项新突破能让我们更好地理解生命的基本构件之一,并“帮助研究人员攻克新难题,不论是抗击疾病,还是保护环境。

桑达·皮采的祝贺推特

生物学的一个50年难题,正在人工智能的帮助下迅速拉上帷幕。

蛋白难题

人类已知的所有生命都由蛋白构成,这些有机分子构成了我们与世界交互的基本元件。以视觉为例:我们眼中的感光细胞(photoreceptor)都拥有感光蛋白(opsin),感测光子,并将光信号转化为大脑能理解的电化学信号。与任何蛋白一样,人类视杆细胞中的感光蛋白视紫红质(rhodopsin)是由氨基酸(amino acid)组成的;视紫红质由348个氨基酸连接而成,在三维空间内的形状与下图大致相符:

牛视紫红质(与人类视紫红质结构相近)的三维结构。作者:Roland Deschain

然而,尽管视紫红质的氨基酸序列在上世纪80年代就已测出,其结构却直到2000年才被首次揭开。将近20年的时间跨度,凸显了半个世纪以来一直困扰着生物学家的计算难题:已知一个蛋白的氨基酸序列,要怎样才能求出其三维结构?

这可不是一个小问题:蛋白的功能取决于其三维结构,而在自然环境中,蛋白通常能自发地在数秒内折叠成具有功能性的特定三维形状。对于现代生物学来说,测出一个蛋白的氨基酸序列相对简单(可用蛋白质谱法),但确定蛋白的三维结构则非常难(需要用到X射线晶体学和冷冻电镜)。如何从氨基酸序列跨到蛋白的三维结构,难倒了一代代的生物学家。若能解决蛋白折叠问题,科学家就不必浪费大量时间和资金确定蛋白的结构,而是可以将精力放在更重要的问题上,甚至还能针对性地设计具有独特功能的蛋白。

于是,从上世纪60年代开始,生物学家对这个难题展开了强劲攻势。八九十年代见证了蛋白折叠问题“答案”的泉涌,科学家们一度以为很快就能从氨基酸序列预测蛋白的三维结构了;然而,当大家将众多论文中提出的预测方法应用到自己感兴趣的蛋白上时,却发现我们离解答蛋白折叠问题还差得太远。

1994年,在生物学界的悲观氛围中,马里兰大学学院市分校的计算生物学家约翰·莫尔特(John Moult)等人创立了两年一度的CASP(Critical Assessment of protein Structure Prediction,即蛋白结构预测关键评估)比赛。在CASP上,不同队伍需要利用已知的氨基酸序列预测蛋白的三维结构。这些结构都已被实验证实,但未被公开。最后,评审会将各个队伍的预测结果与实验结果作比较,从而给出一个GDT分数。GDT意为“全局距离测试”(Global Distance Test),可理解为“有多大比例氨基酸的预测位置,与实验测定的实际位置相差无几”,因此分数越高,代表着预测越准

GDT测试的满分为100。一个预测方法必须要取得90分以上的成绩,才能算作“解决了蛋白折叠问题”。

截至2016年,12届CASP的历史最高分约为40。

AI相助

AlphaFold的第一次亮相在2018年。在第13届CASP上,AlphaFold获得了将近60分的GDT分数,比第二名高出了15%。在今年的CASP上,AlphaFold更是一举获得了将近90分的成绩

在中等难度的蛋白结构预测中,AlphaFold连续两年夺冠,今年更是取得了将近90分的GDT成绩。来源:DeepMind

AlphaFold的工作原理分为两步。第一步是多序列校准(multiple sequence alignment),与一同参赛的其它算法没有区别,意在将已知的氨基酸序列与数据库内的序列对比,找出那些“喜欢待在一起”的氨基酸,再通过进一步分析模拟出每个氨基酸之间的距离,从而得出初步预测。但知道氨基酸之间的距离还不够——毕竟不是每一种三维结构都符合物理规则。于是在第二步中,AlphaFold会基于氨基酸序列,创造出一个符合物理规则的随机三维结构,然后用深度学习中常用的梯度下降法(gradient descent)改进第一步中得出的预测。

至此,AlphaFold已经能超越前12届CASP中冠军所用的预测方法了。但在今年的CASP上,第二代的AlphaFold还用上了基于注意力机制的神经网络(attention-based neural network)架构。简单来说,在考虑蛋白三维结构时,这种旨在模仿大脑的神经网络架构不仅会考虑到氨基酸序列中的每个氨基酸,还能预估一个氨基酸的位置受哪些氨基酸的影响、影响程度有多大,等等。就如同大脑在决策时会将注意力集中在重要信息上一样,升级版AlphaFold在预测结构时也会将“注意力”集中在重要的氨基酸上。

与其它深度学习算法一样,AlphaFold也需要利用大量数据进行训练。今年参加CASP的AlphaFold,训练数据集囊括了大约17万个已知的蛋白三维结构,加上包括Uniprot在内的大型蛋白序列库中的蛋白氨基酸序列。利用128个TPUv3核心,AlphaFold在训练了几周后就达到了参赛水平。

有了先进的神经网络架构、算法和数据的支持,AlphaFold能在几天内预测出一个蛋白的三维结构,甚至还能计算预测结构中每个部分的可靠性(即AlphaFold对这部分预测结构的“信心”)。在CASP的盲审中,当评委们看到一个队伍的算法拥有极高的预测准确率时,他们“就已经猜到这是AlphaFold了,”评审之一,安德烈·鲁帕斯(Andrei Lupas)说。比赛结果显示,AlphaFold将近三分之二的预测都与实验结果相近。

AlphaFold对两个蛋白(左:RNA聚合酶的一个域;右:黏附素尖端)的结构预测(蓝色)和实验测定结构(绿色)的对比。来源:DeepMind
(0)

相关推荐