21世纪最重要的科学前沿问题之一，能就此得到解决吗？

导读：近日，人工智能（AI）再度发威，攻克了生物学领域一项重大难题：“阿尔法折叠2”能以前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。

本期推荐文章介绍了通过“阿尔法折叠2”系统预测蛋白质的三维结构的方法，该方法已经在多个评估中得到了精确验证，有望给多个领域的研究开创新的未来，并将加速相应药物的研发。

英国《自然》杂志7月16日发表的一项结构生物学最新研究，世界著名人工智能团队深度思维（DeepMind）描述了神经网络“阿尔法折叠2”（AlphaFold2），就计算机方法而言，“阿尔法折叠2”能以前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。

“阿尔法折叠2”可精准预测蛋白质结构。图源：《自然》在线版。

蛋白质折叠问题被认为是人类在21世纪需要解决的重要科学前沿问题之一。理解蛋白质的结构有助于确定蛋白质的功能，了解各种突变的作用。

截至目前，约有10万个蛋白质的结构已经用实验方法得到了解析，但这在已经测序的数10亿计蛋白质中只占了很小一部分。在过去50多年的时间里，研究人员一直尝试根据蛋白质的氨基酸序列预测其折叠而成的三维结构。然而，当前使用的计算方法准确度有限，实验方法对人力和时间的要求也非常高。

此次，深度思维首席科学家约翰·詹普尔、创始人兼首席执行官戴米斯·哈萨比斯及其团队描述了“阿尔法折叠2”——一个基于神经网络的新模型，其预测的蛋白质结构能达到原子水平的准确度。研究团队在2020年5月至7月举办的第14届“蛋白质结构预测关键评估”（CASP14）大赛中验证了这种方法。

机器学习软件所预测的人类白细胞介素 -12蛋白结合受体的结构图。图源：Ian Haydon/UW Medicine Institute for Protein Design

CASP14比赛要求参赛团队根据蛋白质的氨基酸序列解析它们的结构。比赛用的蛋白质会先用实验方法解析出来，但具体结果不会公开。比赛中，“阿尔法折叠2”预测的大部分结构达到了空前的准确度，不仅与实验方法不相上下，还远超解析新蛋白质结构的其他方法。将实验方法得到的蛋白质结构叠加在“阿尔法折叠2”的结构上，组成蛋白质主链骨架的叠加原子之间的距离中位数（95%的覆盖率）为0.96埃（0.096纳米）。成绩排第二的方法只能达到2.8埃的准确度。

“阿尔法折叠2”的神经网络能在几分钟内预测出一个典型蛋白质的结构，还能预测较大蛋白质（比如一个含有2180个氨基酸、无同源结构的蛋白质）的结构。该模型能根据每个氨基酸对其预测可靠性进行精确预估，方便研究人员使用其预测结果。

研究团队认为，这一精准的预测算法可以让蛋白质结构解析技术跟上基因组革命的发展步伐。

蛋白质结构示意图。

戴米斯·哈萨比斯则在一份声明中表示：在CASP14大会上，他们揭晓了一个可以将蛋白质3D结构预测精确到原子水平的全新“阿尔法折叠”系统，他们承诺会分享该方法，并为科学共同体提供广泛、免费的获取途径。而今他们迈出了承诺的第一步——在《自然》期刊上分享“阿尔法折叠”的开源代码，并发表了系统的完整方法论，以期待看到该方法为科学界启发出其他新的研究方法。

“阿尔法折叠”第一代的问世，被认为改变了结构生物学和蛋白质研究的未来：实验学家将能使用精确结构预测来理解不透明的低温电磁数据；药物设计者也可借此迅速厘清新冠病毒等危险病原体中每种蛋白质的结构，从而更快研发出相关药物。

本文转载自科技日报（作者张梦然），文章不代表高瓴官方观点。

21世纪最重要的科学前沿问题之一，能就此得到解决吗？ | 高瓴 Recommend

相关推荐