每解析一个蛋白质结构,就会有一种疾病“消失”?生物计算有多强

什么是生物计算?

如果有一位科学家跟你说,他是做蛋白质结构研究的,我想绝大多数人脑海中会浮现出这样的景象:他穿着白大褂,聚精会神地坐在显微镜前观察。这似乎已经成了生物化学家的标准形象。然而有一天你去他办公室,却发现根本看不到显微镜和试管,只看到他穿着宽大舒服的便装,在电脑上噼里啪啦地敲代码,这个景象必然会让很多人大吃一惊。

实际上,准确地说,这位科学家是一位生物计算学家(或计算生物学家)。他的研究对象的确是像蛋白质或者 DNA 这样微小的生物活性物质,但他和传统的生物化学家不同的是,他的研究工具不是试管和显微镜,而是——计算机。

很多人在初次看到类似“某某公司进军生物计算”这样的新闻标题时,往往会产生强烈的不明觉厉的感觉。甚至有人以为是该公司要用生物活性物质来制造计算机,就像科幻电影中出现的那种插满电极的一摊软乎乎的脑组织。

这真是一个天大的误会。这些新闻其实说的是:某公司要设计一种 AI 算法,它能够根据有限的蛋白质信息,准确地绘制出蛋白质的三维结构。打个形象的比喻,这家公司相当于要帮助警察设计一个程序,它能根据受害人的描述,准确地绘制出凶手的外貌。

绘制出某个蛋白质的三维结构对于新药研发,例如新冠病毒的疫苗研发有着极其重大的意义。但是,这个问题也极为困难,它是当今人类科学面临的几个至关重要的挑战之一。想要知道它难在哪里,又为什么意义重大,往下看。

蛋白质折叠问题

蛋白质从微观上来说,就是一团有机大分子。它是构成生命的基本零件,每一种蛋白质都有一个特定的三维结构,但这种三维结构有一个特殊之处:它一定是由一根长长的链条折叠而成的。要理解蛋白质的三维结构到底是怎样的,你只需要去玩一种叫“百变魔尺”的儿童玩具,就能马上理解。百变魔尺是一节一节的,每一节都可以做各个角度的翻转。因此,你可以把一根长长的魔尺折叠成各种各样的形状,魔尺的节数越多,能够折叠出的形状数量就会呈指数级的增长。

组成蛋白质的基本单元是氨基酸,它就像魔尺的一个“节”。蛋白质刚刚生成时,就像一根长长的几十到几百节的魔尺。然后,它会在几微秒到几毫秒的时间内,迅速地折叠成一个特定的形状。因此,在电子显微镜中,每一个蛋白质就像是一团乱麻。

因此,决定一个蛋白质性状和功能的,就是构成蛋白质的氨基酸序列和蛋白质最终折叠成的形状。比如,我们的免疫系统在面对病毒和细菌入侵时,就会产生一种“Y”字形的抗体蛋白。它们的形状就像是一个抓娃娃机的夹子,能够精确瞄准并夹住这些入侵者。

正在瞄准和识别病毒的抗体

我们的韧带、骨骼和皮肤之间有大量的胶原蛋白。它们的形状就像是由三根粗绳拧成的麻花,为我们的皮肤提供张力,使其显得有弹性。

麻花状的胶原蛋白

再比如,2020 年获得诺奖的基因定点编辑技术 CRISPR,也正是利用了一个长得像螃蟹钳子的 CAS9 蛋白。它会“紧紧地夹住”基因组中某段特定的 DNA,从而进行剪切。

因此,科学家们对蛋白质最感兴趣的是 2 个信息:一个是蛋白质的氨基酸序列,你可以想象成魔尺的那些“节”;另一个则是蛋白质的结构,也就是魔尺折叠后的形状。

序列信息相对容易获得,但结构信息却极难获得。偏偏结构信息又更重要,因为知道了一个未知蛋白质的结构,就可以更准确地理解它在细胞中的作用。如果这个蛋白质与某种疾病相联系,那么科学家们就能根据它的结构形状,开发出相应的药物。

1972 年,诺贝尔化学奖获得者克里斯蒂安·安芬森提出了一个假说:其实我们只需要知道一个信息就足够了。因为他在实验中发现,一个蛋白质只要序列不发生改变,并且一直处于同一个化学环境中,那么它每次都能折叠成一样的三维结构。所以,蛋白质在三维空间中该如何折叠,这些信息其实已经包含在了它的氨基酸序列中。换句话说,如果我们知道了一个蛋白质的氨基酸序列,理论上我们就应该能推测出它的三维结构。

安芬森的这个假说得到了全世界同行的认可。然而科学家们很快就发现,好像知道了这个理论也没什么用。用一句网络流行语来说——然并卵。虽然我们能在实验室中相对容易地测出一个蛋白质的氨基酸序列,但拿到这个序列,我们依然无法根据某条物理法则准确推测出它的三维结构。对此,科学家们已经研究了将近 50 年,直到今天也没有彻底弄清楚蛋白质折叠的规律。这个问题在生物化学界被称为“蛋白质折叠问题”,它是 21 世纪人类科学面临的几大挑战之一。

烧钱的产业

现在的科学家想要弄清楚一个蛋白质的三维结构,唯一的办法只能是耗费巨大的人力、物力,用极其笨拙的方法,通过大量的重复性实验来找到蛋白质的三维结构。需要的实验设备如冷冻电镜、X 射线晶体衍射仪、核磁共振仪等都价格昂贵。例如一台冷冻电镜的价格就高达数百万至几千万人民币。解析结构的过程是否顺利有很大的运气成分。运气不好的时候,重复个上千次实验都有可能出不来结果。因此,每解析一个蛋白质结构,通常的成本在几万到几十万美元之间。

从上世纪末开始,以 IBM 为首的一些计算机技术公司就提出了一个大胆的设想:可以通过蛋白质的氨基酸序列,利用超级计算机来预测蛋白质的三维结构。这相当于把原先在试管中进行的实验,转移到电脑的数字空间中进行。这个想法在当时非常大胆和前卫,因为它的运算量对于当时的计算机来说是天文数字。

你可能好奇:预测一个蛋白质的折叠,怎么会需要海量的计算?粗略地说,计算过程就好像在彩票箱中摸奖。一个拥有 100 个氨基酸的蛋白质,你想象成是一个拥有 100 节的魔尺,它共可以产生约 10^94 次方种不同的形状。这个数量已经远远超过了整个宇宙中基本粒子的数量。计算机要做的事情其实就是排除法。根据一定的规则,先是一批批排除某类绝对不可能的结构,然后再根据蛋白质表现出来的性状一个一个地排除。到了最后阶段就像是不停地在一个巨大的彩票箱中抽奖,每抽一次都要耗费巨大的运算量。

IBM 用了 5 年的时间搞研发,终于在 2004 年宣布:世界上最大的超级电脑“蓝色基因”(Blue Gene)问世。它的主要目标就是解决蛋白质折叠问题。然而,事情进展得并不像计算机专家们估计的那样乐观。10 年之后,蓝色基因升级了三代,超级计算机也没能取代试管、X 射线晶体衍射和核磁共振。IBM 也遗憾地终止了蓝色基因系列的开发[1]。

不过,IBM 的失败并不代表计算机模拟蛋白质结构的失败。恰恰相反,在 IBM 的带动下,参与这项挑战的团队越来越多,成果也越来越丰富。各种各样奇妙的解题思路层出不穷,最好玩的例子是华盛顿大学的大卫·贝克(Davided Baker)教授的发明。

2008 年,他的团队开发出了一款名叫“Foldit”的解谜游戏。而这款解谜游戏的内容就是让用户凭借自己的直觉来折叠蛋白质,然后根据一定的规则获得分数。结果非常喜人,一个困扰了生物学家 15 年之久的猴类艾滋病毒相关蛋白,作为谜题被上传到游戏后,玩家们只用了 10 天就成功地破解了它最可能的折叠方式。

猴类艾滋病毒相关蛋白

从 1994 年开始,就诞生了一个名叫 CASP 的国际蛋白质结构预测竞赛。每两年举办一次,参赛队伍越来越多,全球的科技大佬云集。这个竞赛中,裁判会给每个小组预测的结构进行打分,满分 100 分。在 2020 年 12 月结束的第 14 届竞赛中,传来一个令人震惊的消息:曾经开发出著名的围棋程序 AlphaGo 的谷歌公司人工智能团队,他们开发的 AlphaFold 程序获得冠军,得到了 92.4 分。而上一届同样是冠军的它,得分还不到 60 分,这种进步的速度太令人震惊了。AlphaFold 预测的蛋白质结构已经非常接近于真实实验做出来的结果,人类离计算机攻克蛋白质折叠问题只有一步之遥。

中国理应入场

到此你对“生物计算”应该已经有了一个初步的概念。不知道你发现没,前文讲了这么多,居然没有一次提到中国。具有如此重要意义的一项科学事业,过去的几十年基本上都是老外在玩儿,没我们中国人什么事,这真的让我感到揪心。对于未来的新药研发、疫苗研发、精准医疗等等生物医学技术,我几乎可以肯定地说:得生物计算者得天下。传统的试管加电镜式的研发模式,终将被 AI 所取代。这项科学研究事业,理应上升到国家战略的高度。

信源

1.https://en.wikipedia.org/wiki/IBM_Blue_Gene

更多阅读

2020 年诺贝尔医学奖揭晓,丙肝成热词,那么它被治愈了吗?

硬件上九章和悬铃木旗鼓相当,量子计算的软件中国能否脱颖而出?

不会搭自动扶梯成为中国人素质低的证据之一?真的是我们不文明吗

(0)

相关推荐