深度学习正在解决另一个核心生物学谜团:RNA 结构
深度学习正在以惊人的速度揭示生物学最深层的秘密
2021年8月末,来自斯坦福大学的团队在《科学》(Science)发表文章,介绍了一种名为“原子旋转等变评分器”(英文名“Atomic Rotationally Equivalent Scorer”,简称ARES)的深度学习算法,称其能有效解决RNA结构预测难题。
来自北卡罗来纳大学的凯文·威克斯(Kevin Weeks)博士未参与研究,不过对其表达了高度评价:“该研究团队在一个被证明难有变革性进步的领域取得了显著进展。”
令人惊奇的是,ARES所受训练的材料仅仅包含18个RNA结构,但它却提取出了大量关于RNA折叠的规则;这些规则将在实验室中接受进一步测试。此外需要说明,ARES是输入不可知(input agnostic)系统,因为它并不专为RNA预测服务。用此项研究的两位主要作者瑞朱·达斯(Rhiju Das)和罗恩·德罗(Ron Dror)的话说:“这种方法适用于结构生物学、化学、材料科学等领域的各种问题。”
作为“DNA→RNA→蛋白质”中心法则的中间产物,RNA在为新冠疫苗研发提供巨大助力以前并未博得太多关注,但毫无疑问称得上一块生命基石,因为它既携带遗传信息,又可根据自身结构催化生物功能、调控基因的开关、调节免疫系统,甚至可能在表观遗传中扮演关键角色。
RNA算得上是遗传医学或疫苗研发领域的香饽饽。例如,我们可以通过杀死RNA信使以达到在不实际接触基因的情况下关闭基因的目的;再者,靶向RNA的疗法相比基因疗法,或许能产生更少的意外影响,与此同时保持我们的基因蓝图完整。
很多人可能会觉得RNA有点像纠结的耳机线,从一条线索开始缠绕成环,然后这些缠绕扭曲的结构再互相缠结,形成三级结构。
这种类比是有道理的,而RNA的扭曲缠绕往往在一定程度上可预测。
威克斯说道:“每个RNA都可能具有独特的结构特征。”
不过也正是这种看似简单的模式令研究人员挠头。
虽然RNA的构建基础很简单——就4种碱基而已,但在变成更复杂的三级模型以前,它们还会折叠成半刚性结构。“尽管有这些简化的特征,复杂RNA结构的建模已被证明是困难的。”
当前的深度学习解决方案通常从大量训练示例开始。大量训练可以帮助神经网络的每一层都开始学习如何有效提取特征——这些信息使AI能够做出可靠的预测。
但此模式在RNA的三维结构预测方面不大可行,因为RNA不比蛋白质,压根就没有几个经实验证明的真实例子用作训练材料。
鉴于此,ARES的研发团队另辟蹊径,干脆放弃RNA本身,不理会其分子以及功能方面的任何信息,而只关注原子的排列。
ARES先用一小组来自过往已知RNA结构的基序进行训练,还往里添加了大量拥有相同结构却不正确的的替代示例。消化这些例子后,ARES慢慢调整了它的神经网络参数,以便程序学习每个原子及其位置如何影响整个分子的功能。
ARES的受训过程类似于经典计算机视觉算法逐渐提取特征(从像素到线条和形状)的过程,其神经网络内的层涵盖了精细和粗糙的尺度。
当面临一组新的RNA结构(其中许多比训练结构复杂得多)时,ARES能够提取模式和新基序,识别字母(即碱基)如何结合。
达斯等人表示:“它完全从原子结构中学习,不使用其他信息……而且它不假设哪些结构特征可能很重要。我们甚至没向算法提供任何基本信息,例如'RNA是由四种碱基组成的分子链’这样常识一般的信息。”
完成体系构建之后,研究团队开始让ARES挑战RNA-Puzzles。
RNA-Puzzles是一项始于2011年的社区挑战,参与其中的结构生物学家会就已经实验检验的RNA结构借助算法开展预测,最后比较预测的精确度。ARES击败了其他竞争对手。
成功将RNA结构预测的准确度提高了大约30%。这看似很小的一步,却是生物学领域一大最棘手问题之一的巨大飞跃。
相比蛋白质,RNA结构预测要困难得多。就目前看来,ARES仍难以达到药物发现工作所需的准确度水准。但毫无疑问ARES在拨开RNA的迷雾方面迈出了坚定有力的一大步。其算法在未来的一项改进可能是结合一些实验数据来进一步模拟这些复杂的结构。
大部分RNA一直是生物学的暗物质。我们知道它在那儿,却很难想象它的模样,更难研究其功能。“但随着ARES让测量、(深度)学习以及预测RNA三级结构的细节成为可能,我们有望收获更多生物机制方面的新发现。”
资料来源: