AI转行搞医学:用自然语言处理算法预测病毒的免疫逃逸

近日,来自美国麻省理工学院的科研团队使用人工智能进行了一次“跨专业”研究。他们使用了原本用于自然语言处理(NLP)的算法来预测病毒蛋白质序列中能导致免疫逃逸的突变。相关研究 1 月 15 日发表于《科学》(Science)。

病毒的免疫逃逸一般是指病毒通过突变改变自身的特征蛋白,以躲过宿主免疫识别的过程。并不是所有的突变都会导致免疫逃逸。与免疫逃逸相关的变异通常会导致病毒特征蛋白结构的改变。这样的改变使宿主的免疫细胞无法有效识别出病毒。而之前因为这种病毒感染而分泌出的抗体也无法有效的中和突变后的病毒。这一机制会使已经接种的疫苗失效,从而为疫苗的开发带来阻碍。

研究人员发现了病毒蛋白质序列与自然语言的相似之处。每一种病毒对蛋白质的编码是有特定规律的,这种规律类似语法。而构成蛋白质的氨基酸则类似句子中的单词。免疫系统识别病毒蛋白的过程类似于人类理解句意的过程。无论语法还是语义的改变都能改变句子的意思,从而实现免疫逃逸。依据这样的对应关系他们就可以使用 NLP 的相关算法来分析病毒的蛋白质序列了。

一种被称为限制性语义转换检索(CSCS)的方法被用来寻找经常发生且与免疫逃逸相关的突变。为了寻找这些突变位点,研究人员使用了长短期记忆(LSTM)这一用于自然语言分析的算法对几种病毒的特征蛋白序列进行了建模。包括流感病毒的血凝集素(一种蛋白),艾滋病病毒包膜糖蛋白以及 SARS 病毒刺突蛋白。

最终他们发现,病毒蛋白需要遵守一定的编码规则(语法)以保持自身的感染能力,同时又需要一定程度的突变(语义的改变)来实现免疫逃逸。而相关位点是否经常发生变异也是重要的指标。保持感染能力、实现免疫逃逸,并且易于发生突变的区域将会是免疫逃逸相关突变的高发区。研究结果表明,流感病毒血凝集素的顶端、艾滋病病毒包膜糖蛋白的 V1/V2 超变区,以及 SARS 病毒刺突蛋白的受体结合结构域和氨基末端域都是免疫逃逸的高发区。由此研究人员实现了某种程度上对免疫逃逸的预测。

研究人员表示,此类研究将可用于揭示病毒演化的规律并有助于疫苗的开发。人们每年都要接种流感疫苗就是因为流感病毒的强变异性和这一特性引起的免疫逃逸。而艾滋病疫苗的开发也受制于艾滋病病毒的免疫逃逸现象。如果能够一定程度的预测某种病毒的免疫逃逸,则会减轻对应疫苗的开发难度。

主要参考来源:

https://eurekalert.org/emb_releases/2021-01/aaft-adt011121.php

http://dx.doi.org/10.1126/science.abf6894

(0)

相关推荐