基于深度学习的病毒序列识别
随着宏病毒研究的日益火热,许多小伙伴都在想自己曾经测过的宏基因组数据能否再深挖一波?当然可以!前面几期小编给大家抛砖引玉介绍了组装软件以及病毒数据库的基本知识,这期我们就来聊一聊,如果不依赖于数据库的注释结果,我们可以把病毒序列从宏基因组数据中狙击出来吗?
美国南加州大学定量计算生物学中心孙丰珠教授课题组曾在2017年开发并报道了VirFinder[1],该软件可以基于细菌与病毒序列的k-mer差异有效的抽提病毒序列。时隔三年,孙教授课题组再次发力,这次给大家带来了新的基于深度学习识别病毒序列的方法-DeepVirFinder[2]。
简单一句概括,DeepVirFinder通过对大量已知的病毒序列和细菌DNA序列进行基于卷积神经网络模型的深度机器学习训练,获得最优的细菌病毒序列二分类器。该模型由卷积层、最大池化层、全连接层和几个dropout层组成,输出病毒与原核生物二分类的0到1的预测分值(图1)。与之前的VirFinder不同之处在于,DeepVirFinder不需要提前定义序列的特征(如k-mer等),模型可自主学习病毒预测所需的各类特征属性。
图1 DeepVirFinder的深度学习原理框架图
该模型使用一个精心挑选的包含数十万条病毒序列和原核生物序列的大数据集进行训练和评估。其中包括了2314个来自于NCBI的感染原核生物(细菌和古菌)的病毒参考基因组,这些基因组序列按照报道日期被分为三个部分,其中2014年1月之前报道的基因组序列为训练集,2014年1月至2015年5月之间报道的基因组序列为验证集,2015年5月之后报道的基因组序列为测试集。数据集的划分不仅避免了训练、验证和测试数据集之间的重叠,而且还有助于评估基于先前发现的病毒序列预测未来新病毒的方法能力。为了进一步扩大用于训练的数据集,还收集了大量的宏病毒样本,其中主要包含病毒序列(包括许多未培养的病毒),共计130万序列。
研究人员发现加入宏病毒样本序列进行训练获得的模型的AUROC指标显著优于仅仅使用refSeq数据库中病毒序列进行模型训练(图2A)。他们认为可能是因为大多数病毒RefSeq序列是通过实验室培养和筛选获得的,这样的病毒RefSeq数据库对于大多数未可培养的病毒就有较强的bias。因此,加入来自宏病毒组数据集的病毒序列,可有效地纠正采样偏差,提高病毒的预测精度。但同时研究者们也发现,在使用使用扩大数据集训练的模型进行预测时,感染Proteobacteria和Actinobacteria的病毒(这两种病毒在RefSeq中最多占63%)的AUROCs降低了。由于两大病毒组的AUROC降低,新模型的整体AUROC也略有下降。因此作者建议,对于未有先知经验的样本建议使用扩大数据集训练的模型来预测病毒序列,而对于已知研究群体中的病毒主要来自RefSeq中的常见成员,则使用原始训练模型为优。
图2 不同训练数据集之间的模型性能指标对比
为了测试DeepVirFinder在预测宏基因组数据中的病毒contigs方面的性能,研究者基于一个真实的人类肠道宏基因组样本的丰度谱模拟了几个宏基因组数据集,并评估了DeepVirFinder在识别模拟宏基因组样本中的病毒contigs方面的性能。考虑到不同的实验示例策略不同,我们模拟了三种宏基因组数据集,其中病毒比对分别为10%、50%和90%,同时保持病毒和宿主组内相对丰度一致。模拟的contig长度在数百bp到数千bp之间变化,大多长度在300- 1000 bp之间(图3A)。使用经过RefSeq数据集训练的模型来预测不同长度的contigs。
总的来说,AUROC评分随着contig长度的增加而增加,其趋势与图2相同。在预测多种间隔的contigs长度时,所有contigs的AUROCs为0.8829,大于300 bp的AUROCs为0.8952,大于500 bp的AUROCs为0.9129(图4B)。因此,在实际数据应用中,能够在contigs大于300 bp的范围内实现总AUROC在0.90左右。
由于真实阳性率和假阳性率是根据病毒组和宿主组的相对比例独立定义的,不同病毒比例对AUROC的影响并不明显。作为AUROC的一种补充方法,在评估病毒组分对预测精度的影响时,研究考虑了PR曲线下面积(AUPRC)的指标,该度量更加敏感。例如,对于病毒组分为90%的样本,长度为500 bp的contigs的AUPRC为0.9296,对于病毒组分为50%和10%的样本,AUPRC为0.8638和0.6437 (图4C)。与病毒组分为50%和90%的样本相比,病毒组分为10%的样本在不同contigs长度范围内的AUPRC有很大的差异。
图3 评估DeepVirFinder在模拟多种病毒感染的宏基因组样本数据(多种病毒contigs长度)中的性能表现
Reference
[1] Ren, J., et al., VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome, 2017. 5(1): p. 69-20.
[2] Ren, J., et al., Identifying viruses from metagenomic data using deep learning. Quantitative Biology, 2020. 8(1): p. 64-77.