WebMGA:超快的基因组序列聚类注释在线工具
撰文:周晗 中南大学
审稿:刘永鑫 中科院遗传发育所
(宏)基因组学是测序研究生物功能的新领域。如今测序技术一直在进步,成本也大幅下降,数据在大量增加,但数据分析是非常耗时的,并且(宏)基因组注释涉及广泛的计算工具,这些工具难以轻松掌握。少数可用Web服务器提供的工具也受到许多限制,例如有登录要求、无法大批量分析、等待时间过长、无法配置配件等等。如果你也遇到以上的困扰,那可以试一试今天要介绍的这款工具。
WebMGA是用于(宏)基因组快速分析的Web服务器,包含3个模块20多种常用的工具。访问网址:
http://weizhong-lab.ucsd.edu/webMGA/。(图1)
图1. 服务器主页界面
这三个模块分别为:序列聚类、基因预测和功能注释。我们从每个模块中挑选一个工具进行演示。(图2)
图2. 服务器的主要功能和对应的选项
cd-hit是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类来除去冗余的序列。它的引用量近7000次。
序列聚类cd-hit
cd-hit是一种贪婪的增量聚类方法,它解决了序列两两比对特别费时的问题,大大缩短了运行时间。首先我们选定分析方法后上传文件。可修改为认为合适的参数(一般默认参数即可)。(图3)
图3. 以cd-hit-est为例,上传数据和参数设置页面。上传数据为标准核酸fasta格式文件。推荐填写邮箱地址。
上传成功后会显示如下页面。点击job status,对于10Mb的输入文件,一般1分钟后就可以查看结果了。
(图4)
图4. 任务提交成功页面
结果会整理成压缩包,可以直接下载压缩包。
(图5)
图5. 结果下载页面
下载的压缩包解压后,结果包含以下内容:
(图6)
图6. 下载结果文件列表,红框为重要结果
cd-hit主要有两个输出文件:一个是只含有所有代表序列(即去冗余后的序列)的FASTA文件;
(图7)
图7. 非冗余代表序列文件内容示例
另一个是以.clstr结尾的聚类信息文件,名为“output-sorted”。文件中以“>”开头的是一个聚类组。每组下面按序号排列,如图中Cluster 1组有19个聚类序列。每个聚类序列有一个百分比或“”,百分比代表该序列与代表序列的相似度,“”代表该序列即为代表序列。另一个“output.clstr”文件中仅含有代表序列的信息。
(图8)
图8. 聚类信息文件示例,*为代表序列
基因预测ORF prediction
ORF prediction可以从(宏)基因组序列中预测基因,上传要求的FASTA格式的DNA序列,对于2Mb的上传文件,只需3秒就可以查看结果了。(图9)
图9. 宏基因组序列中基因预测页面
结果文件中包含以下内容。其中名为“OFR.fasta”的文件,就是预测好的结果文件。
(图10)
图10. 宏基因组序列中基因预测结果文件。红框为主要结果
这个预测结果文件可以直接上传到后面的注释工具。
(图11)
图11. 宏基因组序列中基因预测结果文件内容示例
蛋白COG注释
注释工具中我们以COG注释为例。COG(cluster of orthologous group——直系同源簇)是用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇,从而可以用同一簇中的已知基因注释未知基因的功能。它的引用量现已上千。
COG注释作用:
通过已知蛋白对未知序列进行功能注释;
通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在;
每个COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。
上传之前基因预测的结果文件,对于大小为2Mb的基因组,大概3分钟就可以给出注释结果!还对每条序列的COG注释结果进行了COG分类,是不是非常快!COG功能注释结果中包含以下几个文件。
(图12)
图12. COG注释结果文件
“cog.txt”是按照COG同源蛋白的编号排出来的注释结果。
(图13)
图13. COG注释结果cog.txt
文件示例
“cog-class.txt”是将蛋白归为25个大类,在每个分类上进行统计。
(图14)
图14. COG注释结果cog-class.txt
文件示例
根据分类,可以统计数目,然后根据不同的分类做图进行比较。
(图15)
图15. COG归类结果常见柱状图展示方式
(图16)
图16. COG归类结果的热图展示
今天介绍的这个工具非常方便,并且运行速度很快,页面十分友好,掌握了会让大家的组学分析轻松很多。
作者简介
周晗,本科毕业于山东省第一医科大学,2018年硕士就读于中南大学资源加工与生物工程学院生物工程专业,在环境微生物工程课题组学习。具体研究内容为极端嗜盐微生物的比较基因组学分析和降解废水中有机物的相关研究。欢迎大家批评、指导和交流,zhhlzl@csu.edu.cn。
参考文献
Wu S , Zhu Z , Fu L , et al. WebMGA: a customizable web server for fast metagenomic sequence analysis[J]. BMC Genomics, 2011, 12.
Li W , Godzik A . Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences.[J]. Bioinformatics, 2006, 22(13):1658.
Noguchi H, Park J, Takagi T. MetaGene: prokaryotic gene finding from environmental genome shotgun sequences.[J]. Nucleic Acids Research, 2006, 34(19):5623-30.
Tatusov, R. L . The COG database: a tool for genome-scale analysis of protein functions and evolution[J]. Nucleic Acids Research, 2000, 28(1):33-36.