10x单细胞数据分析之整理参考基因组
与常规的RNA-Seq一样,10x单细胞RNA-Seq/ST-Seq也需要测序数据比对到参考基因组进行基因的定量。那么参考基因组的质量就对单细胞的分析结果有着重大的影响。
接下来小编就给大家介绍一下10x单细胞分析的参考基因组准备。
1、10x官方提供的参考基因组
对于常用的人和小鼠,10x官方提供了经过处理的,可以直接用来定量的参考基因组,可以在下面的链接中下载(https://support.10xgenomics.com/spatial-gene-expression/software/downloads/latest)。
可以看到人的基因组版本为GRCh38,小鼠的为mm10。都是目前常用的基因组版本,所以如果您研究的是人或者小鼠,那么直接从10x官方下载吧,是不是很方便呢!
2、自建参考基因组
如果您希望使用最新的人/小鼠基因组,或者研究的是其他物种,那么就需要自行构建参考基因组了。单细胞进行基因定量主要分为两步:
1.测序数据与参考基因组比对,获取reads在基因组上的位置;
2.根据reads比对信息和参考基因的位置,对基因进行计数。
所以我们需要准备两个文件,基因组的DNA序列文件(FASTA格式)和基因的注释文件(GTF格式)。常用的Ensembl和NCBI数据库都提供了这两种格式的文件。以Ensembl为例,打开Ensembl(http://asia.ensembl.org/info/data/ftp/index.html)下载页面。
这里我们以人基因组为例,点击相应的FASTA和GTF超链接,可以看到如下页面:
需要注意的是,大部分物种我们需要下载toplevel的序列文件,但是对于人和小鼠这类有单倍型信息的基因组,我们需要下载primary_assembly的序列。将下载好的文件传到linux主机上。
10x单细胞使用的polydT进行RNA逆转录,只能测到带有polyA尾的RNA序列,所以我们需要从GTF文件中过滤掉non-polyA的基因。Cellranger的mkgtf命令可以对GTF文件进行过滤,通过--attribute参数指定需要保留的基因类型:
Ensembl和NCBI提供的GTF文件通常都有gene_biotype标签来标记基因的类型。如果从其他来源下载的GTF文件中没有gene_biotype标记,那么就不需要对GTF进行过滤。
处理完GTF文件之后,就可以使用cellranger的mkref命令构建基因组了:
这一步根据基因组的大小,需要的内存和运行时间不同。人的基因组大约有3G个碱基对,小编在构建基因组时,使用了约20G内存,耗时约1.5h。所以建议在大型工作站或者服务器等配置较高的机器上运行。看到如下信息就表示运行顺利完成啦!
构建好的基因组就可以进行下一步的定量啦!