从原始数据到计数矩阵
前文回顾
单细胞RNA-seq分析介绍
单细胞RNA-seq的设计和方法
前言
根据所用文库制备方法的不同,获得的RNA序列(也称reads或tags)有3'(或5')端起始的转录本(10X Genomics, CEL-seq2, Drop-seq, inDrops)和全长转录本(Smart-seq)之分。
感兴趣的问题关乎方法的选择,下面列出了这些方法的优点
3'(或5')端测序:
通过使用独特的分子标识符进行更准确的定量,从而将生物学拷贝与扩增复制(PCR)进行区分
测序的细胞数量更多,可以更好地鉴定细胞类型群体
每个细胞成本便宜
超过10,000个细胞可获得最佳结果
全长测序
异构体水平表达差异的检测
等位基因表达差异的鉴定
少量细胞的深层测序
适合细胞数较少的样本
对于3'端测序和全长测序有许多相同的分析步骤,但是3'方案越来越流行,并且在分析中还包含一些其他步骤。因此,我们的材料将着重于基于液滴的方法(inDrops,Drop-seq,10X Genomics),详细介绍这3'方案的数据分析。
3'末端读取(包括所有基于液滴的方法)
了解每个reads中都包含哪些信息,以及我们如何在整个分析过程中使用它,对于scRNA-seq数据的分析是很有帮助的。
对于3'端测序方法,来自同一转录本的不同分子的reads将仅来自转录本的3’端,因此具有相同序列的可能性很高。然而,文库准备过程中的PCR步骤也可能产生读取副本。为了确定读数是生物学上的还是技术上的复制,这些方法使用唯一的分子标识符,即UMIs
不同UMI映射到同一转录本的read来自不同的分子,是生物学上的重复-每个read都应该计算在内
具有相同UMI的read源自相同的分子,在技术上是重复的-UMIs应折叠以计入单个read
在下图中,ACTB的read应折叠并计入单个read,而ARL1的read应分别计数
因此,我们知道需要跟踪UMIs,但是还需要什么其他信息来正确量化我们样本中每个细胞中每个基因的表达呢?无论采用哪种液滴方法,在细胞水平上进行适当的定量都需要以下条件:
Sample index(样本索引):确定read来自哪个样本(在库准备过程中添加—需要记录)
Cellular barcode:确定read来自哪个细胞(每种库制备方法都有在库制备过程中使用的细胞条形码的库)
UMI(唯一分子标识符):确定read来自哪个转录分子
Sequencing read1:Read1序列
Sequencing read2:Read2序列
例如,使用inDrops v3的文库制备方法时,下面表示如何在四次读取中获取所有信息:
R1 (61 bp Read 1):序列读取(上边的红色箭头)
R2 (8 bp Index Read 1 (i7)): 细胞条形码 — 读取细胞的来源(上边的紫色箭头)
R3 (8 bp Index Read 2 (i5)): 样本/库索引 — 读取样本的来源(下边红色箭头)
R4 (14 bp Read 2): read 2和剩余的细胞条形码和UMI — 读取转录本来源(下边紫色箭头)
对于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程类似,但它们之间对UMIs、细胞ID和样本索引的解析将有所不同。例如,下面是10x 序列读取的示意图,其中索引、UMIs和条形码的放置方式不同:
单细胞RNA-seq工作流程
scRNA-seq方法将确定如何从测序reads中解析barcodes和UMIs。因此,尽管有几个具体步骤会略有不同,但无论采用何种方法,整个工作流程通常都遵循相同的步骤。常规工作流程如下所示:
常规工作流程步骤是:
计数矩阵的生成(特定于方法的步骤,依方法的不同而有变化):格式化读取,分离样本,映射和量化
原始计数的质量控制:过滤质量差的细胞
过滤计数后的聚类:基于转录活性的相似性将细胞聚类(细胞类型=不同聚类)
标记鉴定:识别每个聚类的基因标记
可选的下游步骤
无论进行何种分析,基于每种条件的单个样本得出的关于总体的结论都不太可靠。仍然需要生物重复!也就是说,如果您要得出与总体相对应的结论,就不能仅仅是单个样本。
计数矩阵的生成
我们将首先讨论此工作流的第一部分,即从原始测序数据生成计数矩阵。我们将重点介绍基于液滴的方法所使用的3'端测序,如inDrops、10X Genomics和Drop-Seq。
测序后,测序工具将以BCL或FASTQ格式输出原始测序数据,或生成计数矩阵。如果读取的是BCL格式,则我们将需要转换为FASTQ格式。有一个有用的命令行工具bcl2fastq
,可以轻松地执行此转换。
注意:在工作流的此步骤,我们不进行样本分离。您可能已对6个样本进行了测序,但所有样本的读数可能全部存在于同一BCL或FASTQ文件中。
对于许多scRNA-seq方法,从原始测序数据到生成计数矩阵都将经历相似的步骤。
umis(https://github.com/vals/umis)和zUMIs(https://github.com/sdparekh/zUMIs)是估算转录本3'端测序的scRNA-seq数据表达的命令行工具。这两种工具都具有UMIs的去重功能,以校正偏差。此过程中的步骤包括:
格式化reads并过滤嘈杂的细胞条形码
分离样本
Mapping/pseudo-mapping到转录组
去重UMIs并量化reads
如果使用10X Genomics库制备方法,则上述所有步骤都将使用Cell Ranger管道(https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger)。
1. 格式化reads并过滤嘈杂的细胞条形码
FASTQ文件可用于解析cell barcodes, UMIs, and sample barcodes。对于基于液滴的方法,由于以下原因,许多cellular barcodes将匹配较低的reads次数(<1000 reads):
死亡细胞中游离RNA的包埋
表达很少基因的简单细胞(红细胞等)
由于某种原因而失败的细胞
在读取比对之前,需要从序列数据中过滤出这些多余的条形码。为了进行此过滤,提取并保存每个细胞的“细胞条形码”和“分子条形码”。例如,如果使用'UMIS’工具,信息将添加到每次读取的标题行,格式如下:
1@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
2AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
3+
4@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#
文库制备方法中使用的已知细胞条形码应该是已知的,未知的条形码将被丢弃,同时允许与已知细胞条形码有可接受数量的不匹配。
2. 分离样本reads
如果对多个样本进行测序,则该过程的下一步是对样本进行分离。这是这个过程中的一个步骤,不是由“UMIS”工具处理的,而是由“zUMI”完成的。我们需要解析reads以确定与每个细胞相关联的样本条形码。
3.Mapping/pseudo-mapping to cDNAs
为了确定read来自哪个基因,使用传统的(STAR)或轻量级方法(Kallisto/RapMap)对reads进行比对。
4. 去重UMIs并量化reads
重复的UMI被剔除,并且使用Kallisto或featureCounts之类的工具仅量化唯一的UMI。结果输出是一个按基因计数的细胞矩阵:
矩阵中的每个值代表细胞中源自相应基因的读取次数。使用计数矩阵,我们可以浏览和筛选数据,只保留质量较高的细胞。
注:以上内容来自哈佛大学生物信息中心(HBC)的教学团队的生物信息学培训课程。原文链接:https://hbctraining.github.io/scRNA-seq/schedule/