从原始数据到计数矩阵

2024-07-30 13:51:53

前文回顾

单细胞RNA-seq分析介绍
 单细胞RNA-seq的设计和方法

前言

根据所用文库制备方法的不同，获得的RNA序列(也称reads或tags)有3'(或5')端起始的转录本(10X Genomics, CEL-seq2, Drop-seq, inDrops)和全长转录本(Smart-seq)之分。

图片来源：Papalexi E和Satija R.探索免疫细胞异质性的单细胞RNA测序，《自然评论免疫学》 2018年（https://doi.org/10.1038/nri.2017.76）

感兴趣的问题关乎方法的选择，下面列出了这些方法的优点

3'（或5'）端测序：

通过使用独特的分子标识符进行更准确的定量，从而将生物学拷贝与扩增复制（PCR）进行区分
测序的细胞数量更多，可以更好地鉴定细胞类型群体
每个细胞成本便宜
超过10,000个细胞可获得最佳结果

全长测序

异构体水平表达差异的检测
等位基因表达差异的鉴定
少量细胞的深层测序
适合细胞数较少的样本

对于3'端测序和全长测序有许多相同的分析步骤，但是3'方案越来越流行，并且在分析中还包含一些其他步骤。因此，我们的材料将着重于基于液滴的方法（inDrops，Drop-seq，10X Genomics），详细介绍这3'方案的数据分析。

3'末端读取（包括所有基于液滴的方法）

了解每个reads中都包含哪些信息，以及我们如何在整个分析过程中使用它，对于scRNA-seq数据的分析是很有帮助的。

对于3'端测序方法，来自同一转录本的不同分子的reads将仅来自转录本的3’端，因此具有相同序列的可能性很高。然而，文库准备过程中的PCR步骤也可能产生读取副本。为了确定读数是生物学上的还是技术上的复制，这些方法使用唯一的分子标识符，即UMIs

不同UMI映射到同一转录本的read来自不同的分子，是生物学上的重复-每个read都应该计算在内
具有相同UMI的read源自相同的分子，在技术上是重复的-UMIs应折叠以计入单个read
在下图中，ACTB的read应折叠并计入单个read，而ARL1的read应分别计数

图片来源：由Macosko EZ等人修改。使用纳升微滴对细胞进行高度平行的全基因组表达谱分析，Cell 2015（https://doi.org/10.1016/j.cell.2015.05.002）

因此，我们知道需要跟踪UMIs，但是还需要什么其他信息来正确量化我们样本中每个细胞中每个基因的表达呢？无论采用哪种液滴方法，在细胞水平上进行适当的定量都需要以下条件：

Sample index(样本索引)：确定read来自哪个样本(在库准备过程中添加—需要记录)
Cellular barcode：确定read来自哪个细胞(每种库制备方法都有在库制备过程中使用的细胞条形码的库)
UMI(唯一分子标识符)：确定read来自哪个转录分子
Sequencing read1：Read1序列
Sequencing read2：Read2序列

例如，使用inDrops v3的文库制备方法时，下面表示如何在四次读取中获取所有信息：

R1 (61 bp Read 1):序列读取（上边的红色箭头）
R2 (8 bp Index Read 1 (i7)): 细胞条形码 — 读取细胞的来源（上边的紫色箭头）
R3 (8 bp Index Read 2 (i5)): 样本/库索引 — 读取样本的来源(下边红色箭头)
R4 (14 bp Read 2): read 2和剩余的细胞条形码和UMI — 读取转录本来源(下边紫色箭头)

对于不同的基于液滴的scRNA-seq方法，scRNA-seq的分析工作流程类似，但它们之间对UMIs、细胞ID和样本索引的解析将有所不同。例如，下面是10x 序列读取的示意图，其中索引、UMIs和条形码的放置方式不同：

图片来源:Sarah Boswell, Director of the Single Cell Sequencing Core at HMS

单细胞RNA-seq工作流程

scRNA-seq方法将确定如何从测序reads中解析barcodes和UMIs。因此，尽管有几个具体步骤会略有不同，但无论采用何种方法，整个工作流程通常都遵循相同的步骤。常规工作流程如下所示：

图片来源：Luecken, MD and Theis, FJ. Current best practices in single‐cell RNA‐seq analysis: a tutorial, Mol Syst Biol 2019 (doi: https://doi.org/10.15252/msb.20188746

常规工作流程步骤是：

计数矩阵的生成（特定于方法的步骤，依方法的不同而有变化）：格式化读取，分离样本，映射和量化
原始计数的质量控制：过滤质量差的细胞
过滤计数后的聚类：基于转录活性的相似性将细胞聚类（细胞类型=不同聚类）
标记鉴定：识别每个聚类的基因标记
可选的下游步骤

无论进行何种分析，基于每种条件的单个样本得出的关于总体的结论都不太可靠。仍然需要生物重复！也就是说，如果您要得出与总体相对应的结论，就不能仅仅是单个样本。

计数矩阵的生成

我们将首先讨论此工作流的第一部分，即从原始测序数据生成计数矩阵。我们将重点介绍基于液滴的方法所使用的3'端测序，如inDrops、10X Genomics和Drop-Seq。

测序后，测序工具将以BCL或FASTQ格式输出原始测序数据，或生成计数矩阵。如果读取的是BCL格式，则我们将需要转换为FASTQ格式。有一个有用的命令行工具bcl2fastq，可以轻松地执行此转换。

注意：在工作流的此步骤，我们不进行样本分离。您可能已对6个样本进行了测序，但所有样本的读数可能全部存在于同一BCL或FASTQ文件中。

对于许多scRNA-seq方法，从原始测序数据到生成计数矩阵都将经历相似的步骤。

umis(https://github.com/vals/umis)和zUMIs(https://github.com/sdparekh/zUMIs)是估算转录本3'端测序的scRNA-seq数据表达的命令行工具。这两种工具都具有UMIs的去重功能，以校正偏差。此过程中的步骤包括：

格式化reads并过滤嘈杂的细胞条形码
分离样本
Mapping/pseudo-mapping到转录组
去重UMIs并量化reads

如果使用10X Genomics库制备方法，则上述所有步骤都将使用Cell Ranger管道(https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger)。

1. 格式化reads并过滤嘈杂的细胞条形码

FASTQ文件可用于解析cell barcodes, UMIs, and sample barcodes。对于基于液滴的方法，由于以下原因，许多cellular barcodes将匹配较低的reads次数(<1000 reads)：

死亡细胞中游离RNA的包埋
表达很少基因的简单细胞(红细胞等)
由于某种原因而失败的细胞

在读取比对之前，需要从序列数据中过滤出这些多余的条形码。为了进行此过滤，提取并保存每个细胞的“细胞条形码”和“分子条形码”。例如，如果使用'UMIS’工具，信息将添加到每次读取的标题行，格式如下：

1@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT 2AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN 3+ 4@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文库制备方法中使用的已知细胞条形码应该是已知的，未知的条形码将被丢弃，同时允许与已知细胞条形码有可接受数量的不匹配。

2. 分离样本reads

如果对多个样本进行测序，则该过程的下一步是对样本进行分离。这是这个过程中的一个步骤，不是由“UMIS”工具处理的，而是由“zUMI”完成的。我们需要解析reads以确定与每个细胞相关联的样本条形码。

3.Mapping/pseudo-mapping to cDNAs

为了确定read来自哪个基因，使用传统的(STAR)或轻量级方法(Kallisto/RapMap)对reads进行比对。

4. 去重UMIs并量化reads

重复的UMI被剔除，并且使用Kallisto或featureCounts之类的工具仅量化唯一的UMI。结果输出是一个按基因计数的细胞矩阵：

图片来源：extracted from Lafzi et al. Tutorial: guidelines for the experimental design of single-cell RNA sequencing studies, Nature Protocols 2018 (https://doi.org/10.1038/s41596-018-0073-y)

矩阵中的每个值代表细胞中源自相应基因的读取次数。使用计数矩阵，我们可以浏览和筛选数据，只保留质量较高的细胞。

注：以上内容来自哈佛大学生物信息中心（HBC）的教学团队的生物信息学培训课程。原文链接：https://hbctraining.github.io/scRNA-seq/schedule/

综述 | 沃里克大学Charlotte Rich-Griffin等：单细胞转录组学：植物功能基因组学的高分辨率之路

编译:卡德加,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读植物功能是单个细胞在不同组织中协同作用的结果.RNA-seq测序技术和组织处理技术的进步使研究者能够捕获单细胞分辨率下的转录变化.单 ...
综述│TRENDS BIOTECHNOL：空间转录组揭示单细胞分辨率下的器官分子结构（国人佳作）

编译:微科盟刘娟,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读生物学和药理学研究的基础是揭示空间尺度的细胞异质性.组织功能和结构.与传统单分子或大数据组学方法不同,尖端的空间转录组学技 ...
仅3个单细胞测序样本纯分析也发6分！

Single-cell RNA sequencing of human kidney 人肾脏的单细胞测序一. 研究背景肾脏是在结构和功能高度复杂的器官,而其结构和功能的复杂性与其众多的细胞类型相关 ...
科研 | CURR OPIN BIOTECH：单细胞转录组学方法学和应用综述（1区IF：8.083）

编译:罗睺,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读单细胞RNA测序(scRNA-seq)是研究脑和中枢神经系统(CNS)中单个细胞转录组的一种有前途的方法.这项技术充当了神经科学,计算 ...
超长综述｜单细胞RNA测序研究动脉粥样硬化指南

编译:刘娟,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读单细胞水平的分子异质性研究技术加深了我们对包括动脉粥样硬化斑块在内的组织中细胞生物多样性的了解.现有的商业化系统能从成千上万个单细胞中 ...
科研 | Scientific Data：人肾脏单细胞RNA测序（国人作品）

编译:贤,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读肾脏是具有许多不同功能且高度复杂的器官,肾小球和肾小管是肾单位的重要组成部分:这些结构的功能复杂性可能与其不同的细胞类型有关.目前已有研 ...
仅3个单细胞测序样本怎么撑起6分的文章？

导语今天和大家分享的是2020年1月份发表在SCIENTIFIC DATA杂志上的一篇文章(IF=5.929)"Single-cell RNA sequencing of human ki ...
科研 | Genome Biology | 英国威康桑格研究所：scRNA-seq评估冷藏后人肺、脾和食道组织的稳定性

编译:不二,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读背景:人体细胞图谱是一项大型的国际合作项目,旨在绘制人体所有细胞类型.单细胞RNA测序可以生成高质量的数据,绘制此类图谱.但是,新鲜样 ...
Nat Comm| 可以实现无污染的高通量单细胞RNA测序技术Hydro-Seq助力循环肿瘤细胞的研究

推荐:江舜尧编译:美少女编辑:马莉美国密西根大学Euisik Yoon等学者于2019年5月15日在期刊 <Nature Communications> 上发表了<Hydr ...
矩阵乘积函数mmult进阶应用7：条件计数

小伙伴们,大家好.今天继续来说mmult在条件计数中的应用,还是来看两个例子. 1.计算晚点次数(抵达时间大于预计时间) 下图是一个时刻表,记录的是预计到达时间和实际到达时间.现在的问题是求出晚点的次 ...
矩阵乘积函数mmult应用6：条件计数

小伙伴们,大家好.现在是特殊时期,希望大家做好防护措施,尽量不外出,更不要聚集,在家也可以找一些事情做,比如看电视,或做一顿好吃的,再不行学一下excel .言归正传,今天来学习下mmult在条件计数 ...
如何使用解决方案选择矩阵？

当出现诸如客户不满意,市场份额下降,质量低下等问题时,你必须了解问题的根本原因.根本原因分析是使公司能够做出正确更改以防止故障反复发生的重要步骤,有3种处理重复出现的问题的方法,我们可以: 1.别理他 ...
矩阵互动！2021年世茂品牌广告！

2999元中国尊中国顶尖极端资料智库购买之日起算一年半 18月超长长长长长服务期并送前面40个月中国尊大案惊天300兆矩阵互动世茂品牌长三角 2020+2021新媒体推广方案极致 ...
什么是教练技术？131页五维教练领导力手册，五维教练领导力矩阵

五维教练领导力手册目录 1.什么是教练技术 2.五维教练领导力矩阵领导者没有做,不能做事的时候,除了目标不明确,重要的是在面对现实的时候缺乏内在的动力.在面对困难和障碍的时候,领导者情绪和动力会下 ...
2021年3月\图学习\综述论文，19页pdf概述图信号处理、矩阵分解、随机游走和深度学习算法

点击上方蓝字关注我们声明:本文转自专知微信公众号图是连接数据网络结构的一种常用表示形式.图数据可以在广泛的应用领域中找到,如社会系统.生态系统.生物网络.知识图谱和信息系统.随着人工智能技术的不 ...
太傻呼吸计数

注意力锻炼有很多的方式,最简单实用且有你说的灵性进展测量功能的,肯定是这个"太傻呼吸计数"的锻炼了. 这个锻炼很简单,清空思想,在当下与太傻同在的状态下,在冥想状态中,结合呼吸观 ...
国六PM传感器CAN通信报文矩阵

PM传感器通信CAN报文矩阵详细教学 1.传感器发送18FF0055 250Kb 1000ms 扩展帧Bit7Bit6Bit5Bit4Bit3Bit2Bit1Bit0Byte0Byte1Byte2By ...
十种排序算法总结（冒泡、插入、选择、希尔、归并、堆、快速，计数，桶，基数）

#include<iostream> using namespace std; void swap1( int *left, int *right) { int temp = ...