综述 | 沃里克大学Charlotte Rich-Griffin等:单细胞转录组学:植物功能基因组学的高分辨率之路
编译:卡德加,编辑:十九、江舜尧。
原创微文,欢迎转发转载。
论文ID
原名:Single-Cell Transcriptomics: A High-Resolution Avenue for Plant Functional Genomics
译名:单细胞转录组学:植物功能基因组学的高分辨率之路
期刊:Trends in Plant Science
IF:14.006
发表时间:2019.10
通讯作者:Patrick Schafer
通讯作者单位:沃里克大学生命科学学院
DOI号:doi.org/10.1016/j.tplants.2019.10.008
综述内容
单细胞测序的进展
复杂器官和有机体的功能是不同细胞类型及其特定功能协同作用的结果。因此,要完全理解和识别复杂组织中最关键的细胞过程,需要在细胞类型甚至单细胞水平上捕捉变化(图1A)。细胞类型特异性转录组学的进展是朝着这个方向迈出的重要的第一步,这有助于揭示参与植物发育和胁迫适应的基本细胞活动。基于微流体技术(microfluidics)的单细胞RNA-seq (scRNA-seq)方法的最新进展,使研究者有了一个独特的机会来研究任何特定生物体中细胞分辨率的转录变化。在以动物为基础的研究中,scRNA-seq对细胞研究产生了革命性的影响。除了有助于发现新的细胞类型,它还能辅助研究细胞基因网络调控的随机原则和转录组变化的轨迹,以及细胞命运的选择和器官功能的潜在轨迹。
作为一种新技术,到目前为止,它基本上只应用于动物/人体组织,scRNA-seq在植物科学各个方面的真正潜力才刚刚开始被认识到。在这篇综述中,研究者强调了植物中与scRNA-seq技术相关的机遇与挑战。这篇综述的范围是关注基于水滴(droplet-based)的方法,主要是Drop-seq和10X平台,因为这些方法已经应用于植物研究。研究者基于植物研究介绍了scRNA-seq方法的技术原理,解释了scRNA-seq系统是如何运作的,并概述了标准的分析工作流程,包括对scRNA-seq数据的基本统计分析。
分析细胞特异性信号网络的常用技术
在基于液滴的scRNA-seq出现之前,单细胞分析依赖于使用激光显微解剖(LMD)或流式细胞术(FACS)原位解剖单个细胞。LMD的缺点是通量太低,一次捕获4-40个细胞,并且在技术上具有挑战性。基于FACS流式细胞术的方法,通过使用荧光标记线来分离特定的细胞群,促进了研究者对细胞类型或组织水平上的基因网络的理解。Birnbaum等人将流式细胞仪与微阵列相结合,绘制出了拟南芥根的第一个基因表达图谱,包括5种细胞类型和3个发育区域。与随后的高分辨率研究一起,它揭示了每种细胞类型的特定转录特征。利用类似的方法,进一步研究细胞对盐胁迫、缺铁、缺氮、pH值变化和免疫的特异性反应,揭示了每种细胞类型中不同的应激基因网络的激活流程。虽然流式细胞仪对根组织的研究提供了重要的见解,但它对荧光标记系的依赖限制了它在模型植物中已知细胞类型谱系研究中的应用(主要为拟南芥)。
Drop-seq是第一个使用微流体结合条形码系统来实现单细胞转录组的并行高通量测序的单细胞技术。这一开创性的新方法已经改变了哺乳动物研究中的单细胞分析,并开始应用于植物研究。
在植物研究中,利用细胞壁处理组织一直是单细胞技术应用的一个挑战,通常会导致较低的细胞捕获率。目前,基于液滴的单细胞测序方法产生的转录组分辨率仍相对较低(每个细胞约10000条reads), 因此,从单细胞分析中获得的信息可能仅限于高表达基因。然而,最新的单细胞技术(如10X平台)结合高效的细胞裂解技术,提高了捕获效率和基因检测效率,从而提高了无组织特性情况下单细胞分析的分辨率。有一系列基于液滴的scRNA-seq方法,包括inDrop、Drop-seq和10X。所有这些方法都使用相同的原理,即微流体被用来封装单个细胞和条形码到亚纳米级液滴中,并在亚纳米级液滴中发生细胞裂解和条形码标注。不同的技术在细胞捕获、效率、双重态率(doublet rate)和成本方面存在差异,应基于不同的实验选择合适的平台。一般来说,inDrop和10X具有更高的捕获率,适用于可用组织较少的实验。此外,10X具有最高的敏感度,因此适用于检测低表达的转录本。Drop-seq是最经济有效的方法,但具有较低的捕获率和灵敏度。
图1利用微流控技术生成单细胞转录组数据。
A:复杂的组织被分解成单个细胞;
B:微粒颗粒覆盖着DNA探针用于捕获mRNA分子,并将细胞的条形码引入cDNA。探针包括一个PCR手柄,一个珠子上的所有探针共用的细胞条形码,用于除去PCR重复的唯一分子标识符(UMIs)和poly-dT序列;
C: 单个细胞与条形码珠和裂解缓冲液一起封装在液滴中;
D: 细胞在液滴中溶解;
E:逆转录产生的cDNA分子被杂交到珠子上的探针;
F:cDNA测序产生了一个包含数千个独立细胞的转录组文库;
G:软件计算每个基因和每个细胞的唯一序列,以产生一个数字基因表达(DGE)矩阵。
除了基于droplet的方法之外,还有一些基于孔板(well-based)的scRNA-seq方法,比如SMART-seq2。SMART-seq2技术要求细胞被分选(通常使用FACS)到一个板上的单个孔中,每个细胞被分别处理以进行排序。SMART-seq2的优点是明显更高的捕获率和全长转录本测序,以及以捕获更少的细胞为代价的更低的技术噪音(实验人员能够处理的板数限制)。SMART-seq2在所有scRNA-seq方法中灵敏度最高(超过10X),是检测低表达转录本的最佳选择。与基于液滴的方法一样,基于孔板的scRNA-seq并没有在植物中得到广泛应用,但它特别适合在组织产量较低的小器官或罕见组织上进行实验。
scRNA-seq在植物中的应用
对于植物而言,单细胞实验需要在收集有代表性的(无偏好)细胞池之前,通过酶消化除去细胞壁获得原生质体。除非特异考虑解离过程,细胞壁组成的差异(由于木质化或亚化程度)和细胞层在组织中的位置可能导致细胞文件(cell files)的不完全解离,导致细胞收获结果的偏差。此外,对于导入到单细胞系统的原生质体的再悬浮必须考虑再悬浮缓冲液的性质:(i)粘度和结晶的可能性;(ii)相容性(例如含Ca2+的细胞悬浮缓冲液会导致Drop-seq裂解缓冲液的沉淀);(iii)渗透压能在不引起转录组改变的情况下维持细胞的活力。例如,乳糖具有类似于蔗糖的渗透特性,而蔗糖能被植物细胞感知并调节与能量有关的信号传递过程的转录。一旦在悬浮液中捕获了感兴趣的细胞,这些细胞就被加载到基于液滴的scRNA-seq设备上,以便使用带条形码的珠子(barcoded beads)进行标记(图1B)。
Drop-seq方法将单个细胞封装在液滴中,并使用附加在微粒珠子上的独特的原始条形码系统来识别细胞来源和每个转录本的唯一分子标识符(unique molecular identifier, UMI)(图1B)。UMIs的使用确保了每个mRNA分子的单独标记,并允许PCR重复的识别。Bead-primer- mRNA复合物被称为附着在微粒上的单细胞转录组(single-cell transcriptomes attached to microparticles, STAMPs)。在微流体装置中,水的流动包含悬浮细胞,条形码珠子包含在裂解缓冲液的单独流中。这两股水流汇集在一起并通过一个油通道,形成一个小水滴(droplet)(图1C)。一旦被封装在液滴中,细胞立即被溶解,释放RNA与珠表面的引物结合,在那里它被反向转录成cDNA,生成包含数千个单细胞条形码cDNA的综合文库。(图1D-F)。测序后,这些文库被量化为每个基因和每个细胞条形码基于read count计数的数字基因表达(DGE)矩阵(图1G和2A)。
一般来说,液滴的数量比样品中细胞的数量要多得多,因此大多数条形码来自没有细胞(称为“空条形码”)或一个细胞的液滴。然而,不完全的组织原生质体可以产生含有两个或两个以上细胞的液滴(doublets,双重态)。识别空条形码和双重态是数据分析过程中的关键挑战,关键的第一步是定义空条形码和非空条形码之间的(近似)分界点。为了做出这个估计,一般使用累积分布图和条形码等级图(barcode rank plot)。这两种图的目的均是根据read count的分布来确定分界点。首先,按降序排列的每个单元条形码的累计读取次数的累积分布图应该显示一个“knee”,表示从STAMPs到背景噪声的过渡。对于条形码等级图,单元条形码也按读计数降序排列,而条形码等级则按两个轴上的对数刻度绘制,这将呈现一个反S曲线,其中drop表示STAMPs和背景分离。虽然这些图可以支持决定将哪些细胞纳入下游分析,但它们的质量和可解释性取决于所用的设备、测序深度和组织类型。因此,不清楚的条形码等级或累积分布图并不一定表示实验失败,在边界情况下,建议进一步研究数据的特征(如基因count、UMI计数),以便更深入地了解数据质量。
下一步是消除技术和生物变异的进一步来源,如空条形码(未被初始过滤捕获)、双重态和损坏的单元格(低质量单元格)。基因和UMIs的数量分布以及线粒体和质体RNA在细胞中的百分比分布可以被可视化为分布图,以确定适当的阈值进行过滤(图2B)。图中的离群点可以代表分裂的细胞,也可以代表双重态。具有较低UMI和基因计数的条形码(与数据库中条形码计数的总体分布相比,后者依赖于平台和测序深度)同时具有较高百分比的线粒体读数(>10%)表明来自穿孔细胞的细胞质RNA丢失。显示这些特征的细胞可能被破坏,应该从下游分析中移除。
目前的最佳做法是最初应用宽松的质量控制阈值(图2B),如果下游分析中出现明显的污染,可以重新考虑该阈值,例如这些质量控制指标之一驱动聚类结果中的差异。
图2 单细胞转录组数据中细胞类型识别分析的工作流程。
A:原始数据组织在数字基因表达(DGE)矩阵中。每一行对应一个基因,每一列对应一个细胞;
B:通过对基因数量、unique reads的数量和线粒体读数百分比进行阈值处理,对细胞条形码进行过滤,从而减少单个液滴中多个细胞、含有破碎细胞的液滴或不含环境mRNA的液滴的细胞条形码数量;
C:可变基因的选择;
D:常用的使用PCA主成分降维分析;
E:对数据进行聚类以揭示生物学上重要的细胞分组(如细胞类型)。
F:利用t分布随机邻域嵌入(tSNE)或UMAP实现数据可视化。每个点对应一个细胞,具有相似转录组的细胞相互靠近。颜色对应集群身份;
G:使用热图对聚类质量进行评估,热图显示每个聚类的标记基因。具有清晰块结构的热图表明聚类质量良好。
基于降维和聚类方法的细胞类型识别
提取出稳定性和高质量的细胞后,可以进而分析数据集的生物学特征。目前,所有来自植物的scRNA-seq数据集都来源于10X Genomics或Drop-seq平台的根组织。由许多不同细胞类型组成的复杂结构使根成为单细胞转录组研究的理想植物组织。当前所有的根scRNA-seq研究都使用类似的分析流程,简单地说,利用高变率基因(HVGs)进行PCA主成分分析和t分布随机邻域嵌入(t-distributed Stochastic Neighbourhood Embedding, tSNE)或UMAP(Uniform Manifold Approxiamtion and Projection)来可视化数据结构(图2C,D)。诸如tSNE和UMAP等可视化技术已经被开发出来,用于分析和可视化复杂的高维数据,如scRNA-seq的read count(图2E,F)。
scRNA-seq的分析流程仅使用基于平均表达量和分布的最可变基因(most variable genes)来优先考虑细胞特异性表达模式(图2C)。HVGs的特征是在一些细胞中高表达,而在另一些细胞中低表达,这可能是细胞亚群之间差异的驱动因素。通常,HVGs的最佳数量介于1000和5000之间,这取决于数据集的复杂性。在使用tSNE或UMAP之前,使用PCA进一步将数据集的复杂性降低到更少的PCA维度(图2F显示了一个tSNE可视化的例子),以识别具有相似转录特征的细胞子集。tSNE或UMAP采用数据集的高维表示,并计算保留底层结构的二维表示,在tSNE或UMAP图中,转录状态相似的细胞通常是紧邻的。聚类算法(如k-means或基于图的方法)应用于数据,以识别生物学上重要的组,通常对应于细胞类型。显示在tSNE或着色细胞的UMAP可视化可以作为聚类质量的一个指标:如果聚类结果定义良好,并且颜色标识与空间布局匹配,那么聚类可能反映了底层的生物学特性。与前面的步骤一样,tSNE和UMAP可以敏感于它们的参数(特别是tSNE的perplexity参数),这些参数需要针对每个数据集进行优化。这些降维和聚类的数据(例如使用层次聚类或基于图的聚类)可以提供对数据结构的更好理解,在这些数据结构上可以研究生物表达模式(图2G)。此外,它可以帮助识别经常被识别为细胞类型的相似细胞群。分析需要进行许多参数设置。最佳参数设置依赖于单独的数据集,对一个参数的更改会影响另一个参数的最佳选择(图3)。
图3 通用分析流程中的关键点。由于最佳参数的选择不仅取决于分析的数据,而且是相互依赖的,所以在得出最终结论之前,通常要对一系列参数设置的组合重复多次分析。
结果表明,将scRNA-seq技术应用到拟南芥的根中,从数据中可以很容易地识别出细胞类型。具体来看,与周鞘细胞、韧皮部筛管元件和不同的表皮亚层相对应的聚类簇被识别,甚至发现了非常小的细胞群,如静止中心(QC)细胞。这表明植物/根scRNA-seq分析可以作为跳板来研究稀有细胞类型中的基因网络组织,并有助于进一步帮助理解植物生命的基本过程,如干细胞龛在细胞命运决定中的作用,根模式或者根寿命。然而,考虑到这些被捕获的细胞群如此之小,必须确保足够的统计严谨性。
scRNA-seq在植物科学中的应用潜力
基本上,组织的功能是由其组成细胞类型的特定功能来定义的。在动物系统中,scRNA-seq不仅能在复杂组织的背景下检查单个细胞类型,而且还能识别新的细胞类型和细胞状态,这使研究者对复杂组织中的基因表达动态以及在不同生理条件下(如健康组织与病变/癌变组织)的变化有了前所未有的认识。随着单细胞技术的进步,新的生物信息学方法不断出现,以研究更复杂的基因调控原理(如转录噪声和RNA速度,RNA velocity)。这种对scRNA-seq研究的热情为开发人类细胞图谱(human cell atlas)铺平了道路,该图谱旨在创建“每种细胞类型的ID卡”和“不同细胞类型如何形成组织的3D地图”。
如上所述,最近的研究已经证明scRNA-seq不仅能用于动物系统,在植物体系中同样可以有广泛的应用。通过将聚类分析和伪时间方法相结合,从scRNA-seq数据中定义基因网络,可以识别涉及根细胞谱系分化的细胞类型特异性基因表达谱,从而描述整个组织的发育轨迹。scRNA-seq对缺乏明确细胞系的拟南芥突变体(如内胚层、成毛细胞或成纤维细胞)的研究显示,单细胞转录组发生了改变,这与细胞类型簇的整体模式变化有关,这进一步强调了scRNA-seq是一种解释突变体、植物种质或自然植物种群表型的新资源的新方法。
除了广泛研究大组织,如整个根组织等,高通量scRNA-seq可以用于检查特定的组织部分或发育区域,如在根尖的根分生组织(干细胞龛)。与成熟的根不同,由于合适的荧光标记物有限,FACS方法不太适合根尖研究,在细胞文件中捕获细胞状态和处理在组织中只构成很小比例的细胞类型(如干细胞龛中的QC)也很困难。基于液滴技术的scRNA-seq中在进行低表达基因检测,罕见细胞群的检测难度将大幅增加,因为如果一个标记低表达,它在单个细胞中被检测到的几率很低。
要注意的是,跨实验数据整合是一个挑战,因为不同的细胞分离流程、文库构建、测序平台以及跨平台间的差异都会带来实验结果的偏差。各种计算方法,如相互近邻法(mutual nearest neighbours, MNN)、k近邻批量效应检验(k-nearest batch-effect test, kBET)和典型相关分析(canonical correlation analysis, CCA),正在被开发和应用,以支持多数据集的集成。此外,Seurat v3能够通过跨数据集标识“锚”单元格或通过使用参考数据集来集成多模态数据(multimodal data)。
scRNA-seq可以进一步帮助我们理解倍性的功能意义。随着根细胞的发育和成熟,它们经历了一个几乎是植物独有的过程:根细胞改变它们的倍性。这一过程是由内重复(没有有丝分裂的细胞周期)和细胞倍性随着细胞的发育而增加驱动的。作为无柄生物,植物暴露在极端和波动的环境条件下,倍性被认为是通过增加细胞和基因组的稳定性来支持抗逆性。与此相一致的是,随着细胞年龄的增长,细胞对压力的反应能力也会发生变化。有趣的是,一旦根干细胞开始分化,细胞就失去了再生的能力。细胞类型特异性微阵列和RNA-seq的研究结果进一步表明,细胞身份在应对环境压力时起着重要作用。为了研究不同生长阶段的不同细胞类型之间的应激反应差异,单细胞研究将特别有用。
总结与未来展望
通过增强时空分辨率,scRNA-seq使研究者几乎可以解剖和仔细检查整个生物体。然而,要获得关于单细胞中基因调控网络组织的更详细的见解,需要进一步的改进,例如在单细胞标记、标签、mRNA捕获以及生物信息学分析的发展方面,以减少技术噪音的干扰。进一步的技术发展正在增加单细胞测序的范围和分辨率,如利用单细胞水平上的测序(ATAC-seq)对转座酶可达染色质进行分析,可获得包含在scRNA-seq数据中观察到的转录组模式下的调控代码的DNA区域。此外,将scRNA-seq数据与成像技术相结合,可以实现组织中细胞类型和细胞状态的时空重建。这项技术的前景,尤其是与细胞表观遗传学(例如基于scATAC -seq)、多组学方法、高分辨率成像和时空分辨细胞工程相结合的技术,是为了描述“微过程”在变化环境下复杂组织的发育和行为中的协同作用。这些努力将对未来的发展提供很好的基础,如建立一个植物细胞地图集(plant cell atlas)来深入了解细胞功能之间的交互影响,细胞如何在一个复杂的系统创建一个器官,以及细胞网络对病原体或环境变化的反应。除了促进基础研究之外,一份全面的植物细胞图谱将成为基础研究的基本框架,旨在持续提高农业生态系统的生产力和价值。
更多推荐
1 科研 | 基于转录组和调控网络分析揭示了石斛降血糖作用及其机制(国人二区作品)