单细胞综合分析新方法—LIGER
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
文献速递栏目通过简短介绍,扩充知识面,每天关注,希望你也能有所收获!
摘要
这篇文章主要是开发了一种叫做LIGER的算法,这个算法可以灵活快速定义细胞类型。并在四个不容易分析的人鼠脑细胞实验中测试了该算法的实用性。
最后,我们将小鼠皮质scRNA-seq谱与单细胞DNA甲基化特征整合,揭示了细胞类型特异性基因调控的机制。使用LIGER算法的整合分析有望加速细胞类型定义,基因调控和疾病状态的单细胞研究。
LIGER算法简介
可以做的事:将单细胞数据集与共享和数据集特定因子进行比较和对比
思路:从多组输入的数据中挑出一组共同的潜在因子,这些因子代表了每个数据集中相同的生物“信号”,但同时也保留了数据集的差异。为的是用这些因子联合识别细胞类型,以及识别和保留细胞类型特异性的差异。
做法:LIGER首先采用综合非负矩阵分解(iNMF)来学习低维空间,获得一组特异因子,然后采用根据因子的maximum factor loading 构建邻域图从而达到降维的目的。
优点:可以同时评估同一个数据集中不同细胞集的区别,以及不同数据集中可能是相同细胞类型的异同。比seurat中的CCA的效果好一丢丢,在数据集之间相似内容越少的时候,LIGER对细胞的聚类分型敏感性越高。
LIGER工作流程(这个是重点)
数据集预处理以生成原始数字基因表达(DGE)矩阵。
可变基因选择(Saunders等,2018)(https://www.biorxiv.org/content/10.1101/459891v1.full#ref-57),通过UMI的数量标准化,以及个体基因的比例。我们缩放但不以基因表达为中心,因为NMF需要非负值。
通过综合非负矩阵分解(iNMF)识别共享和数据集特定因子。
联合聚类细胞和归一化因子载荷。
使用t-SNE或UMAP进行可视化并分析共享和数据集特异性标记基因。
LIGER is freely available as an R package: https://github.com/MacoskoLab/liger
具体用于测试LIGER的实验
实验一:分析小鼠的bed nucleus of the stria terminalis (BNST)区域的单细胞数据
1.用10x Chromium V3获取测序数据,分析了204,737个在BNST的nuclei,初始聚类鉴定出29,547个神经元,其中60.3%是位于BNST区域的,对BNST区域的神经元聚类分析,分了28个群
2.通过LIGER发现了Vipr2的特异表达的集群,Vipr2是涉及昼夜节律维持和雄性生殖的基因,所以新发现的ovBNST细胞类型可能具有特异的作用。
3.数据分析:用LIGER分析以鉴定神经元,然后将随后的分析限制在神经元细胞中,进行了LIGER第二轮分析。然后为了证明差异基因在性别上游显著差异,进行了bootstrapping procedure(比较复杂的过程,建议自行查看原文~)
实验二:整合分析不同时期死亡的人类样本中黑质中的基因表达
1.用10x Chromium V2测量了来自7个个体的黑质(SN)中的43,474个细胞核,确定了24个簇。
2.比较了每个个体组织供体中不同细胞的状态,并将细胞类型与小鼠中的细胞类型相关联。
3.数据分析:LIGER同样进行了两轮聚类,首先鉴定了主要细胞类型(神经元,内皮细胞,星形胶质细胞,少突胶质细胞和小胶质细胞)然后再次聚类每种细胞类型,以确定这些类别中的其他亚结构。而跨物种分析,则使用Jackson Laboratories注释, 然后使用LIGER分别整合每个广泛的细胞类别,强调使用的是两个数据集特定的因子矩阵(每个物种一个)。至于鉴定具有跨物种保守表达的GOtrem,作者们使用GOrilla(默认设置)进行GO富集分析和并用ReviGO总结和可视化结果。
实验三:整合scRNA-seq和In Situ转录组数据来定位前额叶皮质细胞类型
1.使用到了两个数据集,用Drop-seq检测的额叶皮质scRNA-seq数据和STARmap生成的同一组织的原位空间转录组数据。细胞数量分别是71,000 scRNA-seq对2500 STARmap。
2.联合分析得到的细胞亚型的分类与小鼠额叶皮层空间定位存在紧密关联。
3.数据分析:使用LIGER进行了两个级别的分析,首先共同鉴定广泛的细胞类别,然后对兴奋性神经元,抑制性神经元和神经胶质进行第二轮LIGER分析。
实验四:LIGER使用单细胞转录组和单细胞DNA甲基化谱定义细胞类型
1.使用两个数据集:Drop-seq测了58330细胞的基因表达+ 3,378细胞的genome-wide DNA甲基化
2.与已经报道的整合结果进行比较,揭示了细胞类型特异性基因调控的机制
3.数据分析:通过使用公布的簇分别对甲基化和RNA数据进行Kruskal-Wallis检验来选择基因,然后取得前8000个RNA和甲基化标记的交集。使用methylpy Python软件包计算甲基化数据原始分析中鉴定的差异甲基化区域的甲基化水平,使用FIMO(默认设置)进行转录因子结合分析, binding motifs用的是最新版本的非冗余JASPAR数据库中的数据,用annotate R包注释DMRs。
总结
LIGER首先可以通过非负性约束(即,metagene表达水平从不为负)产生可解释的因子,使得每个因子通常对应于生物学上有意义的信号,定义特定细胞类型的基因集合;然后可以识别在空间位置具有差异的细胞集群;最后凭借对共享和数据集特定因素的推断,可以更加透明和细致的定义细胞。总之就是能更加准确稳定的结合多组数据对细胞进行分类
临床意义
可用于鉴定疾病相关的细胞状态、表观基因组和转录组数据集的整合分析等