细胞亚群为什么一定要有清晰可见的界限
太多小伙伴在各种交流群问到他自己的单细胞转录组数据在降维聚类分群的时候,发现很多生物学亚群会出现一定程度的交叉,导致结果并不是那么理想。可能是因为大家入门的时候都是跟着seurat的标准流程:https://satijalab.org/seurat/archive/v3.0/visualization_vignette.html
其实在自己的真实数据里面得到这样的交叉结果并不奇怪,需要分类讨论,因为生命科学领域的绝大部分概念都不是那么的纯粹,比如我们定义细胞亚群,就有肿瘤单细胞数据第一次分群通用规则,按照 :
immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
这3大亚群都有自己的标记基因,按照道理呢,应该是有清晰可见的分界线,但很多情况下你都会发现本来应该是上皮细胞的那个亚群居然会高表达一些免疫细胞的标记基因。
更别说各个免疫细胞的细分亚群了,本来很多亚群就说不清楚到底是细胞类型的不同还是细胞状态的不同。我们以2018发表在杂志的文章:《Single-cell gene expression reveals a landscape of regulatory T cell phenotypes shaped by the TCR》为例,链接是;https://www.nature.com/articles/s41590-018-0051-0
研究者首先挑选到两种截然不同的CD4阳性的T细胞亚群
如下所示的实验策略:
理论上,高表达FOXP3基因的Treg细胞跟传统的CD4阳性的T细胞亚群应该是泾渭分明,而且从FOXP3基因表达量也可以看出来。
但是,这两个不同细胞亚群各自独立建库测序,拿到了单细胞转录组数据后,进行统一的降维聚类分群,结果发现,它们居然是有交叉的!
而且呢,这个交叉程度并不低哦,可以看的,区域E主要是Tconv,而区域A,B,C,D是细分成为了不同亚群的Treg细胞。
这个时候研究者重点关注了为什么部分高表达FOXP3基因的Treg细胞会在聚类分群的时候落入传统的CD4阳性的T细胞亚群的地盘。所以把Treg细胞区分成为了在区域E和不在区域E的,然后进行细致的差异分析!
指定细胞亚群的差异分析
既然Treg细胞区分成为了在区域E和不在区域E的,所以它们可以进行差异分析,就是图F这个火山图。
当然了,Treg细胞跟传统的CD4阳性的T细胞亚群当然也是可以进行差异分析的,所以就有了图d的火山图。
前面其实划分了A,B,C,D,E这5个区域,其实Treg和Tconv都是在5个区域都有,所以如果是纯粹的两两组合差异分析,那么这样的火山图可以有45个。当然了,绝大部分都是纯粹的分析,很难靠近生物学意义或者说生物学故事啦!
有意思的是这两个火山图,居然都是倒着的,可能是作者想标新立异?
其实混杂才是常态
质控降维聚类分群后,同一个亚群的细胞想在空间上完全接近是不可能的,它们只能是保证大范围的接近,因为决定它们细胞之间距离的因素太多了,从最开始挑选多少个高变基因进入下游分析,以及中间挑选多少个主成分,后期分群的分辨率,以及每个步骤的算法的选择,都是干扰因素。
但是这样的混杂并不妨碍我们进行后续分析,比如这篇文章的研究者就继续探索那些始终在高表达FOXP3基因的Treg细胞对比传统的CD4阳性的T细胞亚群的稳定的差异表达基因;
这幅图:identified a small gene set (Il2ra, Il2rb, Ikzf2, Ctla4, Capg, Tnfrsf4, Tnfrsf18, Izumo1r, Chchd10, Gpr83 and ex officio Foxp3) that was overexpressed by all Tregs irrespective of their location on the tSNE plot (Fig. 2k).
号外:今晚单细胞公开课
如果想要有更好的听课体验,需要提前看一下单细胞数据分析的基础10讲:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
本次公开课时间为:5月5号晚上八点,不见不散!话不多说,赶紧下载钉钉软件搜索 “单细胞2021公开课”群的钉钉群号:35936686,加入吧!无需集赞,不玩虚的!