什么,你想要的单细胞亚群比例太少了?
本专辑将会系统性介绍单细胞图谱研究的标准数据分析思路,前面提到了:肿瘤样品的单细胞需要提取上皮细胞继续细分,眼尖的小伙伴们发现了一个问题, 就是它这个肝癌数据集里面的fibroblasts等细胞亚群占比非常少,如果真的要每个细胞亚群都继续细分, 对比例少的细胞分析起来会有误差。
我们再回顾一下这个发表于2020的文章,标题 是:《Single-cell transcriptomic architecture and intercellular crosstalk of human intrahepatic cholangiocarcinoma》,数据集在;https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE138709
文章里面确实提到了:The 498 fibroblasts in our unselected viable strategy of scRNA-seq analyses (Dataset 1) accounted for only 1.59% of all viable cells:
这个文章直接展示了第二层次分群,一般来说背诵下面的基因即可:
# T Cells (CD3D, CD3E, CD8A),
# B cells (CD19, CD79A, MS4A1 [CD20]),
# Plasma cells (IGHG1, MZB1, SDC1, CD79A),
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),
# Photoreceptor cells (RCVRN),
# Fibroblasts (FGF7, MME),
# Endothelial cells (PECAM1, VWF).
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
# immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM),
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
library(ggplot2)
genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A',
'CD19', 'CD79A', 'MS4A1' ,
'IGHG1', 'MZB1', 'SDC1',
'CD68', 'CD163', 'CD14',
'TPSAB1' , 'TPSB2', # mast cells,
'RCVRN','FPR1' , 'ITGAM' ,
'C1QA', 'C1QB', # mac
'S100A9', 'S100A8', 'MMP19',# monocyte
'LAMP3', 'IDO1','IDO2',## DC3
'CD1E','CD1C', # DC2
'KLRB1','NCR1', # NK
'FGF7','MME', 'ACTA2', ## fibo
'DCN', 'LUM', 'GSN' , ## mouse PDAC fibo
'Amy1' , 'Amy2a2', # Acinar_cells
'PECAM1', 'VWF', ## endo
'EPCAM' , 'KRT19', 'PROM1', 'ALDH1A1' )
单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。
如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
Cancer-associated fibroblasts (CAFs) 细胞比例太少了
可以看到,就这么一点Cancer-associated fibroblasts (CAFs) ,但是它又是我们的研究目标!
而且目前呢,学界对CAFs的来源本来就是并不那么清晰,理论上不可能存的单一的标记基因来区分出来CAFs。通常CAFs有4种来源:
The primary source is normal local fibroblasts, which are activated by stimuli from the tumor microenvironment. Mesenchymal stem cells (MSCs) and other mesenchymal precursor cells are other sources. Endothelial cells and epithelial cells do not belong to the fibroblast lineage, but they could transdifferentiate into CAFs-state cells. Finally, a self-renewable CAFs-stem cell population might exist in the hierarchical organization, and these cells share similar characteristics as MSCs.
如果要筛选CAFs,首先要去除4个基因表达量为阳性的细胞亚群 :
CD31 (an endothelial marker) CD45 (a hematopoietic cell marker), desmin (a smooth muscle cell marker), EPCAM (epithelial cell adhesion molecule, an epithelial cell marker).
重新设计实验,如下所示,这样CAFs就勉强变多啦:
众所周知,目前单细胞样品费用还居高不下,一个10x的建库加上测序起码两万五,如果做十几个甚至几十个才能获取到足够量的目标细胞亚群,就得不偿失了。那么,设计合理的实验策略来富集目标细胞就是一个很好的选择。
实验富集到的Cancer-associated fibroblasts (CAFs) 跟我们自己从单细胞数据集里面挑选的Cancer-associated fibroblasts (CAFs) ,后续分析是一模一样的。而且完全可以参考 :肿瘤样品的单细胞需要提取上皮细胞继续细分,各个细分亚群找到特异性标记基因,特异性激活的基因集,特异性的转录因子等等。
因为10x单细胞转录组成本摆在那里,参考我们的《明码标价》专栏里面的单细胞内容