什么,你想要的单细胞亚群比例太少了?

本专辑将会系统性介绍单细胞图谱研究的标准数据分析思路,前面提到了:肿瘤样品的单细胞需要提取上皮细胞继续细分,眼尖的小伙伴们发现了一个问题, 就是它这个肝癌数据集里面的fibroblasts等细胞亚群占比非常少,如果真的要每个细胞亚群都继续细分, 对比例少的细胞分析起来会有误差。

我们再回顾一下这个发表于2020的文章,标题 是:《Single-cell transcriptomic architecture and intercellular crosstalk of human intrahepatic cholangiocarcinoma》,数据集在;https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE138709

文章里面确实提到了:The 498 fibroblasts in our unselected viable strategy of scRNA-seq analyses (Dataset 1) accounted for only 1.59% of all viable cells:

第一层次降维聚类分群

这个文章直接展示了第二层次分群,一般来说背诵下面的基因即可:

# T Cells (CD3D, CD3E, CD8A), 
# B cells (CD19, CD79A, MS4A1 [CD20]), 
# Plasma cells (IGHG1, MZB1, SDC1, CD79A), 
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),  
# Photoreceptor cells (RCVRN), 
# Fibroblasts (FGF7, MME), 
# Endothelial cells (PECAM1, VWF). 
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
#   immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), 
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)

library(ggplot2) 
genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A',
                   'CD19', 'CD79A', 'MS4A1' ,
                   'IGHG1', 'MZB1', 'SDC1',
                   'CD68', 'CD163', 'CD14', 
                   'TPSAB1' , 'TPSB2',  # mast cells,
                   'RCVRN','FPR1' , 'ITGAM' ,
                   'C1QA',  'C1QB',  # mac
                   'S100A9', 'S100A8', 'MMP19',# monocyte
                   'LAMP3', 'IDO1','IDO2',## DC3 
                   'CD1E','CD1C', # DC2
                   'KLRB1','NCR1', # NK 
                   'FGF7','MME', 'ACTA2', ## fibo 
                   'DCN', 'LUM',  'GSN' , ## mouse PDAC fibo 
                   'Amy1' , 'Amy2a2', # Acinar_cells
                   'PECAM1', 'VWF',  ## endo 
                   'EPCAM' , 'KRT19', 'PROM1', 'ALDH1A1' )

单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。

如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

Cancer-associated fibroblasts (CAFs) 细胞比例太少了

可以看到,就这么一点Cancer-associated fibroblasts (CAFs) ,但是它又是我们的研究目标!

而且目前呢,学界对CAFs的来源本来就是并不那么清晰,理论上不可能存的单一的标记基因来区分出来CAFs。通常CAFs有4种来源

  • The primary source is normal local fibroblasts, which are activated by stimuli from the tumor microenvironment.
  • Mesenchymal stem cells (MSCs) and other mesenchymal precursor cells are other sources.
  • Endothelial cells and epithelial cells do not belong to the fibroblast lineage, but they could transdifferentiate into CAFs-state cells.
  • Finally, a self-renewable CAFs-stem cell population might exist in the hierarchical organization, and these cells share similar characteristics as MSCs.

如果要筛选CAFs,首先要去除4个基因表达量为阳性的细胞亚群 :

  • CD31 (an endothelial marker)
  • CD45 (a hematopoietic cell marker),
  • desmin (a smooth muscle cell marker),
  • EPCAM (epithelial cell adhesion molecule, an epithelial cell marker).

重新设计实验,如下所示,这样CAFs就勉强变多啦:

重新设计实验

众所周知,目前单细胞样品费用还居高不下,一个10x的建库加上测序起码两万五,如果做十几个甚至几十个才能获取到足够量的目标细胞亚群,就得不偿失了。那么,设计合理的实验策略来富集目标细胞就是一个很好的选择。

实验富集到的Cancer-associated fibroblasts (CAFs) 跟我们自己从单细胞数据集里面挑选的Cancer-associated fibroblasts (CAFs) ,后续分析是一模一样的。而且完全可以参考 :肿瘤样品的单细胞需要提取上皮细胞继续细分,各个细分亚群找到特异性标记基因,特异性激活的基因集,特异性的转录因子等等。

因为10x单细胞转录组成本摆在那里,参考我们的《明码标价》专栏里面的单细胞内容

(0)

相关推荐