什么,基因只剩下了三分之一?
上周的《单细胞图表复现100篇》栏目,我们分享了2个NSCLC的文献,这周六我们应该是要分享4个ccRCC的文献,PPT已经制作完毕!感兴趣的可以推荐下面的会议,准时参加!(会议密码是:1024 )
其中有一个ccRCC研究它的数据非常的诡异,数据并不是在GEO里面,而是直接网页附件的形式给出来了的!文章标题是:《Progressive immune dysfunction with advancing disease stage in renal cell carcinoma》
我分别处理这两个csv文件,其中第二个文件,也就是这个缺胳膊断腿的数据,普通的降维聚类分群后,拿出来标记基因画个图,代码如下:
library(ggplot2)
genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A','CD19', 'CD79A', 'MS4A1' ,
'IGHG1', 'MZB1', 'SDC1',
'CD68', 'CD163', 'CD14',
'TPSAB1' , 'TPSB2', # mast cells,
'RCVRN','FPR1' , 'ITGAM' ,
'FGF7','MME', 'ACTA2',
'PECAM1', 'VWF',
'EPCAM' , 'KRT19', 'PROM1', 'ALDH1A1' )
library(stringr)
p_all_markers <- DotPlot(sce.all.filt, features = genes_to_check,
assay='RNA' ) + coord_flip()
p_all_markers
ggsave(plot=p_all_markers,
filename="first_check_all_marker_by_seurat_cluster.pdf",width = 12)
结果,提示我:
Warning message:
In FetchData(object = object, vars = features, cells = cells) :
The following requested variables were not found (10 out of 20 shown): CD3D, CD3E, CD4, CD19, CD79A, MS4A1, IGHG1, CD68, CD163, TPSAB1
也就是说,一大半的基因都是缺失的, 如下所示的:
可以看到标志着免疫细胞的PTPRC基因仍然是在,而且上皮细胞的EPCAM也没有问题,所以勉勉强强是可以分群的。
而另外一个基因数量正常的数据集,结果如下所示:
就比较容易划分亚群,不过缺失了三分之二基因的单细胞转录组数据集也不是不可以分群, 因为绝大部分单细胞亚群都并不是只有一个标记基因。肿瘤常用的 第一次分群是通用规则是:
immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
对于缺胳膊断腿数据集,仍然是可以做出来第一层次的降维聚类分群,如下所示:
对于正常数据集,如下所示:
因为基因齐全,所以可以把髓系里面的处于细胞增殖期的小亚群都独立出来。
但是,总体上来说,这两个数据集做出来第一层次的降维聚类分群居然都是符合要求的,文章使用的是tsne的展现方式,如下所示:
可以看到,从细胞比例考虑,同样的是T细胞最多,髓系其次,然后肿瘤细胞非常稀少。
这就很有意思了:
单细胞转录组数据我们需要追求基因数量的尽可能多吗? 是不是其它平台,比如BD虽然在基因数量上面会逊色于10X,但其实也并不重要呢?
学徒作业
去gencode数据库拿到最新的人类的gtf文件,仅仅是挑选蛋白编码基因即可,约2万个,然后把基因名字按照字母顺序排好,取前面的三分之一,对它进行一些基因分布特征的检验,比如是否集中于某条染色体,或者其它一切你能想到的检验。
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班: