三个10X单细胞转录组样本CCA整合

前面我在单细胞天地分别介绍了如果因为种种原因仅仅是测了一个样本的10X单细胞,或者走经典的2个样本的10X样本该如何分析,并且辅助自己的生物学故事,如下:

其中,我委婉的指出来了,那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的,不过他们文章发表期刊是 Immunity影响因子很高,二十多分,其实单细胞对他的生物学故事来说是锦上添花,可有可无,所以我也不想去追究 他们了。

现在我们分享一个稍微正确一点的分析例子,发表在NC的文章:B1 oligomerization regulates PML nuclear body biogenesis and leukemogenesis

研究者对3只小鼠进行了单细胞转录组测序,The normal FVB/N mice (termed WT) and the PR and PR F158E transgenic mice at the same age (i.e., 78 weeks) 选择的是商业仪器 10x

多个样本整合

单细胞水平的研究是仅次于NGS的一次生物信息学领域的革命,同样的随随便便发CNS的黄金时期也过去了,现在想发高分文章,拿多个病人的多个样本进行单细胞转录组测序是非常正常的,这篇文章就是3个样本。而且文章写的很清楚:To avoid batch differences, the Seurat alignment method canonical correlation analysis (CCA) 而且可以看到去除样本效应还不错:

其它单细胞样本整合理论详细见:多个单细胞转录组样本的数据整合之CCA-Seurat包

细胞分群

样本整合好了之后的实际分析流程还是5个R包,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 而且分析流程也大同小异:

  • step1: 创建对象

  • step2: 质量控制

  • step3: 表达量的标准化和归一化

  • step4: 去除干扰因素(多个样本整合)

  • step5: 判断重要的基因

  • step6: 多种降维算法

  • step7: 可视化降维结果

  • step8: 多种聚类算法

  • step9: 聚类后找每个细胞亚群的标志基因

  • step10: 继续分类

而这篇文章呢,基本上来说走Seurat标准流程,就可以把细胞分多个cluster,再定生物学功能,结果如下:

  • granulocyte (clusters 0, 4, 5, 9, 12)

  • erythrocyte (clusters 1, 2, 3, 6, 7,10)

  • monocyte (cluster 8),

  • stem cell (cluster 11)

  • B cell (clusters13, 14),

  • dendritic cell (cluster 15)

如下图:

细胞分群后的下游分析

一般来说,需要展示自己对细胞亚群命名的marker基因:

The tSNE plots of the key ma rke rs us ed to identify granulocyte (Ly6g), erythrocyte (Hba-a2), monocyte (Csf1r), stem cell (CD34), B cell (Vpreb3), dendritic cell (CD209a), respectively

上面是热图的展示方式,当然了,小提琴图也可以的。

然后是探索不同细胞亚群在3只小鼠的比例差异:

这个其实是 两个样品的10x单细胞转录组数据分析策略 所展现的,只不过是那篇文章既没有提到如何整合2个10X单细胞转录组样品,也没有对细胞亚群进行生物学注释,总体来说,显得太苍白。

原始数据并没有上传

虽然作者在附件里面写出来了测序数据量,如下:

如果有原始数据,我们就可以完完整整走一波这个10X单细胞转录组数据处理了,10x数据上游处理都在我们单细胞天地有详细介绍:

不知道大家有没有发现,单细胞转录组数据分析,本质上是R语言的统计可视化,所以我昨天在生信技能树公众号分享了爆款R语言入门,基本上十万生信工程师都会跟着学习的,你也可以品读生信分析人员如何系统入门R(2019更新版)

(0)

相关推荐