10x的单细胞转录组数据就应该这样处理

未知的东西总是让人害怕,即使是花时间看他人做过一遍也好过踟蹰不前,请看好:

首先需要10x仪器出来的fastq数据

这个可以看前面的教程:10X genomics单细胞数据集探索 列出了非常多的官网教程。

比如1k Brain Cells from an E18 Mouse,最小的测试数据集,如下:

├── [237M]  neurons_900_S1_L001_I1_001.fastq.gz
├── [642M]  neurons_900_S1_L001_R1_001.fastq.gz
├── [1.8G]  neurons_900_S1_L001_R2_001.fastq.gz
├── [238M]  neurons_900_S1_L002_I1_001.fastq.gz
├── [646M]  neurons_900_S1_L002_R1_001.fastq.gz
└── [1.8G]  neurons_900_S1_L002_R2_001.fastq.gz

可以看到左右端测序数据大小不一致,而且每次测序是有3个数据,因为26bp read1 (16bp Chromium barcode and 10bp UMI), 98bp read2 (transcript), and 8bp I7 sample barcode ,只有reads2的fastq里面是真正的转录本序列,另外的两个文件都是barcode!

如果是从SRA数据库下载其他人发表文章的数据,早期大部分都是缺胳膊断腿的,见教程:3500个TNBC单细胞转录组数据重处理 其实是没办法处理对

然后利用官网软件做比对和定量

官网软件我也写过教程:专门分析10x genomic公司的单细胞转录组数据的软件套件 需要下载的软件很简单,就是下载的数据库有点大:

├── [ 10G]  refdata-cellranger-hg19-1.2.0.tar.gz
├── [9.6G]  refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz
└── [9.6G]  refdata-cellranger-mm10-1.2.0.tar.gz

软件及数据库都准备好了,就可以直接用 Cell Ranger 来做分析,代码如下:

/home/jianmingzeng/biosoft/10xgenomic/cellranger-2.1.0/cellranger count --id=neurons \
--localcores 5 \
--transcriptome=/home/jianmingzeng/biosoft/10xgenomic/db/refdata-cellranger-mm10-1.2.0 \
--fastqs=/home/jianmingzeng/data/public/10x/neurons_900_fastqs   \
--sample=neurons \
--expect-cells=900

就这么简单的代码就可以完成10x单细胞转录组数据的比对和定量。其中比较重要的就是 filtered_gene_bc_matrices文件夹下面的表达矩阵了,可以直接被R包Seurat读入进行一系列的处理

R包Seurat进行表达矩阵的下游分析

代码如下:

library(Seurat)
library(dplyr)
library(Matrix)
neurons.data <- Read10X(data.dir = "~/outs/filtered_gene_bc_matrices/mm10/")
neurons <- CreateSeuratObject(raw.data = neurons.data, min.cells = 3, min.genes = 200,
   project = "10X_neurons")
neurons

完整笔记见:单细胞转录组3大R包之Seurat

这就是一个完整的10x公司出品的单细胞转录组数据的完整处理流程啦!

是不是很简单啊!

但是,单细胞转录组数据五花八门,仅仅是掌握10x是远不够的,比如single-cell Fluidigm C1 platform平台的。

见介绍; scRNA芝加哥大学Yoav Gilad lab实验的Tung et al 2017)文章

后续,我们单细胞天地会一一介绍的,敬请期待哈!

这个就不需要原文链接了,因为里面的笔记,都是可以链接的

(*^__^*) 嘻嘻……

(0)

相关推荐