专门分析10x genomic公司的单细胞转录组数据的软件套件
10x Genomics方法巧妙使用了Barcoding(条形码)和Microfluidics(微流体)技术,在单细胞分离、扩增原理上具有明显的优势,能帮助研究人员实现对细胞群体的划分与细胞群体间基因表达差异的检测,是肿瘤细胞异质性、免疫细胞群体检测以及胚胎发育研究的黄金方法。
仪器介绍
该平台可以在7分钟内完成100~80,000个细胞的捕获过程,具有细胞通量高、项目周期短、捕获真正意义的单细胞等优势,该平台对捕获的每个细胞贴上独特的分子标签,因此可以对单个样本分选出的数千个细胞混合,一次建库即可,大大节省了建库的费用。
该平台的核心技术是利用上百万独特的 Barcode 标记单细胞,首先,含有 Barcode 信息的 Gel beads 与样品和酶的混合物混合,然后与位于微流体“双十字”交叉系统中的油表面活性剂结合形成 GEMs;接下来,Gel beads 溶解释放 Barcode 序列,开始对细胞进行标记;将每个 GEMs 中含有 Barcode 信息的产物混合,构建标准测序文库。
有效形成的 GEMs 中只包裹单个细胞和一个 Gel bead,以及反转录所需酶和试剂,在反转录过程中,细胞裂解释放 mRNA 等核酸,Barcode 序列与 Poly(dT) 相连,通过与转录本3'端 poly(A) 碱基互补,在反转录的过程中添加到 cDNA 序列中。
数据分析流程介绍
得到的数据需要用 Cell Ranger 来做分析,那么我们先看看它是什么:
Cell Ranger: Pipelines
Loupe™ Cell Browser
Cell Ranger: R Kit
包含上面的3个产品,其中第一个pipeline是用来把上面的fastq测序数据比对到参考基因组,然后定基因表达量的,也就是使用它就可以拿到表达矩阵啦。不过这个pipeline本身又分成3个步骤:
软件下载及安装
这个软件很复杂,https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest 下载的时候可以看到其本身打包了很多第三方工具。
10x Genomics Software
Long Ranger – Source Code 1.0.0- www.affero.org/oagpl.html
Cell Ranger – Source Code 1.0.0- www.affero.org/oagpl.html
Supernova – Source Code 1.0.0- www.affero.org/oagpl.html
Third Party Software
ace 1.1.3 https://github.com/ajaxorg/ace
Anaconda 2.2.0 http://docs.continuum.io/anaconda/pkg-docs
angucomplete efcb312d5 https://github.com/darylrowland/angucomplete
而且因为它本身包括了比对定量,所以参考基因组以及基因组注释文件等数据库都需要打包下载:
Cell Ranger - 2.1.0 (November 8, 2017)
Self-contained, relocatable tar file. Does not require centralized installation.
Contains binaries pre-compiled for CentOS/RedHat 5.5+ and Ubuntu 10.04+.
Linux 64-bit – 683 MB – md5sum: 3c2dc932df69982c45c0843ee9110e0c
然后是参考基因组
Human reference (hg19) Linux 64-bit – 11 GB – md5sum: 74608d0a6fdd8c10e2918339a30c3c49
Mouse reference Linux 64-bit – 9.6 GB – md5sum: 6c8701a83c7b66ca123a6b4f149bec26
mkdir -p ~/biosoft/10xgenomic/db
cd ~/biosoft/10xgenomic/db
nohup wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-mm10-1.2.0.tar.gz &
nohup wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz &
nohup wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-hg19-1.2.0.tar.gz &
wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-ercc92-1.2.0.tar.gz
wget http://cf.10xgenomics.com/supp/cell-exp/chromium-shared-sample-indexes-plate.csv
wget http://cf.10xgenomics.com/supp/cell-exp/chromium-single-cell-sample-indexes-plate-v1.csv
wget http://cf.10xgenomics.com/supp/cell-exp/gemcode-single-cell-sample-indexes-plate.csv
测试数据
同时其官网还提供了测试数据:https://community.10xgenomics.com/t5/Data-Sharing/10x-Single-Cell-3-Paper-Zheng-et-al-2016-Datasets/td-p/231
Frozen PBMCs (Donor A) Single Cell Gene Expression Dataset by Cell Ranger 1.1.0
~2,900 cells detected
Sequenced on Illumina NextSeq 500 High Output with ~25,000 reads per cell
98bp read1 (transcript), 8bp I5 sample barcode, 14bp I7 GemCode barcode and 5bp read2 (UMI)
Analysis run with --cells=3000
Frozen PBMCs (Donor B)
~7,800 cells detected
Sequenced on Illumina Hiseq2500 Rapid Run V2 with ~14,000 reads per cell
98bp read1 (transcript), 8bp I5 sample barcode, 14bp I7 GemCode barcode and 10bp read2 (UMI)
Analysis run with --cells=6600
Frozen PBMCs (Donor C)
~9,500 cells detected
Sequenced on Illumina Hiseq2500 Rapid Run V2 with ~14,000 reads per cell
98bp read1 (transcript), 8bp I5 sample barcode, 14bp I7 GemCode barcode and 10bp read2 (UMI)
Analysis run with --cells=6600
可以测试一下这个流程
下载原始fastq格式的测序数据
这里仍然是下载1k Brain Cells from an E18 Mouse,最小的数据集,做测试用:
├── [237M] neurons_900_S1_L001_I1_001.fastq.gz
├── [642M] neurons_900_S1_L001_R1_001.fastq.gz
├── [1.8G] neurons_900_S1_L001_R2_001.fastq.gz
├── [238M] neurons_900_S1_L002_I1_001.fastq.gz
├── [646M] neurons_900_S1_L002_R1_001.fastq.gz
└── [1.8G] neurons_900_S1_L002_R2_001.fastq.gz
可以看到左右端测序数据大小不一致,而且每次测序是有3个数据,因为26bp read1 (16bp Chromium barcode and 10bp UMI), 98bp read2 (transcript), and 8bp I7 sample barcode ,只有reads2的fastq里面是真正的转录本序列,另外的两个文件都是barcode!可以直接用 Cell Ranger 来做分析,代码如下:
/home/jianmingzeng/biosoft/10xgenomic/cellranger-2.1.0/cellranger count --id=neurons \
--localcores 5 \
--transcriptome=/home/jianmingzeng/biosoft/10xgenomic/db/refdata-cellranger-mm10-1.2.0 \
--fastqs=/home/jianmingzeng/data/public/10x/neurons_900_fastqs \
--expect-cells=900
要根据自己的fastq文件存放规律以及数据库下载的地址来设置上面的参数;
如果是SRA数据库
大部分作者上传10x数据的时候都是错的,数据缺胳膊少腿的,没办法分析。
点击加入单细胞数据处理学习交流小组
应用方向
免疫方向
用于外周血单个核细胞细胞亚型的分析,发现细胞亚型新的marker基因。
肿瘤方向
用于发现肿瘤细胞异质性分析和细胞类型鉴定,寻找新的致病途径和机制。
疾病分型
用于发现发生异常增殖的细胞类型,结合传统病理学特征,辅助疾病分型。
干细胞方向
对干细胞不同亚型的特征进行研究,构建干细胞谱系,预测分化方向。
骨髓干细胞移植
监控骨髓干细胞移植病人移植前后的细胞嵌合状态,判断病人术后恢复和移植效果。
鉴定罕见的细胞类型
灵敏检测出数量很少的新细胞类型,增添研究亮点。
神经领域
……
值得一提的是其还提供了一个可视化软件:Loupe Cell Browser