ddseq单细胞转录组数据上游处理

2024-08-06 17:30:02

下游分析其实跟产生单细胞转录组测序数据的protocol关系不大，反正都是表达矩阵，但是上游分析的表达矩阵如何获得，这个问题就很大程度上依赖于所采取的单细胞转录组技术了，是否使用spike-in，是否使用UMI, barcode策略是咋样的，等等，都需要考虑。

技术全称是：Illumina Bio-Rad Single-Cell Sequencing Solution

The ddSEQ Single-Cell Isolator from Bio-Rad encapsulates and partitions single cells into subnanoliter droplets in a disposable cartridge.
Cell lysis and barcoding occur inside individual droplets for tracking of individual cells throughout the workflow on an Illumina sequencing system.
This enables transcriptome analysis of hundreds to tens of thousands of single cells in a single experiment.

ddseq技术流程

整体上来看，read1包含的都是各种各样的barcodes和UMI，只有read2才是真正的转录本序列，如下所示：

标准的barcodes策略如下：

把序列定位到细胞及转录本

由上图可以看到 read1的序列里面是有两个linker片段是已知的，两个linker把3个6bp的barcode分割开来，第3个barcode和转录本的polyT中间就是 UMI序列。

两个linker片段分别是: TAGCCATCGCATTGC 和 TACCTCTGAGCTGAA 都是15bp的已知序列。

虽然中间是6bp的barcode，但其实只有 96 possible cell barcode blocks，列表如下：

如果没有开源的已经造好的轮子，那么就需要自己写脚本来进行分析了，主要就是根据barcode来拆分fastq数据到各个细胞。

公司的分析流程

其实illumina公司的 BaseSpace SureCell RNA Single-Cell App 可以做数据分析，全套流程都有，如下：

因为只有reads2是转录本的序列，所以用STAR比对到参考基因组的时候把测序数据当做是单端测序即可。

理论上已经不需要生物信息学人员了，因为公司的APP直接云端把数据全部处理好了，不仅仅是得到表达矩阵，而且还做了一定程度的下游分析。

理论上可以得到如下的表达矩阵：

项目数据的评价指标

主要是看下面这些指标

The # valid barcodes is provided in the first table of the analysis results. This metric shows how well read 1 performed, and is essential for identifying cells.
The # aligned reads shows how well read 2 aligned to genes in the selected reference genome.
The percent of reads aligned to unique genes shown in the report provides insight into the read utilization for the sample. This metric represents the number of reads with valid barcode that passed QC and aligned to unique genes with a mapping quality of > 11.
Cells passing filter represents the number of cells with a UMI count above the knee threshold. This will exclude cells with few UMIs (low RNA content or low library efficiency).
Median genes detected in cells passing filter + Median UMIs per cell passing filter.

自己写脚本拆分测序文件到各个细胞

因为illumina提供的云平台做了上游分析，所以我现在还没有到一定要写脚本来处理它产出的数据的地步，就先暂停哈。

点击可以加入单细胞数据处理学习交流小组

链读测序技术在宏基因组组装研究中的应用

链读测序(Linked-read sequencing)通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起,能够消除其中的一些错读,从而改进宏基因组组装.但目前还不清楚在使用 ...
Nature Reviews Genetics | 空间转录学时代的到来（一区，IF=43.704）

编译:艾奥里亚,编辑:十九.江舜尧. 原创微文,欢迎转发转载. Nature Reviews Genetics杂志社Darren J. Burgess于2019年4月12日在Nature Review ...
科普讲堂|一文讲明白什么是单细胞测序

简介单细胞测序技术,简单来说,就是在单个细胞水平上,对基因组.转录组及表观基因组水平进行测序分析的技术.传统的测序,是在多细胞基础上进行的,实际上得到的是一堆细胞中信号的均值,丢失了细胞异质性(细胞 ...
单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅（上）

Cell Ranger是一个10X genomics公司的单细胞分析软件,将原始的fastq文件生成后续分析的feature-barcode表达矩阵.其中包括很多模块,本次主要介绍cellranger ...
综述 | Nature子刊：单细胞和单核RNA测序方法的系统比较

编译:艾奥里亚,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读近年来,随着单细胞RNA测序方法的规模和能力迅速扩大,这使得重大发现和大规模细胞测绘工作成为可能.但这些方法还没有得到系统和全面的 ...
二代测序中barcodes index的介绍

一.barcode是做什么的当今二代测序仪器中应用最为广泛的当属illumina公司的测序仪,以Hiseq-2000测序仪为例,其有2个流动槽(flowcell),每个flowcell有8条lane( ...
ddseq单细胞转录组数据上游处理-2-云平台illumina能一家独大吗

先浏览:ddseq单细胞转录组数据上游处理(一) ddseq单细胞转录组数据上游处理因为要处理illumina的单细胞转录组数据,所以看了看其云平台:https://basespace.illumi ...
科研 | NC：使用iDEA方法对单细胞转录组数据进行差异表达和基因富集分析

编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读差异表达分析(DE)和基因富集分析(GSE)常用于单细胞转录组研究中.本研究中,作者开发了一种集成且可扩展的方法--iDEA,可通过分 ...
用Expedition来分析单细胞转录组数据的可变剪切

了解我的应该都知道我最近几个月都在奋战一个陌生的领域,单细胞转录组数据处理.真的很有挑战性,笔记累积了一大堆了,但是没有太值得分享的,大多是利用bulk转录组数据处理的经验而已,但是下面这个是单细胞转 ...
比较不同的对单细胞转录组数据聚类的方法

背景介绍聚类之前必须要对表达矩阵进行normalization,而且要去除一些批次效应等外部因素.通过对表达矩阵的聚类,可以把细胞群体分成不同的状态,解释为什么会有不同的群体.不过从计算的角度来说, ...
比较不同的对单细胞转录组数据normalization方法

使用CPM去除文库大小影响之所以需要normalization,就是因为测序的各个细胞样品的总量不一样,所以测序数据量不一样,就是文库大小不同,这个因素是肯定需要去除.最简单的就是counts pe ...
比较不同的对单细胞转录组数据寻找差异基因的方法

背景介绍如果是bulk RNA-seq,那么现在最流行的就是DESeq2 和 edgeR啦,而且有很多经过了RT-qPCR 验证过的真实测序数据可以来评价不同的差异基因算法的表现. 对单细胞测序数据 ...
比较不同单细胞转录组数据寻找features方法

挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释. 背景介绍单细胞转录组测序的确可以一次性对所有细胞都检测到上千个基因的表达,但是,大多数情况下,只有其 ...
10个单细胞转录组数据探索免疫治疗机理（逆向收费读文献2019-12）

栏目起源逆向收费读文献社群(2018-01-07) 逆向收费读文献社群 (2018-06-09) 逆向收费读文献社群(第二年通知)(2019-01-26) 大概有50人加入吧,成功坚持下来的朋友们累 ...
单细胞转录组数据的个性化分析汇总

都介绍到单细胞转录组数据处理之细胞亚群比例比较部分了,10讲就告一段落了,大家可以回看仔细品读.后面的分析其实都是个性化的了,取决于课题设计,假说,生物学背景知识,而且需要学习大量的R包. 既然是个性 ...