Single cell RNA-seq 原理的前世今生
之前也读过一些总结单细胞方法的文章,但是大多都将单细胞转录组的原理和方法混为一团,比如把CEL-seq,同SMART-seq并列讲原理,这无可厚非,但是又把Drop-seq和Split-seq等也一同并列进去讲,就说不通了,他们的原理都是基于模板转换来的,因此会给读者造成很大困扰。今天的这篇文章,我们就单单来谈原理,不讲方法。
常言说,以史为鉴,可以知兴替,从2009汤富酬的第一篇真正意义上的单细胞转录组研究的文章发表,到如今已经差不多10个年头,就RNA到cDNA这一过程来看,是一个说简单也简单,说复杂也复杂的过程,下面我们来聊一聊单细胞转录组原理所经历的几次更迭,相信从一个纵向的发展的视角去理解单细胞转录组测序原理的演变过程,会让我们对这一技术有更深的体会。
———— / Ⅰ / ————
我想开始应该从2006年讲起,之所以不从2009年讲起,笔者认为这一年由Kurimoto发表在Nucleic Acids Research上的文章,对于后来单细胞转录组测序的原理发展有很大的影响。由于这里主要讲文章原理的部分,因此在文章的应用方面暂不讨论,值得注意的是,当时已经用单细胞转录组去研究细胞的类群。下面我们具体来看原理部分。
图中紫色部分为细胞的mRNA。
1. 首先通过普通带T的V1引物反转mRNA获得第一链cDNA,随后用外切酶I清除多余的引物;
2. 再就是比较经典的思路(虽然末端加A单独拿出来是比较常规的操作),通过TdT(terminal deoxynucleotidyl transferase)在反转后的第一链cDNA尾部末端加A,并用RNaseH酶将RNA消化掉,于是体系里就只剩下带A尾的第一链cDNA;
3. 此时带A尾的cDNA成为模板,通过V3带T的引物形成双链cDNA,之后再加入V1引物一同扩增,最终形成扩增的双链cDNA;
4. 之后再使用T7&V1同V3引物继续扩增。
之所以加入T7启动子,主要有两点考虑:
一方面,cDNA经历了两次扩增,分别为20个循环和9个循环,这将比直接扩增29个循环将减少PCR扩增的偏差;
另一方面,由于实验后期并不是直接测序,而是通过T7启动子逆转录cDNA为RNA,再通过Affymetrix GeneChip Rat Genome 230 2.0 Array芯片(Affymetrix 大鼠基因组230 2.0芯片包含有31,000个probe sets,代表28,000个明晰的大鼠基因。
序列信息基于GenBank , dbEST, RefSeq等权威数据库)杂交获得转录本信息。那在现在来看,由于二代测序的发展,也就可以忽略T7逆转录的步骤,直接建库上机测序。
———— /Ⅱ/ ————
2009年,mRNA-Seq whole-transcriptome analysis of a single cell 这篇文章正式拉开了单细胞转录组的大门。笔者只下到了ARTICLE的文章,没有下到METHOD的文章,大家有的话,可以发我一份。所以就原理图介绍下,这里延用了06年那篇文章末端加A思路,但是在最后的读取cDNA信息的时候,这里使用了Applied Biosystem的二代测序SOLiD system平台,也就是取代了芯片的读取方式,也就减少了加T7启动子的步骤。(插播一个背景,2005年,454系统问世,SOLiD system于2007年问世,),值得注意一提的是,当时就已经具有low-input到单细胞的水平建库,虽然卵母细胞的cDNA量较为丰富。
可以说,是二代测序成就了这一篇文章,新技术的发展必然会影响相关技术的更迭,对于我们每个人来说,都是机遇,在在之后的文章中我会介绍,单细胞方法有那么多,并且都发了高水平的的文章,但是以一个全局的视角去看的时候,会发现他们之间有着千丝万缕的联系,只要我们善于总结并及时更新自己的知识库,一样可以有很好的表现。
———— /Ⅲ/ ————
接下来就是目前应用最广泛的模板转换法 了,可能大家最熟知的是SMART-seq,这个我们下期讲。其实在2011年的START-seq,就已经应用到模板转换法,同时运用Barcode标记思路来达到相对高通量的单细胞转录组测序方法。(使用相关逆转录酶进行模板转换获得全长cDNA在1999年被人们发现,在以后的文章里我们将总结出这些酶,并比较他们的效率。)
从示意图中可以看出:
1. 首先通过oligo-dT引物去反转RNA获得第一链cDNA,同时在其末端形成3-6个C碱基;
2. 之后加入的template-switching oligonucleotide(TSO)引物,由于在合成时携带3个RNA碱基G,会同第一链cDNA末端多加的C碱基杂交,顺理成章地将模板转换成第一链cDNA,而不是再使用RNA酶将RNA降解后使cDNA上位为模板。这样,我们就有了双链的cDNA。
可以看到,由于START-seq是要做高通量的单细胞测序,因此,在TSO引物(图中iii中绿色的链,xxxxxx为Barcode)上,给每一个单细胞都各自加了Barcode,这一步操作还在96孔板里分别反应。因此,在完成双链cDNA后,来自同一个细胞反转获得的cDNA都已经有了各自的标签,因此可以将96孔板里的cDNA都pool在一起做后续的建库反应,节约了建库的费用。
3. 之后用Beads抓住5'端,再片段化,并通过末端加A的方式引入3’端测序接头,最后再通过pcr方式引入另一端测序接头,上机测序。因为细胞的标签是加在5’端的,因此,当片段化之后,只有和Barcode连在一起的片段有细胞来源信息,中间的片段就无法判断是来自于何种细胞,所以这样的高通量的方法只能获得5端的信息。
相信大家读到这可能会想,Barcode也可以加在3'端,这样可以富集3'端测序,同时,在一开始就将测序接头设计到引物里去,以后也不用再引入了。那可以做高通量,我也可以不加Barcode,一个细胞的cDNA建一个库,这样就可以获得全长的cDNA信息,也就是有了后来的SMART-seq1&2,这个部分将在下期介绍,之后也会汇总基于这一期所介绍的原理所衍生出的单细胞方法,以及他们各自的特点和优劣。因此,这篇文章可以说对以后的单细胞转录组测序方法类文章有很多的启发,几乎每一个基于这个文章的想法之后都是一篇高分文章。
———— / Ⅳ / ————
原理讲到这里,大家还记得在2006年发表的那个原理,使用到了T7启动子,下面介绍的原理就和他有关,这里我们直接介绍该方法的进阶版,2016年的CEL-seq2。
CEL-seq2使用体外逆转录的扩增方法,同时引入了UMI (unique molecular identifiers),使用UMI计数RNA的Transcripts数在2012年发表于Nature Method,UMI也被后来的几乎所有的单细胞高通量转录组测序方法所使用。
还是从细胞里的mRNA出发,这里用于反转的oligo-dT引物这一次组件丰富许多,带有Barcode,UMI,测序接头,还有就是T7启动子。
首先反转RNA形成一链cDNA,再纯化出cDNA,通过T7启动子在体外反转形成ssRNA,再通过带另一端测序接头的随机引物去反转RNA,这样我们就可以得到两端都带有已知测序接头的cDNA,并通过这两个接头扩增建库。
———— / Ⅴ / ————
还有一个原理出镜率不是很高,2013年发表于PNAS的Two methods for full-length RNA sequencing for lowquantities of cells and single cells这里仅给出流程图,这两种方法在反转那一步没有做创新,而是在之后的cDNA放大部分做文章。
从图中可以看到,这里分别用到了Phi29DNA聚合酶和半随机引物来较小偏差地扩增cDNA。熟悉单细胞全基因组放大的同学可能就会发现,这分别可以看到一点MAD(Multiple Displacement Amplification)多重置换扩增技术和MALBAC技术的影子。没记错的话,Qiagen有一款单细胞转录组扩增试剂盒在cDNA放大时用的就是Phi29DNA聚合酶。另一方面,在2015年,谢晓亮课题组在Plos one 上发表了Single Cell Transcriptome Amplification with MALBAC。
———— / END / ————
这里主要介绍了单细胞转录组测序中,从mRNA获得cDNA文库的比较主流的原理,当然也有也涉及到一些文章的单细胞方法。我想通过一个全局的纵向的视角去看单细胞原理的发展,再以我们现在的上帝的眼光去分析,会发现其中的思路变化。由于刚接触单细胞转录组测序不久,文章可能读得不够仔细和全面,如果有纰漏的地方,还请大家指出,不断完善,方便大家一起学习,下一期将介绍,由各自原理所衍生出的方法以及他们的发展趋势及优劣。
———— / 参考文献 / ————
1. Svensson V , Vento-Tormo R , Teichmann S A . Exponential scaling of single-cell RNA-seq in the past decade[J]. Nature Protocols, 2018, 13(4):599.
2. Kurimoto K , Yabuta Y , Ohinata Y , et al. An improved single-cell cDNA amplification method for efficient high-density oligonucleotide microarray analysis[J]. Nucleic Acids Research, 2006, 34(5):17-0.
3. Tang F , Barbacioru C , Wang Y , et al. mRNA-Seq whole-transcriptome analysis of a single cell.[J]. Nature Methods, 2009, 6(5):377-382.
4. Islam S , Kjallquist U , Moliner A , et al. Characterization of the single-cell transcriptional landscape by highly multiplex RNA-seq[J]. Genome Research, 2011, 21(7):1160-1167.
5. Schmidt W M , Mueller M W . CapSelect: A highly sensitive method for 5′ CAP-dependent enrichment of full-length cDNA in PCR-mediated analysis of mRNAs[J]. Nucleic Acids Research, 1999, 27(21):e31.
6. Hashimshony T , Senderovich N , Avital G , et al. CEL-Seq2: sensitive highly-multiplexed single-cell RNA-Seq[J]. Genome Biology, 2016, 17(1):77.
7. Kivioja T , V?H?Rautio A , Karlsson K , et al. Counting absolute numbers of molecules using unique molecular identifiers[J]. NATURE METHODS, 2011, 9(1):72-74.
8. Pan X , Durrett R E , Zhu H , et al. Two methods for full-length RNA sequencing for low quantities of cells and single cells[J]. Proceedings of the National Academy of Sciences, 2013, 110(2):594-599.
9. Chapman A R , He Z , Lu S , et al. Single Cell Transcriptome Amplification with MALBAC[J]. PLOS ONE, 2015, 10(3):e0120889.
■ ■ ■
欢迎留言与作者讨论交流单细胞转录组实验及数据分析技术细节,我们会持续追踪领域进展,尽可能的帮助大家使用好单细胞技术,辅助增强科研