单细胞甲基化测序(scBS-seq)比对率奇低?你的文库方向性参数可能没选对!
问题的提出
近年来单细胞测序真是火得一塌糊涂,易基因作为行业较早开展单细胞甲基化测序科研服务的企业,我们也接到了不少老师在数据分析方面的求助。在BS数据分析中,最常用的比对工具就是BSMAP和bismark。然后有小伙伴发现,明明之前用于常规BS-seq的流程用着都挺顺,到scBS-seq(single cell BS seq)数据的时候就不行了。数据质量不错,就是比对率奇低。到底问题出在哪里呢?其实小编刚接触scBS-seq数据的时候也发现了这个问题。今天小编就带大家一起分析解决一下这个问题吧!
无论是BSMAP[1]还是bismark[2]都涉及到一个有关文库方向性的参数:
BSMAP的-n参数:
意思是:
n设为0时,对SE文库来说,只比对到两条前导链,即BSW(++) 和 BSC(-+);对PE文库来说,read1只比对到BSW(++) 和 BSC(-+),read2只比对到BSWR(+-) 和 BSCR(--)。
n设为1时,不管是SE还是PE都比对到4条链:BSW(++)、 BSC(-+)、BSWR(+-) 和 BSCR(--)。
该参数对应到bismark中的--non_directional参数:
意思是,一般常规Illumina的BS-seq文库都是具有方向性的文库,该参数应该设为OFF。
我们发现这个有关文库方向性的参数对比对速度的影响是很大的,因为它涉及到Reads是比两条链还是比四条链的问题。
那么什么是BS文库的方向性?
要解答这个问题,我们需要看一下BS-seq文库构建中序列变化:
我们发现:BS转化之后,W链(Watson链)和C链(Crick链)被转化为BSW和BSC链。在PCR之后,所有BSW和BSC链都是由C->T;而他们的互补链BSWR链和BSCR链都是G->A。
我们再分析一下加接头和测序的过程:
结论就是:
Read1中保存的都是C->T序列;
Read2中保存的都是G->A序列。
这就是所谓方向性文库了。
我们看一下实际常规BS-seq建库是不是如此:
WGBS测序下机数据我们使用fastqc进行测序质量检测,有一张Read四碱基比例的图。
我们看一下Read1的四碱基比例:
C基本为0,T很高,提示read1由C->T转化而来。实际上,read1就是PCR后产生的BSW和BSC两条链,它们建库时连接的是P5接头,所以全保存在read1中。
Read2的四碱基比例:
G基本为0,A很高,提示read2由G->A转化而来。实际上,read2就是PCR后产生的BSWR和BSCR两条链,它们建库时连接的是P7接头,所以全在read2。
总之,源于末端加A和Adapter-T,包括Y型接头的设计,常规建库实际上read1测的都是原始链(W与C),read2测的都是PCR扩增产生的互补链(WR和CR)。
也就是说,对于常规BS-seq文库,它们都是方向性的,BSMAP的-n参数都应该设置为0;-bismark的--non_directional参数都应该设置为OFF(均为默认参数)。
那对于单细胞scBS-seq建库,文库是不是也是方向性的呢?是不是也只需要设置默认参数呢?
我们回顾一下scBS建库的流程[3]:
先将gDNA进行BS转换/片段化,然后添加带有9碱基随机引物Oligo1,经过5轮随机扩增(带P5接头),以增加DNA产量,然后用利用Oligo1末端的生物素调出PCR产物。类似地,添加带有9碱基随机引物Oligor2(带P7接头),PCR扩增产生测序文库。
这里有两点需要注意:
1. 相比常规BS-seq,scBS-seq在连接接头之前进行BS转化,这样就避免了连接接头之后的gDNA在BS转化过程中不必要的断裂损失。
2. scBS-seq在最开始使用随机引物进行了多轮随机PCR扩增,以此增加DNA产量,这个过程使得scBS文库已经不具有方向性。
显而易见,对于scBS-seq数据,比对参数应当按照非方向性文库来设置参数,而不能使用默认参数。使用默认参数就是最开始比对率低的原因了。
说了这么多,相信小伙伴们已经清楚了问题的所在。总结一下参数的选择:
参考文献:
1. Xi, Y., & Li, W. (2009). BSMAP: whole genome bisulfite sequence MAPping program. BMC bioinformatics, 10(1), 232.
2. Krueger, F., & Andrews, S. R. (2011). Bismark: a flexible aligner and methylation caller for Bisulfite-Seq applications. bioinformatics, 27(11), 1571-1572.
3. Clark, S. J., Smallwood, S. A., Lee, H. J., Krueger, F., Reik, W., & Kelsey, G. (2017). Genome-wide base-resolution mapping of DNA methylation in single cells using single-cell bisulfite sequencing (scBS-seq). Nature protocols, 12(3), 534.