二代测序：碱基平衡性，与barcode选择 / 四六文摘

碱基平衡性

碱基复杂度与碱基多样性是一个意思；复杂度高，碱基即平衡。低多样性(low diversity)即碱基不平衡，指碱基的组成太单纯了，种类少。碱基复杂度本来无关紧要，从前除了设计PCR的时候考虑高GC(GC-rich)以外，基本没人思考这个问题，没人觉得这是一个问题。随着Illumina的二代测序技术风靡全球，独占鳌头，这个不起眼的概念意外地变得重要起来。

一、概念

对于一个基因来说，它所包含的碱基种类越多，则碱基复杂度越高；如果各种碱基的百分含量越接近一致，则碱基组成越平衡。

假设一个DNA片段，它的全部碱基都是A，AAAAAAAAAAAAAAAAAAAAAAAA，显然其碱基组成是极度不平衡的。

DNA碱基有4种：AGCT。所以碱基最平衡的情况就是：%A=%G=%C=%T=25%，比如这样的DNA片段：AGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT。

以上是从纵的方面讲的。对于二代测序，更重要的是横的方面。假设12个基因整整齐齐站成一排，第一个位置的12个碱基如果都是A，复杂度太低，严重不平衡；如果A和G各有6个，虽然平衡了，但是复杂度还是不够；如果AGCT各有3个，最复杂，也最平衡；如果A3个G4个C4个，T1个，虽然复杂，但是严重不平衡。

二、影响

4张滤色片，在4个波长处收集信号，然后合成，进行cluster定位及其他运算。如果缺少一种碱基，该波长的照片就是全黑的，没有信号，无法完成图片合并以及cluster定位，导致数据浪费。

需要特别注意碱基复杂度的二代测序应用：PCR产物测序，特别是用于鉴定细菌、真菌以及其他物种的16S rRNAPCR产物测序；小RNA测序；甲基化测序。

三、增加碱基复杂度的方法

文库：

1、把不同的文库混合在一起。

2、如果没有其他文库，那么掺入人基因组DNA文库、人外显子组文库或者PhiX标准品。这些都是已知碱基平衡的。

引物：

3、对于PCR产物来说，只要引物长度不同，就能自然错开，增加碱基复杂度。

4、采用多对序列不同的引物来完成扩增，然后将产物混合在一起。

Barcodes：

5、仔细挑选barcode组合，确保每个位置都有3-4种碱基且碱基分布均匀。

barcode 选择

很多情况下，我们需要把多个样本混合在一起，在同一个通道(lane)里完成测序。像转录组测序、miRNA测序、lncRNA测序、ChIP测序等等，通常每个样本所需要的数据量都比较少，远少于HiSeq一个通道的产出能力，混合样本是非常常见。以转录组测序为例，一个样本测序60 M reads (8G PF data) ，就能够满足绝大部分研究所需。而HiSeq2500-PE125的一条通道，使用V4试剂，数据产出>480 M reads。为了充分利用测序仪产能，节约成本，需要把7~8个RNA样本混合起来。

为了能够把测序数据按样本分离（de-multiplexing），在构建文库(library)的时候，需要用不同的标签序列(index, 也叫barcode)对文库进行标记。只有文库作了记号，数据才能区分。

Barcode的选择是一门技术活。如果barcode组合不佳，标签序列测序质量下降，部分或者全部标签碱基识别不正确，将导致部分数据无法归属到任何一个样本，成为undetermined数据，造成浪费。

一、如何判断barcode组合好坏？

1、碱基平衡。好的barcode组合必须是“4种碱基达到平衡”的，或者说碱基复杂度高。具体就是：

a. 在一组barcode的每一个位置，同时存在A、G、C、T四种碱基，不缺少任何一种碱基；

b. 这4种碱基的比例接近，最好各1/4，分别为25%左右，没有任何一种碱基特别多或者特别少。

2、激光平衡。受客观条件限制，

a.试剂盒提供的barcode种类有限，

b.有些barcode已经被其他样本占用，导致可选的余地受限制，这就导致barcode组合经常无法达到理想的碱基平衡要求。退而求其次，要力保“红绿激光达到平衡”。

在所有型号的Illumina测序仪中，A和C两种碱基共用一种激光，由波长660 nm的红激光激发；G和T共用一种激光，由波长532 nm的绿激光激发。对于一组barcode的每一个位置，如果A＋C的总数与G＋T的总数相接近，可以在一定程度上弥补碱基不平衡的负面作用。

3、激光平衡是次优选择，不得已而为之。它虽然可以在一定程度上提高barcode测序质量，减少de-multiplexing出问题的可能性，但是并不是说，只要激光平衡了，测序数据的分离就一定不受影响。

4、如果barcode组合碱基也不平衡，激光也不平衡，则de-multiplexing风险非常高。

二、Barcode组合举例

1、好的组合。

Illumina推荐的12个样本barcode组合如下。

编号序列

01 ATC ACG

02 CGA TGT

03 TTA GGC

04 TGA CCA

05 ACA GTG

06 GCC AAT

07 CAG ATC

08 ACT TGA

09 GAT CAG

10 TAG CTT

11 GGC TAC

12 CTT GTA

以第一个位置（纵列）为例，A:G:C:T=3:3:3:3=1:1:1:1。实际上，该barcode组合每个位置的碱基比例都接近1:1，碱基平衡度近乎完美。

2、不好的组合

下面的组合有缺陷。比如说，第1个位置只有A和C两种碱基，A、C都属于红激光，导致绿激光没有信号，碱基和激光都不平衡。

AGT TCC

ACT GAT

ACG AGC

ACT CCT

CAA AAG

CAA CCA

CAC CAG

三、Barcode碱基不平衡的后果

1、如果barcode组合的碱基组成不平衡，会导致测序进行到这些碱基时，软件对测序信号的处理出现障碍，不能准确地识别这些碱基(base-calling)，表现为QV值降低，%Q30曲线波动。

2、在这种情况下，运用生物信息软件对测序数据进行数据分离（de-multiplexing）出现困难，部分数据不能准确分离，成为undetermined 数据的一部分，造成undetermined数据增多，可分离的数据减少。

3、如果测序数据的总量很多，远大于全部样本数据量期望值的总和，则问题有可能不那么严重，全部或者大部分样本仍然可能分离到足够的数据量。

4、万一样本性质特殊，反应效率低；或者混合样本之间竞争和抑制严重，导致测序数据总量在期望值附近，余量很少；或者其中个别样本数据量特别少，这时如果undetermined数据比例过高，就会导致部分或者全部样本的数据量不够用。

5、混合样本补数据是一个非常麻烦的问题，成本极高。如果一组样本中只有个别样本需要补数据，由于文库是混合在一起的，其他样本也不得不跟着重测一次。这是困难之一。困难之二，如果数据缺口比较小，本来可以与其他样本混合，搭个便车，可是，进行第二次混合的时候，经常会遇到barcode冲突或者碱基不平衡，拼lane非常困难，往往要等很长时间，才有合适的机会。

四、实验证明de-multiplexing成功，该barcode组合今后是否一定好用？

1、如果barcode组合碱基平衡，则无论样本怎么变，该组合一定好用。

2、如果barcode组合的碱基组成不理想，即使以前的实验证明好用，不等于今后一定好用。下一次测序效果可能好，也可能不好。

3、这是由于不同的项目样本不同，有可能导致两种后果：a. 数据总量在期望值附近，余地不够多，de-multiplexing后部分样本数据量不够；b. 如果新的样本本身也碱基不平衡，read 1测序质量很差，会影响到barcode和read 2的测序质量。当然，情况b责任不在barcode，即使barcode很好，数据还是不够。

五、补救措施

如果满足以下两个条件：

a. 混合样本的数据总量足够，只是由于barcode质量不好，导致de-multiplexing后部分或全部样本数据量不够；

b. 排除QV值低的barcode碱基后，其余质量好的barcode碱基仍然足够用来区分全部样本；

那么，可以通过改变de-multiplexing算法来为每个样本获得尽量多的数据。比如去掉信号识别模糊的碱基，或者增加mismatch碱基的数目，重新运行de-multiplexing程序。

六、样本少于4种，不可能碱基平衡，怎么办？

如果样本数少于4种，每一个位置的碱基最多只有3种，不可能碱基平衡，怎么办呢？这时一定要保证激光平衡。Illumina推荐了3种low-level pooling的barcode组合：

2个样本：

#6 GCC AAT

#12 CTT GTA

3个样本：

#4 TGACCA

#6 GCCAAT

#12 CTTGTA

6个样本：

#2 CGATGT

#4 TGACCA

#5 ACAGTG

#6 GCCAAT

#7 CAGATC

#12 CTTGTA

这3种组合包含一个共同内核：6号和12号。6号和12号组合是百分百激光平衡的，每一个位置的碱基（纵列，即GC、CT、CT、AG、AT和TA）都分别属于不同的激光。只要barcode组合中包含6号和12号，就能满足最基本的要求，不至于颗粒无收。6号和12号是barcode组合的核心，不可或缺。

二代测序：碱基平衡性，与barcode选择

相关推荐