NGS测序基础梳理-文库构建、簇生成与边合成边测序 / 四六文摘

本系列文章共三篇，分别介绍，文库构建（Library Preparation），簇生成（ClusterGeneration），测序及测序后数据处理得到FASTQ文件（Sequencing and Data Analysis）也就是下图中的ABCD四个部分。

本文目的？

了解二代测序文库的构建步骤，文库的结构。

为何构建文库？

由于二代测序读长的限制，不可能一下将一个很长的基因序列测通，so需要先将长基因序列随机片段化成小片段，这样的话，这些片段就可以覆盖整个基因组。

文库构建步骤？

文库构建大致步骤类似，但是各有各自独特的点，例如，RNAseq里miRNA，lncRNA，mRNA方法各有差异，具体方法以后有机会再补充。这里以Illumina的 PE文库为例，其官网流程图如下图。

文库构建详细步骤？

DNA片段化（Fragment DNA）

使用超声、酶或者加热的方式将DNA样品打碎成小片段，一般在300 ~ 800bp之间除非有特殊要求。

末端修复（End Repair）

补平片段化时导致的不平末端。

3' 末端加“A” （A-tailing）

3' 末端加A，转换为粘性末端，与adapter 互补配对，因为adapter 3'端有一个突出的T。

接头连接（ ligation adaptor）

这一步有两种不同的添加策略如下图。

左边的图是直接在fragment DNA的两端直接加上full Y-adapter, adapter中已经包括了和P5/P7 oligo互补的序列, index, 以及Read1/Read2的测序引物。

右边的图是先在fragment DNA的两端加上PE adapter, 然后再引入和P5/P7 oligo互补配对的序列以及index序列，右图策略详细图如下，分两步：

1）PE adapter添加

利用碱基互补配对的原则，加上PE adapter。PE adpater中一部分是建库PCR富集时候需要用的引物序列，另一部分是测序时需要用的引物。

2）PCR 添加 index，P5，P7

Index也称barcode，用来区分不同样本的文库，因为测序仪一个lane产生数据量若干Gb，为了最大化利用测序仪，一次上机常会进行多个样本文库混合测序，在后续分析时，Index用来区分数据是来自哪个样本。

P5，P7是与flowcell上芯片连接的碱基序列，flowcell上也存在同样的P5 P7,flowcell下文介绍。

PCR富集目的片段

进行PCR扩增，循环数与投入的DNA量有关，使得文库达到上机浓度。

扩增文库大小质检

使用Agilent 2100对文库的insert size进行检测。

文库浓度定量

Qubit3.0 进行初步定量 Q-PCR对文库的有效浓度进行准确定量，至此文库构建结束。

建好的文库图？

illumina官网另外一张图

参考资料

https://www.fimm.fi/en/services/technology-centre/sequencing/next-generation-sequencing/dna-library-preparation

illumina官网

https://zhuanlan.zhihu.com/p/35278810

flow cell

为何要先介绍flow cell？

因为簇生成的过程发生在flow cell上。

flow cell简介

1）flow cell是一个玻璃片，上面有2个或8个泳道(lane)，有一元硬币那么厚，不同测序仪使用的flow cell可能不同，下图为一个8 lane flow cell。

不同平台可能对应不同的flow cell，如下：

2）flow cell表面都随机植入了大量与文库P5互补的序列及P7，如下图：

3）后面要介绍的簇生成和测序均发生在Lane里面；

2 簇生成步骤

为何要进行簇生成？

单个DNA文库序列释放荧光信号太弱，不容易被检测到；多个拷贝的簇DNA文库序列可以放大荧光信号，可以理解为一个簇对应fastq中一条read。

簇生成步骤

1）文库与flow cell表面P5杂交与互补链合成；

文库与flow cell表面P5杂交

DNA聚合酶作用下从3'到5'延伸合成互补链

互补链合成

2）双链变性；

双链变性洗脱文库

留下新合成的单链

3）桥式PCR扩增；

第一轮扩增

沿着箭头方向延伸扩增

桥式PCR扩增形成双链的“桥”

桥式双链DNA结构变性成两条分别和flow cell共价连接的链

第二轮桥式PCR扩增

杂交

沿着箭头方向延伸

结束第二轮PCR

桥式PCR N个循环后

多个桥变性

4）反链切除

留下与Flow cell上P7上的链

5）DNA链3'封闭

3’端被封闭，防止不必要的DNA延伸，簇生成到此结束。

参考资料

https://www.bilibili.com/video/BV1BW411a7Pt/?spm_id_from=333.788.videocard.1

https://www.bilibili.com/video/BV15s411t7SJ

Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics, 2016, 17(6):333-351.

继上一步簇在flow cell上生成后，下一步就开始测序。

illumina 测序原理

边合成边测序（sequence by synthesis，SBS），过程如下图（不同测序仪的dNTP荧光基团有差异，分4通道和2通道两类），共3步：

dNTP连接；
扫描照相；
切除叠氮基和标记的荧光基团；

1）4通道测序仪SBS原理

上图详解

dNTP连接

在聚合酶的作用下，某一种dNTP会结合到链上，叠氮基的存在使得一次只能连接一种dNTP；

扫描照相

剩余的dNTP和酶被冲掉，将Flow cell进行扫描照相，所得荧光对应的碱基即是该位置的碱基；同时在该Flow cell上有成千上万个cluster也在进行同样的反应，一个循环就能同时检测多个样本（这也是高通量的核心所在）；

切除叠氮基和标记的荧光基团

这个循环完成后，加入化学试剂把叠氮基和标记的荧光基团切掉，进行下一个循环（碱基的连接、扫描照相与切除）。如此重复直至所有链的碱基序列被检测出，也就是Read1 序列。

2）2通道测序仪SBS原理

-----------------------------------------------------------------------------

测序过程

杂交Read 1 引物

将Read1测序引物，四种dNTP（ATGC）和DNA聚合酶加入流动槽，测序引物与adapter中的互补引物杂交；

dNTP特点：

被荧光基团标记，每种碱基标记的荧光基团不一样（具有独特的荧光波长，会发出不同颜色）；
dNTP 3’末端连了一个叠氮基，这个叠氮基能够阻断后面的碱基与它相连，一次只能连接一个dNTP。

正义链测序

测序

洗脱

测序生成的片段被变性洗脱掉，正义链测序完成

index1测序

测序

index1 primer与链上index primer1 结合位点杂交配对，进行index1的合成及检测。

洗脱

测序生成的index1片段被变性洗脱掉，index1测序完成。

去掉成簇时所阻断的3'端

index2测序

测序

洗脱

桥式扩增反义链

扩增

以Flow cell上的P5 互补链为引物，Forward strand为模板进行桥式扩增，得到双链。

双链变性

正义链被切除

反义链测序

类似正义链测序，至此测序步骤结束

-----------------------------------------------------------------------------

数据分析

根据index获得每个样本的fastq格式测序数据或者bcl格式（Nextseq500下机数据为bcl格式），步骤如下：

-----------------------------------------------------------------------------

参考资料

https://www.bilibili.com/video/BV15s411t7SJ

https://www.bilibili.com/video/BV1ht411q7Wh

https://www.illumina.com.cn/

NGS测序基础梳理-文库构建、簇生成与边合成边测序

相关推荐