illumina不愧是二代测序无冕之王
前些天在朋友圈看到illumina公司的海报,非常精致,完善的整理了所有基于二代测序在各种组学的应用的建库方案,我想我们生信技能树平台作为生物信息学知识普及领域的龙头应该跟他遥相呼应一下。
背景知识
illumina在NGS乃至整个测序市场中的霸主地位已毋庸置疑。引用illumina官方说法:“世界上90%以上的测序数据都由Illumina仪器产生”,不较真的话,这句话确实在某种程度上反应了illumina雄踞NGS市场的现状。尤其是HiSeq系列测序仪的问世,以通量高,产量大,生产规模著称,能够快速、经济的进行大规模平行测序,在大型全基因组测序,全转录组,全外显子组测序,靶向基因测序方面优势明显。
下面是illumina测序仪产品发布的时间线:
HiSeq 3000/4000系统则基于成熟的HiSeq 2500系统,采用创新的有序流动槽技术最大限度提高效率,3.5天内可完成12个基因组、100个转录组或180个外显子组测序。HiSeq 3000/HiSeq 4000测序系统为生产级测序能力设立了一个全新的标准。
而2014年HiSeq X Ten系统的问世完成了人类历史上一大里程碑事件——千元基因组时代的到来。HiSeq X Ten系统是由一套共10台超高通量的HiSeq X仪器组成,每年能带来超过18,000个人类基因组,而每个基因组的价格约为1000美元,让癌症和复杂疾病的研究达到新的水平。虽然目前GEO里面的数据HiSeq X Ten测序仪产出的数据并不是独占鳌头,但也只是时间问题。(还有就是关于人类的测序数据大多涉及到隐私问题,不会在GEO里面完全公开)
NovaSeq系列测序仪问世,毫无疑问标志着测序新纪元的到来,旨在将基因组测序的价格进一步降至100美元。全新的NovaSeq系列测序系统,突破技术革新,具有可扩展的通量、灵活简便的配置和简化的操作流程,允许以更大的深度来发现罕见的遗传变异,为大规模发现复杂疾病变异打开了全新的市场。NovaSeq 测序平台单次运行最多可检测48个人类基因组,产出 6Tb 的数据量,运行时间缩短至40个小时。
illumina技术核心在于桥式PCR和边合成边测序(SBS)。illumina测序系统的碱基读取也是基于化学发光法来的,给每一个碱基加入荧光基团,通过拍照捕捉发光的碱基,如此就得到了DNA的原始序列信息。
也就是说,illumina原始读取的是图像数据文件,解析后才形成碱基序列文件。对应到序列文件,其测序源文件为BCL格式文件(per-cycle BCL basecall file),BCL是一种包含碱基信号和图块质量信息的二进制文件,在进入下游分析前,BCL文件会经由Casava碱基识别(Base Calling)转化为原始测序序列(Sequenced Reads),转化得到的序列我们称之为Raw Data或Raw Reads,格式为Fastq。