Omics精进04|临床Gene Panel检测-实验&&生物信息学分析
本文介绍临床Gene Panel检测的「实验流程」及「生物信息学分析流程」(下图为MSK-IMPACT 468基因panel的检测流程,各产品流程也大同小异,本文参考此流程)。 个人能力有限,欢迎指出不足。
本文目录
实验流程 Panel探针合成与QC 样本准备 基因组DNA抽提与QC 文库构建与QC 液相杂交捕获靶向文库 靶向文库高通量测序生物信息学分析流程(无UMI标签) Trimmomatic或cutadapt过滤 FastQc数据质控 bwa比对到参考基因组 samtools进行bam转换 picard或samtools对bam排序 picard或者gatk去重复序列 gatk重比对(Smith-Waterman算法) gatk校正碱基质量值(BQSR) call变异 annovar注释变异 免疫治疗相关Biomarker计算 关键参数统计
实验流程
Panel探针合成与QC
探针即扩增panel区域引物,QC要保证探针的GC比均匀、纯度高、特异性强。
样本准备
肿瘤样本类型,常用样本类型有福尔马林固定石蜡包埋处理的样本(Formalin-Fixed and Parrffin-Embedded,「FFPE」)、「新鲜组织」、「外周血」【肿瘤相关的为ctDNA(circulating tumor DNA,ctDNA),含量极其少,所以后续测序深度显著高于其它样本】、「胸腹水」上清、胸腹水细胞。 对照样本类型(在「区分somatic和germline变异时很关键」),对照样本类型的选择和肿瘤样本的类型选择相关联,当肿瘤样本为全血时,取白细胞做对照;当肿瘤样本为胸腹水时,取外周血做对照;当肿瘤样本为组织时,可选择癌旁或者外周血。
基因组DNA抽提与QC
DNA抽提使用商业化的Kit,SOP标准流程,没啥好说的。 DNA QC,主要看浓度、完整度、纯度,会用到Qubit、琼脂糖电泳等。
文库构建与QC
文库构建,商业化Kit,基因组DNA片段化、加A-tailing、加adapters(有的产品会添加「UMI」标签,进行单分子标记)、PCR富集、纯化等。 文库QC,检测文库长度分布、浓度。
液相杂交捕获靶向文库
panel探针与文库杂交,捕获纯化回收靶向文库,Agilent 2100质检文库长度,Q-PCR精确定量。
靶向文库高通量测序
测序原理及过程之前写过两篇很详细的文章,不再赘述,感兴趣的可以看看:
NGS测序原理梳理02-簇生成
NGS测序原理梳理03-边合成边测序
为了降低实验误差,建库时有时候会用到UMI标签,加了标签后生信分析流程会很不一样,所以这里会分两种情况简单说说。
生物信息学分析流程(无UMI标签)
Trimmomatic或cutadapt过滤
去接头、测序引物、低质量碱基、短序列及高N比率的碱基。
FastQc数据质控
统计clean reads中碱基质量超过Q20及Q30的占比、reads数、GC比等。
bwa比对到参考基因组
bwa index构建参考基因组索引、bwa mem比对得到sam文件。
samtools进行bam转换
samtools view -bS将sam转换为bam格式。
picard或samtools对bam排序
samtools sort或者picard SortSam将bam文件按照参考序列位置升序排序。
picard或者gatk去重复序列
picard MarkDuplicates或者gatk MarkDuplicates去除实验阶段PCR过程引入的重复序列,降低后续call出变异的假阳假阴性率。
gatk重比对(Smith-Waterman算法)
由于参考基因组与比对算法在特殊区域存在一定缺陷导致需要重比对。gatk RealignerTargetCreator 定位重比对区域gatk 「Indel」Realigner进行重比对
gatk校正碱基质量值(BQSR)
校正测序过程中的系统性错误。gatk BaseRecalibrator找出需要校正的readsgatk PrintReads 校正碱基质量值「注意」,当后续使用gatk的HaplotypeCaller来call变异时,重比对步骤是可以省略的,因为HaplotypeCaller也有局部重比对的作用。至此,bam文件的各种校正结束,下一步开始找变异。
call变异
变异分为「体细胞突变」(somatic)和「胚系突变」(germline),其中somatic突变可指导肿瘤相关靶向药的使用,预后等,germline突变可预测遗传性肿瘤发病风险。体细胞突变(somatic)和胚系突变(germline)差异见:
一文彻底搞明白Germline Mutation和Somatic Mutation
找变异的方法非常多,一般会选择几个软件然后按项目实际情况挑变异,软件如(只列出了部分):
「call somatic SNV、indel」
主流可选软件有gatk Mutect2(gatk4.0已经囊括了Mutect2,注意是Mu「t」ect2不是Mu「T」ect2)、strelka2 、VarScan、gatk(gatk HaplotypeCaller同时找出snv和indel;gatk SelectVariants分别挑出snv和indel;gatk VariantFiltration过滤变异)等,结果为一个VCF文件。
「call somatic Fusion」
可选软件有factera、FusionMap、delly等。
「call somatic CNV」
可选软件有cnvkit、control-freec等等。
「call germline SNV, Indel」
gatk HaplotypeCaller|VariantFiltration、 Samtools/BCFtools等。MSK-IMPACT 468的一些软件:
annovar注释变异
请出annovar的table_annovar.pl,主要从三个方面对变异进行注释:
基于基因的数据库注释(「Gene-based annotation」),主要注释该SNV、CNV等变异所在的基因名称、是否影响编码蛋白及氨基酸位置信息,会用到RefSeq genes, UCSC genes, ENSEMBL genes, GENCODE genes, AceView genes等数据库; 基于基因组区域的数据库注释(「Region-based annotation」),主要注释该异位于基因组的什么功能区域,如 transcription factor、exon、基因间区、UTR等; 基于过滤功能的数据库注释(「Filter-based annotation」),主要注释该变异是否出现在一些常见数据库中,如1000 Genome Project, NHLBI-ESP 6500 exomes or Exome Aggregation Consortium (ExAC) or Genome Aggregation Database (gnomAD)。
免疫治疗相关Biomarker计算
「MMR,MSI,TMB」
关键参数统计
参考panel MSK-IMPACT 468基因和Omics Core 19,396基因的参数及cutoff值,重要指标有panel区域的「覆盖度」(Average target coverage > NX )、Q30、热点突变区域的覆盖度(「DP」,Mutation Coverage)、热点突变区域的突变reads(「AD」,Number of Mutant Reads )、「突变丰度」(VF,Mutation Frequency)等,相关阈值如下。
「MSK-IMPACT 468」
「Omics Core 19,396」