用WES和RNA-Seq数据提取到的somatic SNVs不一致
学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!
全外显子测序(WES)和RNA测序(RNA-Seq)是二代测序(NGS)的两个主要平台,其中WES主要用于发现DNA变异,而RNA-Seq的使用集中在基因表达量的测量,生信技能树jimmy老师B站都分享过这两方面数据的处理视频教程:
其实两者均可用于检测遗传变异,特别是在单核苷酸变异方面(SNVs)。如果大家对RNA-seq数据如何找变异位点的流程不是很清楚,可以看我们生信技能树以前的教程:
2017年6月:RNA-seq 检测变异之 GATK 最佳实践流程 2019年11月:最新版针对RNA-seq数据的GATK找变异流程
然而如何从WES和RNA-Seq中检测出突变的一致性尚未得到系统的评估。2015的一个文章在肿瘤病人里面做了这样的比较:Inconsistency and features of single nucleotide variants detected in whole exome sequencing versus transcriptome sequencing: 有意思的是引用情况非常糟糕,截止到目前(2020-09-05)都不到20个引用!
在这项研究中,Vanderbilt University医学部的研究人员使用27对肿瘤样本及其匹配的正常样本的WES和RNA-Seq数据,研究了SNV检测中技术和生物学上的不一致性。他们分析了三类SNVs:
(1)仅在WES中检测到的 (2)仅在RNA-Seq中检测到的 (3)在两者中均检测到的。
他们发现在WES和RNA-Seq中检测到的SNVs有很小的重叠(约14%),仅在WES中检测到的SNVs主要由于其低覆盖度、低表达或它们位于RNA-Seq数据中的非转录链,而只在RNA-Seq中检测到的SNVs主要因其位置超出了WES检测边界(这一部分约占71%),以及区域覆盖度低、突变等位基因覆盖率低或RNA编辑。两种技术共享的SNVs在WES和RNA-Seq中都具有较高的基因座特异性覆盖度,并且具有较高的基因表达水平。
而WES和RNA-Seq各自特有的SNVs显示出不同的核苷酸替代模式,例如55%的RNA-Seq特有的突变是从A:T → G:C(RNA编辑的一个标志)。这项研究对WES和RNA-Seq数据中获得的somatic SNVs的不一致性提供了重要的评估。
VarScan2读取 count值确定在仅在WES中检测中的 SNVs的原因。(A)堆叠柱状图展示了仅在 WES检测出的 SNVs的 RNA-Seq的 counts结果。(B)条形图展示了 RNA-Seq和 WES共同检测到的 SNVs的 counts结果。红色代表 counts值为 NA(没有覆盖),黄色代表 counts = 1,绿色代表 counts = 2-7,蓝色代表counts ≥ 8。大多数仅在WES中检测出的 SNVs不在 RNA-Seq中。
O’Brien T D, Jia P, Xia J, et al. Inconsistency and features of single nucleotide variants detected in whole exome sequencing versus transcriptome sequencing: A case study in lung cancer[J]. Methods, 2015, 83: 118-127.
来源:https://rna-seqblog.com/inconsistency-of-somatic-snvs-called-in-wes-and-rna-seq-data/
备注:
SNVs(单核苷酸变异)和SNPs(单核苷酸多态性)有所不同,SNPs既存在于肿瘤DNA中,也存在于对照DNA中,而 somatic SNV仅存在于肿瘤样本中。当然,更主流的描述其实是 germline和somatic的变异位点的描述。
学徒作业
现在提供WES和RNA-seq数据的队列研究非常多,如果大家有服务器,完全可以重复一下这篇文章的分析过程,做一下同样的比较!
很久以前,生信技能树分享过台湾OSCC癌症多组学,文章是 2016年10月年发表的:APOBEC3A is an oral cancer prognostic biomarker in Taiwanese carriers of an APOBEC deletion polymorphism 就是提供WES和RNA-seq数据
对外显子数据的分析
首先统计了50个OSCC病人的肿瘤癌旁配对全外显子数据的测序总览,走bwa+gatk流程,并且走mutect得到somatic mutations列表,经由 Oncotator 注释成maf文件。最终对着50个病人找到了24,051 somatic mutations 。
然后找拷贝数变异,使用的是 GATK DepthOfCOverage计算测序深度,再用exome CNV 判断拷贝数情况。
测序策略是PE100bp, (75-Mbp target region, mean depth = 244 ± 54×),使用的测序仪和试剂盒是 HiSeq 2000 with the TruSeq PE Cluster kit v3 and TruSeq SBS kit v3
对转录组数据的分析
该实验共得到39对OSCC病人的肿瘤癌旁配对转录组数据,首先检查的测序总览。
然后走标准的转录组数据分析流程: Trimmomatic+hg19+STAR+RSEM+GENCODE
然后,定义了 3548个显著的差异表达基因,阈值是 *p-*value < 0.05 and fold change > 2 ,只保留 transcripts per million (TPM) larger than 0.5。
大家可以下载全部的数据,走Inconsistency and features of single nucleotide variants detected in whole exome sequencing versus transcriptome sequencing:提到的图表。