使用SNVSniffer软件找somatic mutation

SNVSniffer软件发表在BMC Syst Biol. 2016 Aug,文章标题是:《SNVSniffer: an integrated caller for germline and somatic single-nucleotide and indel mutations》。一般来说,新的软件发表,必须跟该领域比较流行的软件进行性能比较,该软件也和VarScan2, SomaticSniper, JointSNVMix2 and MuTect进行了比较。

SNVSniffer and synthetic samples are publicly available at http://snvsniffer.sourceforge.net

背景知识

体细胞突变(somatic mutation)是指患者某些组织或者器官后天性地发生了体细胞变异,虽然它不会遗传给后代个体,却可以通过细胞分裂,遗传给子代细胞。体细胞突变对肿瘤的发生发展有关键性的作用,并且它也是制定肿瘤癌症靶向治疗措施的关键所在。

NGS使体细胞变异的检测更加全面,成本更低,在检测多种体细胞变异上具有很大的优势,但在使用过程中还存在着挑战:如**样品降解、覆盖度不足、遗传异质性和组织污染(杂质)等问题。为应对以上挑战,降低错误率,科学家采取了不同的算法和统计模型用于检测体细胞突变。目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2 **。这些软件大都是直接对肿瘤-正常样本的每个位点进行比较,对肿瘤样本中明显高于正常样本的次等位基因进行标记,作为体细胞变异,同时排除种系突变和杂合性丢失(LOH)情况。虽然这些软件具有较高的引用率,并在不断地更新,但仍存在不足:

  • a 、缺乏完整可靠的实验来评估检测结果;

  • b、 缺乏金标准,不能保证检测到的灵敏度和特异性最高;

  • c、 在实际应用中,各软件的相对优缺点在很大程度上是未知的。

下面是TCGA计划采取的软件:

  • MuSE
  • varscan
  • MuTect
  • SomaticSniper

大家可以去下载到TCGA计划的这4个软件输出的maf文件格式的somatic突变信息文件哦。(文末有下载链接哈)

首先下载安装SNVSniffer

mkdir -p $HOME/biosoft/SNVSniffercd $HOME/biosoft/SNVSnifferwget https://sourceforge.net/projects/snvsniffer/files/SNVSniffer-v2.0.4_bin_x86_64.tar.gztar zxvf SNVSniffer-v2.0.4_bin_x86_64.tar.gz./SNVSniffer somatic --help

针对N-T配对的bam文件运行SNVSniffer

主要是用到了SNVSniffer软件的的 somatic (a somatic SNV/indel caller from paired tumor-normal samples),

虽然支持3种输入数据;

-f <int> (input file format, default = 2) 0: mpileup format generated by SAMtools 1: pipeup format generated by MAQ 2: BAM format

但最常用的就是bam文件啦,默认格式。

ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta$HOME/biosoft/SNVSniffer/SNVSniffer somatic
normal_bam=N_recal.bamtumor_bam=T_recal.bamsamtools view -H $normal_bam > normal_header.samsamtools view -H $tumor_bam > tumor_header.sam $HOME/biosoft/SNVSniffer/SNVSniffer somatic -g $ref \normal_header.sam tumor_header.sam $normal_bam $tumor_bam \-o out.vcf

一般来说,都是一大波样品批量运行啦, 需要一个一个config文件,主要是3列信息:

  • 第一列是肿瘤命名
  • 第二列是肿瘤病人的normal组织的bam文件地址
  • 第三列是肿瘤病人的肿瘤组织的bam文件地址。

批量运行SNVSniffer的脚本如下:

ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta$HOME/biosoft/SNVSniffer/SNVSniffer somatic
cat $config_file |while read iddoarr=($id)normal_bam=${arr[1]}tumor_bam=${arr[2]}sample=${arr[0]}
if((i%$number1==$number2))thenif [ ! -f ${sample}_SNVSniffer.vcf ]; then
samtools view -H $normal_bam > ${sample}_normal_header.sam samtools view -H $tumor_bam > ${sample}_tumor_header.sam $HOME/biosoft/SNVSniffer/SNVSniffer somatic -g $ref \ ${sample}_normal_header.sam ${sample}_tumor_header.sam $normal_bam $tumor_bam \ -o ${sample}_SNVSniffer.vcf
fi
fii=$((i+1))
done

有意思的是,这个SNVSniffer软件得到的vcf文件,每个肿瘤WES都是几万个somatic突变信息,太可怕了。如下所示:

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NORMAL TUMORchr1 12112 . A G . PASS DP=337;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0303704 GT:DP 0/0:115 0/1:222chr1 14604 . A G . PASS DP=105;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0424507 GT:DP 0/0:23 0/1:82chr1 14610 . T C . PASS DP=122;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0367495 GT:DP 0/0:26 0/1:96chr1 16487 . T C . PASS DP=66;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0419225 GT:DP 0/0:12 0/1:54chr1 17614 . G A . PASS DP=258;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0238812 GT:DP 0/0:150 0/1:108chr1 17730 . C A . PASS DP=186;VT=SNP;SS=SOMATIC;HC=4.350;PVAL=0.0752379 GT:DP 0/0:94 0/1:92chr1 17746 . A G . PASS DP=165;VT=SNP;SS=SOMATIC;LC=3.657;PVAL=0.00617743 GT:DP 0/0:80 0/1:85

这个就非常尴尬,一般来说,肿瘤WES的每个病人也就是几百个somatic突变信息的数量级,这个SNVSniffer软件一下子整出来了几万个,后续就算去理解SNVSniffer的算法,然后针对性的根据vcf文件的信息进行过滤也很麻烦。

所以同样的也放弃SNVSniffer软件。

SNVSniffer的其它功能

总共是5个功能:

  • snp (a SNP/indel caller),
  • somatic (a somatic SNV/indel caller from paired tumor-normal samples),
  • gsim (an Illumina-like read simulator for SNP/indel calling),
  • ssim (an Illumina-like tumor-normal sample pair simulator for somatic SNV/indel calling),
  • eval (a VCF-based evaluation algorithm for germine and somatic SNVs/indels).

大概率是用不上了,就不过多介绍。

还是需要继续看综述或者测评工具:

  • 2016年文章:Evaluation of Nine Somatic Variant Callers for Detection of Somatic Mutations in Exome and Targeted Deep Sequencing Data,链接是:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0151664
  • 2018年文章:A review of somatic single nucleotide variant calling algorithms fornext-generation sequencing data,链接是https://www.sciencedirect.com/science/article/pii/S2001037017300946

争取早日找到合适的工具替代GATK的Mutect2流程,见前面我的分享:最新最全的mutect2教程

附上TCGA数据库maf突变资料官方大全

因为TCGA计划跨时太长,这些年找somatic变异的软件也很多,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的整理了最后的somatic突变数据。依托于文章:Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines   March 201810.1016/j.cels.2018.03.002

纳入的软件包括:

Deposited Data
MC3 Files https://gdc.cancer.gov/about-data/publications/mc3-2017
Software and Algorithms
MuTect https://github.com/broadinstitute/mutect
Pindel https://github.com/genome/pindel
Radia https://github.com/aradenbaugh/radia
VarScan2 http://dkoboldt.github.io/varscan/
SomaticSniper https://github.com/genome/somatic-sniper
MuSE https://github.com/danielfan/MuSE
Indelocator http://archive.broadinstitute.org/cancer/cga/indelocator
Maf2Vcf https://github.com/covingto/vcf2maf/

全部样本的somatic变异文件合并起来是七百多M,MC3 Public MAF - mc3.v0.2.8.PUBLIC.maf.gz

  • 下载链接是:https://api.gdc.cancer.gov/data/1c8cfe5f-e52d-41ba-94da-f15ea1337efc
(0)

相关推荐