使用SNVSniffer软件找somatic mutation
SNVSniffer软件发表在BMC Syst Biol. 2016 Aug,文章标题是:《SNVSniffer: an integrated caller for germline and somatic single-nucleotide and indel mutations》。一般来说,新的软件发表,必须跟该领域比较流行的软件进行性能比较,该软件也和VarScan2, SomaticSniper, JointSNVMix2 and MuTect进行了比较。
SNVSniffer and synthetic samples are publicly available at http://snvsniffer.sourceforge.net
背景知识
体细胞突变(somatic mutation)是指患者某些组织或者器官后天性地发生了体细胞变异,虽然它不会遗传给后代个体,却可以通过细胞分裂,遗传给子代细胞。体细胞突变对肿瘤的发生发展有关键性的作用,并且它也是制定肿瘤癌症靶向治疗措施的关键所在。
NGS使体细胞变异的检测更加全面,成本更低,在检测多种体细胞变异上具有很大的优势,但在使用过程中还存在着挑战:如**样品降解、覆盖度不足、遗传异质性和组织污染(杂质)等问题。为应对以上挑战,降低错误率,科学家采取了不同的算法和统计模型用于检测体细胞突变。目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2 **。这些软件大都是直接对肿瘤-正常样本的每个位点进行比较,对肿瘤样本中明显高于正常样本的次等位基因进行标记,作为体细胞变异,同时排除种系突变和杂合性丢失(LOH)情况。虽然这些软件具有较高的引用率,并在不断地更新,但仍存在不足:
a 、缺乏完整可靠的实验来评估检测结果;
b、 缺乏金标准,不能保证检测到的灵敏度和特异性最高;
c、 在实际应用中,各软件的相对优缺点在很大程度上是未知的。
下面是TCGA计划采取的软件:
MuSE varscan MuTect SomaticSniper
大家可以去下载到TCGA计划的这4个软件输出的maf文件格式的somatic突变信息文件哦。(文末有下载链接哈)
首先下载安装SNVSniffer
mkdir -p $HOME/biosoft/SNVSniffer
cd $HOME/biosoft/SNVSniffer
wget https://sourceforge.net/projects/snvsniffer/files/SNVSniffer-v2.0.4_bin_x86_64.tar.gz
tar zxvf SNVSniffer-v2.0.4_bin_x86_64.tar.gz
./SNVSniffer somatic --help
针对N-T配对的bam文件运行SNVSniffer
主要是用到了SNVSniffer软件的的 somatic (a somatic SNV/indel caller from paired tumor-normal samples),
虽然支持3种输入数据;
-f <int> (input file format, default = 2)
0: mpileup format generated by SAMtools
1: pipeup format generated by MAQ
2: BAM format
但最常用的就是bam文件啦,默认格式。
ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta
$HOME/biosoft/SNVSniffer/SNVSniffer somatic
normal_bam=N_recal.bam
tumor_bam=T_recal.bam
samtools view -H $normal_bam > normal_header.sam
samtools view -H $tumor_bam > tumor_header.sam
$HOME/biosoft/SNVSniffer/SNVSniffer somatic -g $ref \
normal_header.sam tumor_header.sam $normal_bam $tumor_bam \
-o out.vcf
一般来说,都是一大波样品批量运行啦, 需要一个一个config文件,主要是3列信息:
第一列是肿瘤命名 第二列是肿瘤病人的normal组织的bam文件地址 第三列是肿瘤病人的肿瘤组织的bam文件地址。
批量运行SNVSniffer的脚本如下:
ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta
$HOME/biosoft/SNVSniffer/SNVSniffer somatic
cat $config_file |while read id
do
arr=($id)
normal_bam=${arr[1]}
tumor_bam=${arr[2]}
sample=${arr[0]}
if((i%$number1==$number2))
then
if [ ! -f ${sample}_SNVSniffer.vcf ]; then
samtools view -H $normal_bam > ${sample}_normal_header.sam
samtools view -H $tumor_bam > ${sample}_tumor_header.sam
$HOME/biosoft/SNVSniffer/SNVSniffer somatic -g $ref \
${sample}_normal_header.sam ${sample}_tumor_header.sam $normal_bam $tumor_bam \
-o ${sample}_SNVSniffer.vcf
fi
fi
i=$((i+1))
done
有意思的是,这个SNVSniffer软件得到的vcf文件,每个肿瘤WES都是几万个somatic突变信息,太可怕了。如下所示:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NORMAL TUMOR
chr1 12112 . A G . PASS DP=337;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0303704 GT:DP 0/0:115 0/1:222
chr1 14604 . A G . PASS DP=105;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0424507 GT:DP 0/0:23 0/1:82
chr1 14610 . T C . PASS DP=122;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0367495 GT:DP 0/0:26 0/1:96
chr1 16487 . T C . PASS DP=66;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0419225 GT:DP 0/0:12 0/1:54
chr1 17614 . G A . PASS DP=258;VT=SNP;SS=SOMATIC;HC=3.657;PVAL=0.0238812 GT:DP 0/0:150 0/1:108
chr1 17730 . C A . PASS DP=186;VT=SNP;SS=SOMATIC;HC=4.350;PVAL=0.0752379 GT:DP 0/0:94 0/1:92
chr1 17746 . A G . PASS DP=165;VT=SNP;SS=SOMATIC;LC=3.657;PVAL=0.00617743 GT:DP 0/0:80 0/1:85
这个就非常尴尬,一般来说,肿瘤WES的每个病人也就是几百个somatic突变信息的数量级,这个SNVSniffer软件一下子整出来了几万个,后续就算去理解SNVSniffer的算法,然后针对性的根据vcf文件的信息进行过滤也很麻烦。
所以同样的也放弃SNVSniffer软件。
SNVSniffer的其它功能
总共是5个功能:
snp (a SNP/indel caller), somatic (a somatic SNV/indel caller from paired tumor-normal samples), gsim (an Illumina-like read simulator for SNP/indel calling), ssim (an Illumina-like tumor-normal sample pair simulator for somatic SNV/indel calling), eval (a VCF-based evaluation algorithm for germine and somatic SNVs/indels).
大概率是用不上了,就不过多介绍。
还是需要继续看综述或者测评工具:
2016年文章:Evaluation of Nine Somatic Variant Callers for Detection of Somatic Mutations in Exome and Targeted Deep Sequencing Data,链接是:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0151664 2018年文章:A review of somatic single nucleotide variant calling algorithms fornext-generation sequencing data,链接是https://www.sciencedirect.com/science/article/pii/S2001037017300946
争取早日找到合适的工具替代GATK的Mutect2流程,见前面我的分享:最新最全的mutect2教程,
附上TCGA数据库maf突变资料官方大全
因为TCGA计划跨时太长,这些年找somatic变异的软件也很多,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的整理了最后的somatic突变数据。依托于文章:Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines March 201810.1016/j.cels.2018.03.002
纳入的软件包括:
Deposited Data | ||
---|---|---|
MC3 Files | https://gdc.cancer.gov/about-data/publications/mc3-2017 | |
Software and Algorithms | ||
MuTect | https://github.com/broadinstitute/mutect | |
Pindel | https://github.com/genome/pindel | |
Radia | https://github.com/aradenbaugh/radia | |
VarScan2 | http://dkoboldt.github.io/varscan/ | |
SomaticSniper | https://github.com/genome/somatic-sniper | |
MuSE | https://github.com/danielfan/MuSE | |
Indelocator | http://archive.broadinstitute.org/cancer/cga/indelocator | |
Maf2Vcf | https://github.com/covingto/vcf2maf/ |
全部样本的somatic变异文件合并起来是七百多M,MC3 Public MAF - mc3.v0.2.8.PUBLIC.maf.gz
下载链接是:https://api.gdc.cancer.gov/data/1c8cfe5f-e52d-41ba-94da-f15ea1337efc