一个好像没有做任何改变的参数

昨天我们重点强调了star这个比对软件开发团队,附带的star-fusion:最好用的融合基因查找工具终于正式发表了 因为我自己是时隔两年后再次使用它,所以很多数据库和软件代码都没有更新,中间一个小报错就浪费了四五个小时,所以分享一下这个体验!

用过star软件的朋友都知道,参数真的是很多,核心代码是:

start=$(date +%s.%N)
echo star start `date`
$bin_star --runThreadN  4  --genomeDir $star_index  \
--twopassMode Basic --outReadsUnmapped None --chimSegmentMin 12  \
--alignIntronMax 100000 --chimSegmentReadGapMax parameter 3  \
--alignSJstitchMismatchNmax 5 -1 5 5  \
--readFilesCommand zcat --readFilesIn $fq1 $fq2 --outFileNamePrefix  ${sample}_
mv ${sample}_Aligned.out.sam $sample.sam
$bin_samtools sort -o $sample.bam  $sample.sam
$bin_samtools index $sample.bam
$bin_samtools flagstat $sample.bam  > $sample.flagstat
touch  ok.star.$sample.status
rm  $sample.sam
echo star  end  `date`
dur=$(echo "$(date +%s.%N) - $start" | bc)
printf "Execution time for star : %.6f seconds" $dur

实际上就是一行命令在运行比对过程,但是呢,参数太多了,调起来很麻烦,通常如果不理解的话就不建议修改参数。

学这个软件好些年了,当初把参数弄懂了就一直没有去改变,直到最近需要使用新版star-fusion来找融合基因遇到报错才重新捡起来,报错是:

qiEXITING because of FATAL ERROR: Genome version: 2.7.1a is INCOMPATIBLE with running STAR version: 2.7.0f
SOLUTION: please re-generate genome from scratch with running version of STAR, or with version: 2.7.0d
's
Oct 29 20:10:37 ...... FATAL ERROR, exiting

看起来是版本问题,所以我耗费了约4小时在测试不同的版本,后来发现怎么调整都不对,谷歌搜索看到有一个链接:https://github.com/STAR-Fusion/STAR-Fusion/issues/104  才知道需要注意参数:chimOutJunctionFormat

这个参数默认是0,需要修改为1,大家都知道如果运行软件的时候,使用默认参数就可以不添加,所以我的命令通常是没有修改,那样根本就没有意识到还有这个参数!

比较修改前后软件结果的差异

大家都知道,star软件运行速度很慢,我已经跑了几百个样本,输出了这一点Chimeric.out.junction文件,仅仅是因为一个参数错误,导致其格式并不符合要求,所以我想看看是不是可以比较不同参数的Chimeric.out.junction文件,看看能否修改格式,让它符合star-fusion的输入呢?

首先看,正确的格式:

$head Lib_FUSCCTNBC001_Chimeric.out.junction
chrX    153959404   +   chr11   65441502    -   -1  0   0   Lib_FUSCCTNBC001.273243 153958692   2S75M564N73M    65441353    149M
chr14    71430437    -   chr14   74768794    -   0   0   0   Lib_FUSCCTNBC001.273359 71430438    73S77M  74768544    150M27p73M77S
chr21    8251540 -   chr8    42032872    +   -1  0   0   Lib_FUSCCTNBC001.273411 8251541 5S145M  42032873    83M
chr2    207113838   +   chr2    207113716   +   0   0   5   Lib_FUSCCTNBC001.273783 207113809   29M121S 207113717   29S121M-67p150M
chr19    23653819    +   chr19   23653669    +   -1  0   0   Lib_FUSCCTNBC001.273973 23653672    147M    23653670    149M
chr5    109336411   +   chr14   23312911    -   -1  0   0   Lib_FUSCCTNBC001.274024 109336261   150M    23312848    63M
chr6    7289920 +   chr2    215980809   +   0   0   0   Lib_FUSCCTNBC001.274048 7289823 97M53S  215980810   97S53M-14p74M
chr11    33287179    -   chr13   19794055    +   0   0   0   Lib_FUSCCTNBC001.274095 33287180    35S115M 19794056    115S35M-35p145M
chr13    60042810    +   chr12   56597247    +   -1  0   0   Lib_FUSCCTNBC001.274103 60016117    1S29M26544N120M 56597248    137M
chr8    22649163    +   chr8    22648954    +   0   0   7   Lib_FUSCCTNBC001.274137 22649109    54M96S  22648955    54S96M57p91M

然后看错误的格式:

$head SRR2016957_Chimeric.out.junction
chr17    58331130    -   chr17   58331230    -   -1  0   0   SRR2016957.400942   58331131    3S97M   58331131    99M1S
chr1    201331532   -   chr17   1033652 +   -1  0   0   SRR2016957.400994   201331533   100M    1033653 100M
chr20    41414170    -   chr20   41414134    +   0   0   2   SRR2016957.401127   41414171    33S67M-40p100M  41414135    67S33M
chr14    102810820   +   chr14   102811010   -   -1  0   0   SRR2016957.401161   102810720   100M    102810913   97M3S
chr13    95612067    -   chr13   95619886    +   0   0   2   SRR2016957.401169   95612068    25S75M7777p28M2395N72M  95619887    75S25M
chr1    3889730 +   chr10   62087322    +   0   0   1   SRR2016957.401243   3889419 100M183p28M25S  62087323    28S25M
chr7    33155691    +   chr7    33257368    -   0   0   1   SRR2016957.401278   33155644    47M53S  33177481    100M79734p53M47S
chr17    7513826 -   chr17   7513925 -   -1  0   0   SRR2016957.401300   7513827 1S97M   7513827 98M
chr8    100272833   -   chr17   28602758    -   -1  0   0   SRR2016957.401332   100272834   100M    28602659    99M
chr2    233516919   -   chr2    233516874   +   0   0   4   SRR2016957.401361   233516920   44S56M160p100M  233516875   56S44M

是不是傻眼了,居然一模一样的格式,那我修改这个参数干啥???

仔细看说明书文档

调用命令查看说明书文档,发现:

chimOutJunctionFormat           0
    int: formatting type for the Chimeric.out.junction file
                                0 ... no comment lines/headers
                                1 ... comment lines at the end of the file: command line and Nreads: total, unique, multi

原来这个命令,仅仅是在文件末尾加上两个井号键开头的注释信息,说不定star-fusion软件本来就不使用这个信息呢,仅仅是看看文末有没有两个井号键开头的注释信息来判断我们的star软件是否合格!

那我们现在看看这个参数修改后的Chimeric.out.junction文件增加的两个井号键开头的注释信息到底是什么吧:

# 2.7.3a   /home/yb77613/biosoft/STAR-2.7.3a/bin/Linux_x86_64/STAR --runThreadN 4 --genomeDir /home/yb77613/biosoft/starFusion/db/GRCh38_gencode_v31_CTAT_lib_Oct012019.plug-n-play/ctat_genome_lib_build_dir/ref_genome.fa.star.idx/ --twopassMode Basic --outReadsUnmapped None --chimSegmentMin 12 --alignIntronMax 100000 --chimSegmentReadGapMax parameter 3 --chimOutJunctionFormat 1 --alignSJstitchMismatchNmax 5 -1 5 5 --readFilesCommand zcat --readFilesIn /home/yb77613/data/public/tnbc/clean/Lib_FUSCCTNBC001_1_val_1.fq.gz /home/yb77613/data/public/tnbc/clean/Lib_FUSCCTNBC001_2_val_2.fq.gz --outFileNamePrefix Lib_FUSCCTNBC001_
# Nreads 41047586    NreadsUnique 31992503   NreadsMulti 6000335

可以看到,第一个跟bam文件的头注释信息差不多,就是记录着我们的软件命令,但是第二行稍微有点不一样,信息,而且每个样本的信息都不一样:

Lib_FUSCCTNBC001_Chimeric.out.junction:# Nreads 41047586    NreadsUnique 31992503   NreadsMulti 6000335
Lib_FUSCCTNBC003_Chimeric.out.junction:# Nreads 22899117    NreadsUnique 19079724   NreadsMulti 2349946
Lib_FUSCCTNBC003.PT_Chimeric.out.junction:# Nreads 34291126    NreadsUnique 27037183   NreadsMulti 4164969
Lib_FUSCCTNBC004_Chimeric.out.junction:# Nreads 32166763    NreadsUnique 21336913   NreadsMulti 7887447

两个策略

首先,我们可以去看star-fusion软件读取Chimeric.out.junction文件的perl代码,看看软件到底需要这文件末尾加上两个井号键开头的注释信息干嘛了,其次,我们可以尝试修改这文件末尾加上两个井号键开头的注释信息,看看运行star-fusion软件是否结果出现不一样的地方。

查看源代码毕竟难道较高,我们先走第二个策略,尝试修改这文件末尾加上两个井号键开头的注释信息,看看修改前后结果是否与差异

STAR-Fusion --genome_lib_dir $lib -J Lib_FUSCCTNBC001_Chimeric.out.junction  --output_dir s1

我简单看了看,实际上并没有差异, 但是比较结果的差异其实也是很复杂的事情,实际上查源代码是最肯定的解决方案,如果公司有这样的人物是最好的啦!

如果两个策略的工程师公司或者科研团队都没有,还有一条路,就是全部推倒重来,只要你的计算资源足够,时间也足够,无非就是多一个星期而已!

关于软件设计的一点看法

多说一句,我特别不喜欢软件在输出里面加上这些小尾巴,比如htseq-counts,在TCGA下载表达矩阵,就会出现:

一般人技术不行,也不够细心,根本就无法意识到,里面有在这些不是基因的玩意!

另外关于star-fusion软件的一个提议

大家都知道,目前单细胞是10x的天下,而10x的测序数据,御用软件cellranger其实就是star的包装,关于10X仪器的单细胞转录组数据走cellranger流程,我们在单细胞天地多次分享过流程笔记,大家可以自行前往学习,如下:

我这里想说的是,既然是star的包装,其实结果就可以走star-fusion来找融合基因,好奇怪的是目前大量的单细胞转录组数据出来了,却没有一个文章去探索融合基因,也没有人开发工具,是一个空白市场,大家可以试试看哦。

不过,商业化很成功的10X仪器做单细胞其实找融合基因还是有点勉强的,毕竟它并不是转录组全长测序,所以基本上很难获得融合位点融合事件,不过,如果是smart-seq2技术实际上是可以的啊!。不要仅仅是走单细胞下游分析标准流程啊,就是那些R包的认知,包括 scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 ,分析流程也大同小异:

  • step1: 创建对象

  • step2: 质量控制

  • step3: 表达量的标准化和归一化

  • step4: 去除干扰因素(多个样本整合)

  • step5: 判断重要的基因

  • step6: 多种降维算法

  • step7: 可视化降维结果

  • step8: 多种聚类算法

  • step9: 聚类后找每个细胞亚群的标志基因

  • step10: 继续分类

你可以做的更好!

(0)

相关推荐