学徒考核-计算wes数据的全部外显子的平均测序深度

如果学徒之后跑流程,那其实前途很有限,所以我安排了一个随机任务,考核他们查资料解决问题的能力。我在Published: 04 April 2012 文章, The clonal and mutational evolution spectrum of primary triple-negative breast cancers 看到了一个有趣的图。

首先走wes流程拿到bam文件这个我们多次讲解了,略,大家自行前往B站看WES视频:

然后根据CCDS数据库拿到人类全部exon的坐标在生信技能树早期教程我也多次讲解过,如何根据CCDS数据库文件,来制作如下BED格式的人类外显子坐标记录文件:$ head hg38.exon.bedchr1 69090   70007   OR4F5   0   +chr1 450739  451677  OR4F29  0   +chr1 685715  686653  OR4F16  0   +chr1 801942  802433  LINC00115   0   +chr1 925941  926012  SAMD11  0   +chr1 930154  930335  SAMD11  0   +chr1 931038  931088  SAMD11  0   +chr1 935771  935895  SAMD11  0   +chr1 939039  939128  SAMD11  0   +chr1 939274  939459  SAMD11  0   +使用samtools工具对exon坐标全部碱基计算覆盖深度很简单的命令:~/miniconda2/envs/WES/bin/samtools depth -b hg38.exon.bed a5.sort.bam > /tmp/tmp.depth$ head tmp.depthchr1 69091   5chr1 69092   5chr1 69093   5chr1 69094   5chr1 69095   4chr1 69096   4chr1 69097   4chr1 69098   4chr1 69099   4chr1 69100   4使用bedtools把碱基覆盖深度归属于exon可以看到每个exon的所以坐标都是有测序深度的,这个文件目前是几千万行!chr1 69090   70007   OR4F5   0   +   chr1 69091   69091   5chr1 69090   70007   OR4F5   0   +   chr1 69092   69092   5chr1 69090   70007   OR4F5   0   +   chr1 69093   69093   5chr1 69090   70007   OR4F5   0   +   chr1 69094   69094   5chr1 69090   70007   OR4F5   0   +   chr1 69095   69095   4chr1 69090   70007   OR4F5   0   +   chr1 69096   69096   4chr1 69090   70007   OR4F5   0   +   chr1 69097   69097   4chr1 69090   70007   OR4F5   0   +   chr1 69098   69098   4chr1 69090   70007   OR4F5   0   +   chr1 69099   69099   4chr1 69090   70007   OR4F5   0   +   chr1 69100   69100   4对exon进行汇总每个坐标的测序深度取平均值即可,可以写一个简短的perl脚本,或者直接读入该文件到R语言,总之对20多万个外显子都计算一个平均测序深度即可。绘制boxplot这个是最简单了,参考文献里面的一百多个wes样本合并的boxplot。如果想系统学习生信,下面的课程你可能会需要!

全国巡讲(点我查看)

110.12-14  南京见全国巡讲第17站

210.26-10.28 南宁见全国巡讲第18站

课程内容1生信-R语言入门2GEO数据库挖掘3生信-LINUX基础4转录组课题设计和流程分析

(0)

相关推荐