基于python的基因组组装课程
可能基本上没有多少《生信技能树》的粉丝知道,其实我的生物信息学技能也是从基因组组装开始的,大概是八九年前我本科还没有毕业就去北京实习,在西四环的青塔那边的水产所跟着大黄鱼等基因组团队做一些打杂工作,同时开启了自己的生物信息学笔记整理和分享生涯,让我甚是怀念啊。
虽然这些年都是在做人类疾病数据处理,咱们《生信技能树》公众号的1.3万篇教程也是如此,基本上忽略了动植物领域的研究动态,不管是基因组组装这样的传统技术还是泛基因组这样的热点。但是仍然有在那个领域的朋友,他们愿意把自己的经验以课程的形式分享出来,即使大概率上是一个亏本买卖,我是非常乐意帮忙宣传的。
基因组的故事
我看到2013年的报道:当时腔棘鱼基因组这一里程碑式的基因组研究论文被选作封面文章发表在2013年的4月18日的《自然》杂志上。现存只有两种总鳍鱼(lobe-finned fish)群能够代表与陆地脊椎动物相关的、包含进化信息的深谱系,腔棘鱼就是其中的一种。另一外一种是肺鱼,其具有巨大的基因组,使得当前(2013)无法对其进行测序。
我看到2018年的报道,酿酒酵母有16条染色体(单倍体), 2018年的《自然》杂志上发表的一篇论文中,中科院的覃重军研究员带领的 团队把16条染色体合而为一,创造了一个只有一条染色体的酵母。
类似的基因组组装新闻报道不少,也有详细解读,详见:新物种基因组组装,恰好今天在朋友圈看到了 一个团队组装出37Gb的肺鱼基因组,这就是 (2013)无法对其进行测序,只能望洋兴叹的物种。现在通过 PacBio,10×Genomics 测序,结合 Hi-C 数据,很容易组装出来高质量的基因组啦。
比如:历时15个月 “致富金果”怒江草果全基因组精细图谱绘制成功,通过Nanopore及illumina等测序技术,拼接组装得到2.08G大小的基因组,组装出由1145个contig序列组成的草果参考基因组序列,GC含量为40.9%,最长的contig长度为31.6Mb,N50为4.7Mb。结合HiC测序结果,得到24对染色体的高质量基因组,包括42394个基因。通过转录组、代谢组关联分析,得到草果关键香气物质合成的候选基因一批。草果全基因组精细图谱完成将极大推动草果的全基因组精准育种,为打造国家级草果种质资源圃提供重要基础作用。