进化保守的基因区块-可视化挖掘

写在前面

物种进化与基因进化,两者总是生物学研究的关注点之一。物种进化的基础,应是基因层面的演化。而基因进化的基础更多的来源于基因复制。常见的基因复制包括:

  1. 全基因组复制,WGD

  2. 大片段复制,Segmental Duplication

  3. 串联复制,Tandem Duplication

  4. 转座复制,Translocation Duplication

  5. ....

无论是开展大规模的数据分析,或者是常见的某个物种新基因,基因新功能,更或者性状的可能获得原因分析,如果可以从物种演化的角度来探讨相应基因的来源,那么可以使研究有多方面的提升:

  1. 证据更为可靠

  2. 故事更为完整:只对当前数据分析,我们只能知道是什么?更或者为什么?但是有时候我们可能还想知道去哪里,更或者更常见的,从哪里来?

近期,课题组的师弟在做一些类似的分析。大体他做了这么一张图

我大概知道这个图可能来源于比较基因组大牛唐海宝老师的JCVI工具集。喊师弟调整这个图的一些部分时,我顺便问了一句,

后面我就没怎么管这个事情了。不过过了20多小时之后,发现这个问题调整的解决速度可能是个问题。昨晚吃完晚饭,我掐指一算,一周没写代码....要退化了。于是我原本是计划用最多两个小时的时间写完的,没想到从18点写到22点....
不过我还是得到了一个新的工具,对于这个功能,我加入了自己的思考 [纯粹的功能复制对我来说,似乎没有什么吸引力,也没必要]:

  1. 灵活地按照用户的需求,可以是输入一个区间【比如我主要做小RNA的,不会有编码基因】,也可以是输入区间的起始编码基因和终止编码基因

  2. 自动层级化解析可能的基因区块,并可视化,这个一种树状图展开,第一个物种是一个区间,第二个物种可能是N个区间,第三个物种则可能是M个区间(取决于第二个物种对上多少个第三个物种的区间啊)

  3. 可以不依赖于共线性分析,是的,如果区间依赖于共线性分析,那么必要受到使用算法的限制。很多时候,算法总是存在局限的。当然,共线性分析结果可以让你在最短的时间定为到可能的结果。

  4. .... 可交互,对于我来说,不可交互的图形更适合展示而不适合分析。可交互的图形意味着可快速调整并直接分析。

  5. ....

基于这些考虑,得到了下面这个新的功能

Evolutionary Conserved Blocks Finder

具体的使用与输入:

  1. 代表第一个物种某个区间的文本,如:Chr1#2142423#4345533,或 ATG01G1231#ATG01G2231

  2. 不同物种简化后的基因信息文件,格式为:Chr1\tGeneID\tStartPos\tEndPos\t[+-],即包括了基因所在位置和链的信息,注意,需要有意识地按照先后顺序摆放物种的基因位置信息

  3. 基因对信息,格式为:GeneID\tGeneID

使用注意:不同物种的染色体ID和基因ID都不能出现重复【建议对所有ID加上物种名】。

具体的使用方法如上图,可以看到,不仅仅是一个可视化工具,还是一个可视化实时分析工具:

  1. 自动寻路

  2. 随意调整基因区块

  3. 基因区块反向

  4. 鼠标悬停展示基因ID

  5. 其实可以直接右键删除一些不感兴趣的Panel
    6....

写在后面

Emmm.... 正在考虑整理TBtools,然后尽快发表好了...

欢迎各位在评论区留下可能可以用于文章撰写的方向,比如...TBtools到底有啥亮点?值得去发表。

(0)

相关推荐