进化保守的基因区块-可视化挖掘
写在前面
物种进化与基因进化,两者总是生物学研究的关注点之一。物种进化的基础,应是基因层面的演化。而基因进化的基础更多的来源于基因复制。常见的基因复制包括:
全基因组复制,WGD
大片段复制,Segmental Duplication
串联复制,Tandem Duplication
转座复制,Translocation Duplication
....
无论是开展大规模的数据分析,或者是常见的某个物种新基因,基因新功能,更或者性状的可能获得原因分析,如果可以从物种演化的角度来探讨相应基因的来源,那么可以使研究有多方面的提升:
证据更为可靠
故事更为完整:只对当前数据分析,我们只能知道是什么?更或者为什么?但是有时候我们可能还想知道去哪里,更或者更常见的,从哪里来?
近期,课题组的师弟在做一些类似的分析。大体他做了这么一张图
我大概知道这个图可能来源于比较基因组大牛唐海宝老师的JCVI工具集。喊师弟调整这个图的一些部分时,我顺便问了一句,
后面我就没怎么管这个事情了。不过过了20多小时之后,发现这个问题调整的解决速度可能是个问题。昨晚吃完晚饭,我掐指一算,一周没写代码....要退化了。于是我原本是计划用最多两个小时的时间写完的,没想到从18点写到22点....
不过我还是得到了一个新的工具,对于这个功能,我加入了自己的思考 [纯粹的功能复制对我来说,似乎没有什么吸引力,也没必要]:
灵活地按照用户的需求,可以是输入一个区间【比如我主要做小RNA的,不会有编码基因】,也可以是输入区间的起始编码基因和终止编码基因
自动层级化解析可能的基因区块,并可视化,这个一种树状图展开,第一个物种是一个区间,第二个物种可能是N个区间,第三个物种则可能是M个区间(取决于第二个物种对上多少个第三个物种的区间啊)
可以不依赖于共线性分析,是的,如果区间依赖于共线性分析,那么必要受到使用算法的限制。很多时候,算法总是存在局限的。当然,共线性分析结果可以让你在最短的时间定为到可能的结果。
.... 可交互,对于我来说,不可交互的图形更适合展示而不适合分析。可交互的图形意味着可快速调整并直接分析。
....
基于这些考虑,得到了下面这个新的功能
Evolutionary Conserved Blocks Finder
具体的使用与输入:
代表第一个物种某个区间的文本,如:Chr1#2142423#4345533,或 ATG01G1231#ATG01G2231
不同物种简化后的基因信息文件,格式为:Chr1\tGeneID\tStartPos\tEndPos\t[+-],即包括了基因所在位置和链的信息,注意,需要有意识地按照先后顺序摆放物种的基因位置信息
基因对信息,格式为:GeneID\tGeneID
使用注意:不同物种的染色体ID和基因ID都不能出现重复【建议对所有ID加上物种名】。
具体的使用方法如上图,可以看到,不仅仅是一个可视化工具,还是一个可视化实时分析工具:
自动寻路
随意调整基因区块
基因区块反向
鼠标悬停展示基因ID
其实可以直接右键删除一些不感兴趣的Panel
6....
写在后面
Emmm.... 正在考虑整理TBtools,然后尽快发表好了...
欢迎各位在评论区留下可能可以用于文章撰写的方向,比如...TBtools到底有啥亮点?值得去发表。