基因家族分析(与一个小工具的成长)

写在前面

无心插柳,或许可以用来形容TBtools功能的增加与增强。我们从来没可以要写一个基因家族分析相关的工具,但现状是,TBtools的一部分功能确实可以完全地覆盖常见基因家族分析的各个部分。或者应该这么说,目前市面上你找得到基因家族分析培训课程内容,TBtools基本都提供了多平台的可视化界面工具,无论你是用windows,Mac还是Linux。事实上,在windows下开展是最方便的。与一些人的认知不同,在我看来,如果只是做个基因家族鉴定,Linux是完全不需要的,VituralBox更是不需要的,一行命令也是不需要的

部分与基因家族分析相关的推文

在公众号上,我推送过十来篇与基因家族分析不同部分相关的推文。事实上,这些推文基本都过时了,或者是TBtools里面已经都重新实现了更方便和优秀的工具。作为一个目录帖,我还是将其包括进来,过时的操作,本身也是对过去的记录,或许可以为一些人调整分析逻辑和思路,提供一些参考。

两篇过时的推文,重现一个朋友基因家族文章的分析部分
基因家族分析文章之windows环境下两小时基本重现 - https://www.jianshu.com/p/adcda8009ff1
零基础-完全重现某个基因家族分析文章(的分析部分)- https://www.jianshu.com/p/88075f6cd4f1
我与文章作者在推文当时已经沟通,至今有数次交流。推文中可能存在不妥当的地方,请大家直接忽略。

另外两篇过时的推文,在windows下使用虚拟机
windows下安装VituralBox以使用Linux系统分析数据 - https://www.jianshu.com/p/6caf60f58869
windows下安装hmmer软件进行结构域模式扫描 - ttps://www.jianshu.com/p/5419a7569e10
之所以说这两篇过时,主要原因还是使用的虚拟机。因为现在TBtools已经打包了最新版本的hmmer,可以直接在windows下运行。

零基础-在基因组水平-展示你的基因集合-只要没有放弃,思路总会到来 - https://www.jianshu.com/p/bc117d41b66e ,我对这个功能,事实上比较满意。

绘图中设计到一个字符串重叠的处理。这个问题困扰了我较长时间,从JJplot到JJplot2,再到JIGplot。最后终于还是找到一个相对快速的解决办法。

基于gff3/gtf文件-批量提取启动子或CDS序列-任何人都可以 - https://www.jianshu.com/p/ebe0e2bceae3
这是一些基础的序列提取功能。新公开的基因组常常只有基因组序列文件.fa基因结构注释文件.gff3/.gtf,做任何分析之前,我们首先要获得的是CDS或者是蛋白的全集。现在TBtools提供批量翻译CDS的功能。事实上,不少人会直接使用官方网站提供的cds或者pep文件。我个人并不赞同这种操作,主要原因是,自己提取cds,随后进行翻译,本身可以得到一样的结果,同时可以保持基因序列ID的统一性,极大地方便了下游数据分析
此外,一般在linux下,多数人会用gffreads,但是在windows下,很少人可以找到可用的工具,而TBtools就提供这一工具,而且可以界面化操作。

事实上,不止于此。TBtools还提供了全基因组启动子序列提取功能。当然,随后你可以预测顺式作用原件,再使用TBtools做可视化。
植物启动子-顺势作用元件-批量提取-预测-可视化分析 - https://www.jianshu.com/p/f5ac1c21c202

从进化(分类)的角度观察生物学数据,常常可以发现一些有趣的生物学问题。在一些基因家族文章中,我们常常可以看到,进化树+与MEME结果的组合图进化树与基因结构的组合图进化树与保守结构域的组合图,当然,也有可能是三者的任意组合。几乎所有的操作都需要综合几个软件的操作,最后手工拼接进化树和其他元件。这在事实上是最不准确的操作。于是,我们在很早的时候,就在TBtools中实现了这一功能。目前也有一些已报道的工作使用了这一工具。
基因集合可视化---如何更优雅、快速、方便而全面? - https://www.jianshu.com/p/a688fb670dc0

自从我们基本完成了JIGplot的开发,TBtools中所有新的图片,其实都是可交互的。
一张图一次性展示进化树-Motif Pattern-基因结构,却不能编辑树? - https://www.jianshu.com/p/5a2cb096f94f

认真做基因家族分析的人,其实很清楚,基因组基因结构有相当部分是有问题的。于是,我也写了推文,TBtools也推出了辅助工具。
矫正基因结构注释 - 做有良心的基因家族分析 - https://www.jianshu.com/p/95064d1f3713

热图当然是常见的。TBtools很早就提供了一个热图工具。最近也推送了一个公益热图教程。感兴趣的可以扫码参与。

而,热图其实可以跟进化树结合,从进化的角度查看一些数据。
10秒-完成-进化树+热图的组合图,这有一个简单快速的解法 - https://www.jianshu.com/p/2137418d53a6

鉴定了基因家族之后,常常我们想要看看基因家族成员之间的关系。此时常用的工具是MCScanX。对于这个工具的使用,市面上,或者说几乎所有人都会告诉你,必须在Linux下,或者是windows下安装虚拟机使用。但事实上,TBtools已经打包了MCScanX,完全不需要linux,可直接使用

计算dn/ds...嗯...可能还是有用吧。比如做一些选择分析。
批量计算kaks,所有人-技能Get ! - https://www.jianshu.com/p/f6963c96e99c

有时候,我们需要画一些简单的Circos图,这样可以在全基因组水平观察不同数据之间的交集和差集
任何人!十分钟掌握Circos图绘制 - https://www.jianshu.com/p/13c25157219b

虽然,我觉得通过上述推文的介绍,其实每个人都可以相对轻松地完成基因家族分析。但可能文字并不能很好地传递个人的分析经验和操作。所以,我也录制了一些视频。
掌握基因家族分析与可视化-任何人都可以!- https://www.jianshu.com/p/65b00cf88d90

写在后面

过去的一年,有收获,也有失去。
新春佳节,祝大家
新春快乐,万事如意!

(0)

相关推荐