GFF和GTF的异同及相互转换

GFF(gff)全称为:general feature format
GTF(gtf)全称为:gene transfer format

前者用来注释基因组,后者用来注释基因。

异同点

GTF文件和GFF文件都是由9列信息组成,并且这两种文件的前8列基本上是相同的。

第一列:seqid,参考序列的id。第二列:source,注释的来源。如果未知,则用点(.)代替。一般指明产生此gff3文件的软件或方法。第三列:type,类型,此处的名词是相对自由的,建议使用符合SO惯例的名称(sequenceontology),如gene,repeat_region,exon,CDS等。第四列:start,开始位点,从1开始计数(区别于bed文件从0开始计数)。第五列:end,结束位点。第六列:score,得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。第七列:strand,“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。第八列:phase,步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。第九列:attributes,属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。

GTF的第九列,通常为:

gene_id "At1g00001"; transcript_id "At1g00001.1";

而GFF的第九列,通常为:

ID=mrna001;Name=abcID=exon1;Parent=mrna001ID=exon2;Parent=mrna001

但GFF的第九列通常还可以增加一些其他信息,通过分号分割

转换

(1)gtf转换为gff

gffread my.gtf -o- > my.gff3

(2)gff转换为gtf

gffread my.gff3 -T -o my.gtf
(0)

相关推荐

  • 一键完成比较基因组中的基因共线性分析

    写在前面 近年来,高通量测序费用持续走低.大多数课题组完全有经费可以支撑起自己所研究材料的基因组测序更或者可以非常容易地从网络上获取基因组序列与基因结构注释信息.于是会开始存在这样那样的,关于比较基因 ...

  • TBtools | GFF3/GTF 文件操作讲演

    写在前面 大概一年前就有不少朋友提到想了解相关功能的操作.尽管在公众号上已推送过几乎每一个功能的推送,但文字吸收效率可能确实不如视频讲演.一年前挖的坑,现在终于可以填了.直接原因还是最近数据分析时优化 ...

  • TBtools | 只有序列,怎么做基因结构图?

    写在前面 这两天有看到几个用户朋友在生信札记讨论群中讨论了基因结构图的绘制.看到其他用户一直推荐 GSDS,我便也没有作声,毕竟 GSDS 确实是很优秀的网页软件.而现实情况是,近期 GSDS 网站无 ...

  • 保姆级参考基因组及其注释下载教程(图文详解)

    目录一.什么是参考基因组和基因组注释?二.参考基因组版本命名1.常用人参考基因组对应表2.常用小鼠参考基因组对应表三.下载1.NCBI2.Ensemble3.GENCODE4.UCSC5.iGenom ...

  • 实用!便携且高效 去除 基因组序列和注释 碎片

    写在前面 目前,有大量物种的基因组序列和注释信息公布.几乎所有科研人员都可以下载并使用这些数据,分析和验证自己的科研假设.常常,我们会遇到一些小问题,比如基因组序列文件中包含了大量无法锚定到染色体的片 ...

  • lncRNA组装流程的软件介绍之gffcompare

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之Stringtie

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • 完美 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3

    写在前面 目前基因组测序和组装成本几乎已经到任何一个课题组都可以单独负担的价码,大量物种的基因组序列被测定和释放.与此同时,对应的基因结构注释信息文件,如GTF或GFF3文件等,也可公开下载. 对于绝 ...

  • TBtools | 多图合一至强版教程!进化树 + Motifs + 结构域 + 启动子 + 基因结构 + ....

    放一张效果图,这些,三四年前的东西,我其实一直懒得说. 写在前面 "Gene Structure View (Advanced)"这个功能可以说,也是一时兴起写出来的.开发的主要动 ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • 高效获取基因的代表性转录本

    写在前面 高通量测序已然成为qPCR一样普及到几乎每一个实验室.大量的物种被测序,对这些物种的序列信息进行分析,有助于我们更多地认识生物演化,预测更甚至了解基因的功能. 基于我个人的说法, 基因只是一 ...

  • 对featureCounts来源的表达矩阵使用DEXSeq分析可变剪切

    featureCounts我们粉丝都耳熟能详了,我们转录组流程介绍的对比对后的bam文件基于基因注释文件定量的首选软件,用法非常简单,关键是速度飞快,吊打htseq-counts几条街,而用DEXSe ...