GFF和GTF的异同及相互转换
GFF(gff)全称为:general feature format
GTF(gtf)全称为:gene transfer format
前者用来注释基因组,后者用来注释基因。
异同点:
GTF文件和GFF文件都是由9列信息组成,并且这两种文件的前8列基本上是相同的。
第一列:seqid,参考序列的id。
第二列:source,注释的来源。如果未知,则用点(.)代替。一般指明产生此gff3文件的软件或方法。
第三列:type,类型,此处的名词是相对自由的,建议使用符合SO惯例的名称(sequenceontology),如gene,repeat_region,exon,CDS等。
第四列:start,开始位点,从1开始计数(区别于bed文件从0开始计数)。
第五列:end,结束位点。
第六列:score,得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。
第七列:strand,“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。
第八列:phase,步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。
第九列:attributes,属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
GTF的第九列,通常为:
gene_id "At1g00001"; transcript_id "At1g00001.1";
而GFF的第九列,通常为:
ID=mrna001;Name=abc
ID=exon1;Parent=mrna001
ID=exon2;Parent=mrna001
但GFF的第九列通常还可以增加一些其他信息,通过分号分割
转换
(1)gtf转换为gff
gffread my.gtf -o- > my.gff3
(2)gff转换为gtf
gffread my.gff3 -T -o my.gtf
赞 (0)