1)gff3及gtf2简介

一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。

GFF(general feature format):这种格式主要是用来注释基因组。 现大部分利用的是第三版,即gff3。

GTF(gene transfer format):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf2 。

1.1)GFF3

GFF3允许使用#作为注释符号 ,除去注释外,主体部分共有9列。GFF3中每一列的含义:seqid source type start end score strand strand attributes

1) seqid :序列的id。(The name of the sequence where the feature is located.)

2)source:注释的来源,一般指明产生此gff3文件的软件或方法(e.g. Augustus or RepeatMasker)。如果未知,则用点(.)代替。

3)type: 类型,此处不受约束,但为下游分析方便,建议使用gene,repeat_region,exon,CDS,或SO对应编号等。

4)start:起始位置,从1开始计数(区别于bed文件从0开始计数)。

5)end:终止位置。

6)score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicates the confidence of the source on the annotated feature)

7)strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知.

8)phase :步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。

9)attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。

1.2)GTF2

gtf文件也是由9列组成,其中每一列含义:seqname source feature start end score strand frame attributes

1) seqname: 序列的名字。通常格式染色体ID或是contig ID。

2) source:注释的来源。通常是预测软件名或是公共数据库。

3) start:起始位置,从1开始计数。

4) end:终止位置。

5) feature :基因结构.根据所使用软件不同,feature types必须注明。CDS,start_codon,stop_codon是一定要含有的类型。

6) score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。

7) strand:链的正向与负向,分别用加号+和减号-表示。

8) frame:密码子偏移,可以是0、1或2。

9) attributes:必须要有以下两个值:

gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。

transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

2)GFF3和GTF2之间的异同及相互转换。

---------------------------------------------------

GFF3和GTF2之间的转换可以用Cufflinks里面的工具"gffread":

gffread my.gff3 -T -o my.gtf             #gff2gtf

gffread merged.gtf -o- > merged.gff3     #gtf2gff

3) 习题

---------------------------------------

3.1)gff3格式的功能是是什么?目前有几版?

3.2)gff3共有多少列?每一列的含义是什么?

3.3)gff3中的第8列代表的0,1,2分别代表什么含义?

3.4)gff3第9列不同属性之间是用什么符号分割的?

3.5)gtf2和gff3格式上有何异同?

3.6)gtf2和gff3在功能上有什么差异?

3.7)gtf2第9列中不同属性用什么符号分割?

3.8)如何将gtf和gff之间相互转换?

3.9)统计test.gff文件中组装出来的染色体条数

3.10)统计test.gff文件中lnc_RNA个数

3.11)统计基因组文件test.gff中有多少个基因

3.12)求最长基因的长度

3.13)查找一个基因下有3个转录本的基因个数

3.14)求相位为2的cds个数

3.15)找出基因含有最多的外显子的个数

3.16)  将test.gff转化为test.gtf

3.17)统计test.gtf中transcript的个数

3.18)根据test.gtf统计位于正链上的exon的个数

3.19)将test.gtf中所有的gene ID都统计出来

3.20) 找出test.gtf中位于正链上的最长的基因

4) 参考资源

---------------------------------------

https://en.wikipedia.org/wiki/General_feature_format

http://boyun.sh.cn/bio/?p=1602

gff文件_gff/gtf格式相关推荐

  1. gff文件_GFF格式说明 | Public Library of Bioinformatics

    gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多 ...

  2. gff文件_GFF格式说明

    .原始定义见 SONG website gff 是存文本文件,由 tab 键隔开的 9 列组成,以下是各列的说明: Column 1: "seqid" 序列的编号,编号的有效字符 ...

  3. gff文件_GFF文件格式简介

    鉴于代码的排版问题,建议在电脑上阅读本文. 组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石.在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是 ...

  4. gff文件_GFF文件格式说明

    gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多 ...

  5. gff文件_#GTF/GFF格式# gffread入门使用

    GTF (gene transfer format) is identical to GFF (general feature format) version 2 GFF格式主要是用来注释基因组 GT ...

  6. gff文件转入mysql_详解GFF转换为GTF文件

    欢迎关注"生信修炼手册"! 存储基因和转录本的结构信息,gtf和gff3两种格式都可以.在实际分析时,会需要转换两种格式.比如,NCBI 只提供了GFF格式的下载文件,我们需要转换 ...

  7. GTF/GFF文件转换

    GFF 文件 GFF全称为general feature format,这种格式主要是用来注释基因组. 从 Ensembl 导出的GFF文件示例: X Ensembl Repeat 2419108 2 ...

  8. gff文件用什么打开_GTF/GFF文件的差异及其相互转换

    MyTear 我们在做生物分析的时候,经常会碰到GFF格式的文件以及GTF格式的注释文件.他们有着相似的名字,甚至连内容都极为相似~那么,他们究竟差在哪里呢? GFF全称为general featur ...

  9. gff文件用什么打开_gff文件转换成gtf文件

    做测序数据分析的时候经常需要将gff格式的注释文件转换成gtf格式的文件.今天小编就给大家介绍一个工具,gffread来实现这个目的.注意这个工具需要在linux或者mac操作系统上运行. 下面是一个 ...

最新文章

  1. 程序员 专属的新年祝福原来是这样的! (附中奖名单)
  2. 关于排错:专注思考,细心观察,步步为营
  3. 什么是牛顿法(Newton methods)?什么是拟牛顿法(Quasi Newton methods)?牛顿法和梯度下降法的区别是什么?
  4. 资源|2019 年 11 月最新《TensorFlow 2.0 深度学习算法实战》中文版教材免费开源(附随书代码+pdf)...
  5. JNLP(jar包签名)
  6. 程序员的24小时,简单纯粹又扎心...
  7. nodejs中的exports和module.exports
  8. 【简易教程】基于Vue-cli使用eslint指南
  9. HTML、HTML5、XML、XHMTL区别
  10. PHP简单好看的表白墙网自适应源码+后台
  11. Linux 冯诺依曼体系结构
  12. 关于conda-新手必读
  13. 堆和栈的概念和区别?
  14. 大数据shipin教程_大数据视频教程百度网盘下载
  15. 【转】Snagit 8.0使用方法
  16. java sub_java调用zeromq PUB-SUB模式
  17. hau 1874 畅通工程续
  18. Javascript MS题蓄力:
  19. 用python构建多只股票日收益率直方图_Barra纯因子收益率的Python实现
  20. lcd timg的理解

热门文章

  1. DistributedDataParallel(DDP)Pytorch 分布式训练示例及注意事项
  2. 7-4 sdut-C语言实验-分割整数
  3. 电脑关闭休眠模式清理 C盘内存
  4. 已加载插件:fastestmirror Loading mirror speeds from cached hostfile * base: mirrors.163.com * extras: m
  5. 计算机病毒是在哪里产生的,计算机病毒如何产生
  6. 20201225英语单词学习(仅供自己记录)
  7. 手把手教你搭建LAMP环境,运行第一个属于你的个人网站
  8. 国内CMS技术发展的外在表现形式
  9. Debian配置DHCP服务器和中继
  10. python 解码js escape,encodeURI