GTF基因注释文件详解
GFF和GTF是两种最常用的数据库注释格式,在信息分析中建库时除了需要fasta文件一般还会需要这两种文件,提取需要的信息进行注释。
Cufflinks/Tophat 软件需要 GTF文件作为基因注释文件。
GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF全称为gene transfer format,主要是用来对基因进行注释。
目前两种文件可以方便的相互转化,比如:使用Cufflinks软件的 的gffread。
GTF文件由9列数据组成,这两种文件的前8列都是相同的(一些小的差别),
gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:
seq_id | source | type | start | end | score | strand | phase | attributes | |||||
chr12 | danRer10_refGene | exon | 25132483 | 25132543 | 0 | + | . | gene_id "NM_199912"; transcript_id "NM_199912"; | |||||
chr12 | danRer10_refGene | start_codon | 25132758 | 25132760 | 0 | + | . | gene_id "NM_199912"; transcript_id "NM_199913"; | |||||
chr12 | danRer10_refGene | CDS | 25132758 | 25132785 | 0 | + | 0 | gene_id "NM_199912"; transcript_id "NM_199914"; | |||||
chr12 | danRer10_refGene | exon | 25132720 | 25132785 | 0 | + | . | gene_id "NM_199912"; transcript_id "NM_199915"; |
1) seq_id:序列的编号,一般为chr或者scanfold编号;
2) source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
3) type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
4) start:该基因或转录本在参考序列上的起始位置;
5) end: 该基因或转录本在参考序列上的终止位置;
6) score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空;
7) strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
8) phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2(对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
9) attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;
GTF基因注释文件详解相关推荐
- 生信格式 | GAF GO注释文件详解
下载 http://current.geneontology.org/products/pages/downloads.html GOC(Gene Ontology Consortium)提供了41种 ...
- 根据gtf格式的基因注释文件得到人所有基因的染色体坐标
用bedtools对基因组片段区域进行基因注释 根据gtf格式的基因注释文件得到人所有基因的染色体坐标 选择的genecode内最早的Grch38版本(201408) v20是最早的hg38版本对应的 ...
- java 注释 超链接_java_Java代码注释规范详解,代码附有注释对程序开发者来 - phpStudy...
Java代码注释规范详解 代码附有注释对程序开发者来说非常重要,随着技术的发展,在项目开发过程中,必须要求程序员写好代码注释,这样有利于代码后续的编写和使用. 基本的要求: 1.注释形式统一 在整个应 ...
- packageinfo.java_package-info.java文件详解
package-info.java文件详解 一.pacakge-info.java介绍 pacakge-info.java是一个Java文件,可以添加到任何的Java源码包中.pacakge-info ...
- oracle数据库pfile文件,Oracle pfile/spfile参数文件详解
Oracle pfile/spfile参数文件详解 在创建数据库时,SPFile文件中部分必须考虑的参数值: 基本规则 a.在SPFile文件中,所有参数都是可选的,也就是说只需要在初始化参数文件中列 ...
- NGS基础 - 参考基因组和基因注释文件
参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...
- STM32启动文件详解-比较清晰的一篇
STM32启动文件详解 启动文件使用的 ARM 汇编指令汇总 启动程序源码注释(点此下载) 1. Stack-栈 Stack_Size EQU 0x00000400AREA STACK, NOINIT ...
- linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文
NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...
- Redis配置文件redis.conf文件详解
Redis配置文件redis.conf文件详解 唠嗑 这里面的意思只要看得差不多其实就是已经对redis有熟悉的感觉,就比如 推塔已经推到别人家的大门~~~~~~~~废话不多说直接开始了 知道大家都不 ...
最新文章
- mysql 事务 返回插入的值_Mysql同一个事务内记录成功插入后查询不出来
- 代码解释n |= n >>> 16
- 透过认知智能剖析商业本质(iPIN CEO杨洋)丨硬创公开课
- ubuntu下部署mongodb以及设置允许远程连接
- Permutation Partitions CodeForces - 1326C(组合数学+思维)
- 网络请求之优化参数添加工具类自定义Map类
- 排序:插入排序与希尔排序
- 论文浅尝 | 远程监督关系抽取的生成式对抗训练
- 吕述望 计算机网络专家,特稿: 中科院吕述望教授:互联网名不符实
- 动手学习数据分析(二)——数据处理
- java实现微信与支付宝支付使用同一二维码
- antdesignpro 权限_ant design pro 权限管理
- easyui导出excel科学计数法问题解决方法
- 2022-2028年中国粮食物流行业市场发展调研及未来前景规划报告
- 不同参数对分类模型性能影响记录
- 面试现场说要轮岗,实际岗位是地推
- printf()中%n格式说明符
- 软件工程课程周进度报告 第六周
- [转]用“树莓派“打造一款智能音响(也许有点智障。。。)
- tmp: Springboot 修改classPath地址
热门文章
- [ZZ]渗透测试(Penetration Testing)
- 干货 | android下使用的渗透工具介绍
- 初识html+css 第三天
- wifidog配置文件详解
- 【fiddler】用fiddler实现iPhone手机抓包
- [半平面交]小凸想跑步 LibreOJ2008
- 香山里高手如云!(Writing)
- C语言浮点数表示法 / float表示法(浮点数表示方法)
- 为了戒掉网瘾,我用PYTHON决定休息时间的活动[2:改进版]
- 360极速浏览器强制刷新的快捷键