gff文件_GFF格式说明
。原始定义见
SONG website
gff
是存文本文件,由
tab
键隔开的
9
列组成,以下是各列的说明:
Column 1: “seqid”
序列的编号,编号的有效字符
[a-zA-Z0-9.:^*$@!+_?-|]
Column 2: “source”
注释信息的来源,比如
”Genescan”
、
”Genbank”
等,可以为空,为空用
”.”
点号代
替
Column 3: “type”
注释信息的类型,比如
Gene
、
cDNA
、
mRNA
等,或者是
SO
对应的编号
Columns 4 & 5: “start” and “end”
开始与结束的位置,注意计数是从
1
开始的。结束位置不能大于序列的长度
Column 6: “score”
得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的
E-values
值或者基因预测是的
P-values
值。
”.”
表示为空。
Column 7: “strand”
序列的方向,
+
表示正义链
, -
反义链
, ?
表示未知
.
Column 8: “phase”
仅对注释类型为
“CDS”
有效,表示起始编码的位置,有效值为
0
、
1
、
2
。
Column 9: “attributes”
以多个键值对组成的注释信息描述,键与值之间用
”=“
,不同的键值用
”;“
隔开,
一个键可以有多个值,不同值用
”,“
分割。注意如果描述中包括
tab
键以及
”,=;”
,
要用
URL
转义规则进行转义,如
tab
键用
%09
代替。键是区分大小写的,以大
写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。
预先定义的键包括:
ID
注释信息的编号,在一个
GFF
文件中必须唯一;
Name
注释信息的名称,可以重复;
Alias
别名
gff文件_GFF格式说明相关推荐
- gff文件_GFF格式说明 | Public Library of Bioinformatics
gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多 ...
- gff文件_gff/gtf格式
1)gff3及gtf2简介 一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点.基因.外显子.内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析. ...
- gff文件_GFF文件格式简介
鉴于代码的排版问题,建议在电脑上阅读本文. 组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石.在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是 ...
- gff文件_GFF文件格式说明
gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多 ...
- gff文件_GFF3格式介绍 | Public Library of Bioinformatics
GFF3是GFF注释文件的新标准.文件中每一行为基因组的一个属性,分为9列,以TAB分开. 依次是: 1. reference sequence:参照序列 指出注释的对象.如一个染色体,克隆或片段.可 ...
- gffread gffcompare 将gff与gtf格式的注释文件转换与合并
gffread gffcompare 将gff与gtf格式的注释文件转换与合并 使用: (1)gffread 安装: conda install gffread -y 使用: mkdir gtf# 格 ...
- AGAT|GTF/GFF文件处理工具
AGAT AGAT是Another Gff Analysis Toolkit的缩写, 是一个用于处理GTF/GFF文件的工具.AGAT 有检查.修复.填充任何类型的 GTF 和 GFF 的缺失信息(特 ...
- gtf与gff3文件【格式】【转换】
GFF3 官方 General Feature Format Version 3 存储序列结构信息的一种数据格式.序列结构就是一个scaffold或者染色体上面每个位置都是什么序列元件. GFF每一行 ...
- 生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...
最新文章
- 【Leetcode】创建二叉树
- 查找前端依赖 jquery css js 时间控件 不要用远程依赖 会变化的 card
- Phoenix 关联映射 Hbase表 获取不到数据,upsert hbase 列名为16进制字符
- 【Java】深入探讨Java数值舍入问题
- OpenCV2.4.5在13-04的配置过程
- tomcat基础架构剖析
- 计算机软件理论基础集合论,从数理逻辑观点看计算机专业的理论基础探讨
- 7款效果惊人的HTML5/CSS3应用
- Android开发如何去除标题栏title(转)
- 贡献十本经典的java教程,都是pdf完整版
- 实对称矩阵性质的数学证明
- 怎么禁用计算机上的自动播放,如何关闭电脑的自动播放功能
- Java实现 LeetCode 383 赎金信
- 【台州世通兰陵王系列】服务器的1U、2U、4U是指什么?
- 45本程序员圣经级别书籍,包邮送到家
- Mac 有Alt 键吗?Alt 或 Option 键在 Mac 键盘上的作用是什么
- OpenCV视频目标跟踪及背景分割器
- 创建视图时--ora-01731:出现循环的视图定义
- 发票 ocr java_OCR识别技术—增值税发票识别
- 08-操作系统之进程的状态(运行、就绪、阻塞、创建、终止)及转换(就绪->运行、运行->就绪、运行->阻塞、阻塞->就绪)
热门文章
- 数字图像处理——第六章 彩色图像处理
- CornerNet:实现demo、可视化heatmap、测试各类别精度
- 抖音的标题写什么内容_看了这篇文章,我才真正明白什么才是英语速成之路!感恩...
- ATS中的ComboHandler合并回源插件调研
- UE5虚幻引擎5中的实时特效学习 Introduction to real time FX in Unreal Engine 5
- main函数参数,在VS中向命令行添加参数的方法
- Linux平台下QtCreator集成代码静态分析工具clang-tidy和Clazy
- RabbitMQ 学习
- [源码和文档分享]基于java 的仿QQ聊天工具
- 强化学习(七)时序差分离线控制算法Q-Learning