NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

  • 3. gtf/gff格式
    • 3.1 gtf格式
    • 3.2 gff格式
    • 3.3 GTF格式与GFF异同点

系列文章
二代测序方法:DNA测序之靶向重测序
NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:01. Conda环境配置及软件安装
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

测序数据分析中涉及的常用格式:测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。

fasta/fastq(测序数据)→SAM/BAM(比对)→gff/gtf(描述基因组上的结构:坐标&类型)→Bigwig/Wiggle(测序深度)→bed(描述坐标)→vcf(突变信息)

存储序列:fasta/fastq
比对结果显示的文件:sam/bam
展示注释信息:gtf/gff/bed
突变信息:vcf

3. gtf/gff格式

gtf主要用来注释基因,gff主要用来注释基因组。

3.1 gtf格式

GTF全称为gene transfer format,主要是用来对基因进行注释,常用GTF格式为第2版(GTF2)。

示例:

GTF文件是以tab键分割的9列组成,以下为每一列的对应信息:

3.2 gff格式

GFF全称为general feature format,这种格式主要是用来注释基因组,当前广泛使用的GFF格式为第3版(GFF3)。

GFF文件也是以tab键分割的9列组成,以下为每一列的对应信息:

预先定义的键主要包括
ID:注释信息的编号,在一个GFF文件中必须唯一;
name:注释信息的名称,可以重复;
Alias:别名;
Indicates:该注释所属的注释,值为注释信息的编号,比如外显子所属的转录组编号,转录组所属的基因的编号。
Parent指明feature所从属的上一级ID,用于将exons聚集成transcript,将transripts聚集成gene,值可以为多个;
Target 指明比对的目标区域,一般用于表明序列的比对结果。格式为 “target_id start end [strand] “,其中strand是可选的 (”+” 或 “-”),target_id中如果包含空格,则要转换成" "。
Gap:T比对结果的gap信息,和Target一起,用于表明序列的比对结果。
Dbxref:数据库索引。
……

3.3 GTF格式与GFF异同点

gtf2的内容和gff3很相似,区别只在其中的2列:

gtf2 gff3
feature/type 必须注明 可以是任意名称
attributes 名称和值以空格隔开 名称和值以“=”隔开

其余文件格式见后续。

参考阅读:
http://genome.ucsc.edu/FAQ/FAQformat.html
生信宝典 NGS基础 - GTF/GFF文件格式解读和转换

NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式相关推荐

  1. NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

    NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章: 二代测序方法:DNA测序之靶向重测序 NGS数据分析实践:00. 变异识别的基本流程 ...

  2. NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

    NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式 4. bed格式 5. Wiggle/Bigwig/bedgraph格式 5.1 W ...

  3. NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

    NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重复标记 ...

  4. NGS数据分析实践:04. 准备测序数据

    NGS数据分析实践:04. 准备测序数据 文接上篇:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式 本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hise ...

  5. NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04. 准 ...

  6. NGS数据分析实践:00. 变异识别的基本流程

    NGS数据分析实践:00. 变异识别的基本流程 变异识别过程可以分成3大块:1. 原始数据质控:2. 数据预处理:3. 变异识别.大致可以细分为6个部分:(1) 原始测序数据的质控:(2) read比 ...

  7. NGS数据分析实践:02. 参考基因组及注释库的下载

    NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...

  8. NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

    NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC 2. MultiQC 2.1 帮助信息及运行代码 2.2 报告解读 2.3 小结 文接上篇:NGS数据分析实践:05. 测序 ...

  9. 七牛大数据平台的演进与大数据分析实践--转

    原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=info ...

最新文章

  1. 链表问题11——两个单链表相交的系列问题(二):找到两个无环链表的交点
  2. mysql关联表插入-php环境中
  3. 用户态与内核态的区别
  4. 高基数特征的预处理方式
  5. [2017BUAA软工]结对项目:数独扩展
  6. Linux下安装Redis及搭建主从
  7. SpringBoot查看和修改依赖的版本
  8. kafka查看broker上主副本_kafka分区及副本在broker的分配
  9. C# 参考之方法参数关键字:params、ref及out (收集)
  10. es6-let const
  11. WINDOWS.H already included.MFC apps must not #include windows.h
  12. visio2013剪除_Visio 2003 图形剪切合并 高级技巧
  13. 基于min-max搜索和alpha-beta(α-β)剪枝的五子棋的c语言实现(带简单禁手)
  14. Graph_Master(连通分量_D_Trajan缩点+dfs)
  15. 世界杯的狂欢也是黑灰产的狂欢?
  16. Pale Moon 15.1 发布,苍月浏览器
  17. AI识别彻底懵逼!这到底是「牛」还是「鲨」?
  18. Docker容器之间相互访问
  19. android银行卡绑定,华为huawei pay怎么绑定银行卡 绑卡方法教程
  20. Nacos下载和安装-windows版本

热门文章

  1. 【AGC】崩溃服务之常见问题
  2. 软件测试web自动化项目实战——TPshop开源商城系统
  3. CFI技术新探索,struct_san今日登场
  4. 【转】SSID BSSID ESSID 详解
  5. 精辟到爆的QQ个性签名!
  6. 主线程等待所有子线程结束的4种方法
  7. c# MVC微信支付,notify_URL回调问题
  8. 触屏touchstart 与 click
  9. python撞库脚本_python撞库操作的实战脚本源代码
  10. 领铠服务器没有角色信息,王者荣耀英雄印记赠送功能出bug没显示怎么办 铠的印记消失出bug什么情况...