NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式
NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式
- 3. gtf/gff格式
- 3.1 gtf格式
- 3.2 gff格式
- 3.3 GTF格式与GFF异同点
系列文章:
二代测序方法:DNA测序之靶向重测序
NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:01. Conda环境配置及软件安装
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
测序数据分析中涉及的常用格式:测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。
fasta/fastq
(测序数据)→SAM/BAM
(比对)→gff/gtf
(描述基因组上的结构:坐标&类型)→Bigwig/Wiggle
(测序深度)→bed
(描述坐标)→vcf
(突变信息)
存储序列:fasta/fastq
比对结果显示的文件:sam/bam
展示注释信息:gtf/gff/bed
突变信息:vcf
3. gtf/gff格式
gtf
主要用来注释基因,gff
主要用来注释基因组。
3.1 gtf格式
GTF
全称为gene transfer format
,主要是用来对基因进行注释,常用GTF格式为第2版(GTF2)。
示例:
GTF文件是以tab键分割的9列组成,以下为每一列的对应信息:
3.2 gff格式
GFF
全称为general feature format
,这种格式主要是用来注释基因组,当前广泛使用的GFF格式为第3版(GFF3)。
GFF文件也是以tab键分割的9列组成,以下为每一列的对应信息:
预先定义的键主要包括:
ID:注释信息的编号,在一个GFF文件中必须唯一;
name:注释信息的名称,可以重复;
Alias:别名;
Indicates:该注释所属的注释,值为注释信息的编号,比如外显子所属的转录组编号,转录组所属的基因的编号。
Parent指明feature所从属的上一级ID,用于将exons聚集成transcript,将transripts聚集成gene,值可以为多个;
Target 指明比对的目标区域,一般用于表明序列的比对结果。格式为 “target_id start end [strand] “,其中strand是可选的 (”+” 或 “-”),target_id中如果包含空格,则要转换成" "。
Gap:T比对结果的gap信息,和Target一起,用于表明序列的比对结果。
Dbxref:数据库索引。
……
3.3 GTF格式与GFF异同点
gtf2的内容和gff3很相似,区别只在其中的2列:
gtf2 | gff3 | |
---|---|---|
feature/type | 必须注明 | 可以是任意名称 |
attributes | 名称和值以空格隔开 | 名称和值以“=”隔开 |
其余文件格式见后续。
参考阅读:
http://genome.ucsc.edu/FAQ/FAQformat.html
生信宝典 NGS基础 - GTF/GFF文件格式解读和转换
NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式相关推荐
- NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章: 二代测序方法:DNA测序之靶向重测序 NGS数据分析实践:00. 变异识别的基本流程 ...
- NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式 4. bed格式 5. Wiggle/Bigwig/bedgraph格式 5.1 W ...
- NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正
NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重复标记 ...
- NGS数据分析实践:04. 准备测序数据
NGS数据分析实践:04. 准备测序数据 文接上篇:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式 本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hise ...
- NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC
NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04. 准 ...
- NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:00. 变异识别的基本流程 变异识别过程可以分成3大块:1. 原始数据质控:2. 数据预处理:3. 变异识别.大致可以细分为6个部分:(1) 原始测序数据的质控:(2) read比 ...
- NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...
- NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC
NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC 2. MultiQC 2.1 帮助信息及运行代码 2.2 报告解读 2.3 小结 文接上篇:NGS数据分析实践:05. 测序 ...
- 七牛大数据平台的演进与大数据分析实践--转
原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=info ...
最新文章
- 链表问题11——两个单链表相交的系列问题(二):找到两个无环链表的交点
- mysql关联表插入-php环境中
- 用户态与内核态的区别
- 高基数特征的预处理方式
- [2017BUAA软工]结对项目:数独扩展
- Linux下安装Redis及搭建主从
- SpringBoot查看和修改依赖的版本
- kafka查看broker上主副本_kafka分区及副本在broker的分配
- C# 参考之方法参数关键字:params、ref及out (收集)
- es6-let const
- WINDOWS.H already included.MFC apps must not #include windows.h
- visio2013剪除_Visio 2003 图形剪切合并 高级技巧
- 基于min-max搜索和alpha-beta(α-β)剪枝的五子棋的c语言实现(带简单禁手)
- Graph_Master(连通分量_D_Trajan缩点+dfs)
- 世界杯的狂欢也是黑灰产的狂欢?
- Pale Moon 15.1 发布,苍月浏览器
- AI识别彻底懵逼!这到底是「牛」还是「鲨」?
- Docker容器之间相互访问
- android银行卡绑定,华为huawei pay怎么绑定银行卡 绑卡方法教程
- Nacos下载和安装-windows版本
热门文章
- 【AGC】崩溃服务之常见问题
- 软件测试web自动化项目实战——TPshop开源商城系统
- CFI技术新探索,struct_san今日登场
- 【转】SSID BSSID ESSID 详解
- 精辟到爆的QQ个性签名!
- 主线程等待所有子线程结束的4种方法
- c# MVC微信支付,notify_URL回调问题
- 触屏touchstart 与 click
- python撞库脚本_python撞库操作的实战脚本源代码
- 领铠服务器没有角色信息,王者荣耀英雄印记赠送功能出bug没显示怎么办 铠的印记消失出bug什么情况...