NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

  • 4. bed格式
  • 5. Wiggle/Bigwig/bedgraph格式
    • 5.1 Wiggle/Bigwig
    • 5.2 BedGraph格式

系列文章
二代测序方法:DNA测序之靶向重测序
NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:01. Conda环境配置及软件安装
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

测序数据分析中涉及的常用格式:测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。

fasta/fastq(测序数据)→SAM/BAM(比对)→gff/gtf(描述基因组上的结构:坐标&类型)→Bigwig/Wiggle(测序深度)→bed(描述坐标)→vcf(突变信息)

存储序列:fasta/fastq
比对结果显示的文件:sam/bam
展示注释信息:gtf/gff/bed
突变信息:vcf

4. bed格式

BED 文件格式以一种灵活的方式来定义数据行,用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。

表示基因注释时,gtf/gff和bed文件的区别:
(1) gtf/gff文件一行表示一个exon/CDS等子区域,多行联合表示一个gene;bed文件一行表示一个gene;
(2) gtf文件中碱基位置定位方式是1-based,而bed中碱基定位方式是0-based 且为 half-open,如下图所示:

注:SAM、VCF、GFF和Wiggle文件格式都采用了上述1-based坐标系统,而bam、BCFv2、BED等一般采用上述0-based坐标系统。

5. Wiggle/Bigwig/bedgraph格式

sam/bam格式文件,是把测序reads比对到参考基因组后的文件。bam/bed格式的文件主要是为了追踪reads到底比对到了参考基因组的什么区域,而UCSC规定的这几个文件格式(Wiggle、bigWig和bedgraph),是为了追踪参考基因组的各个区域的覆盖度、测序深度。这些定义好的文件,可以无缝连接到UCSC的Genome Browser工具里面进行可视化!

5.1 Wiggle/Bigwig

Wiggle:简写为wig,表示基因组上一个区域的信号,可以上传至UCSC上进行可视化。Wig是一种比较老的格式,展示连续值的数据,比如GC百分比,转录组数据等。Wig数据的元素大小必须是一样的。如果数据大小不一样,应该使用bedGraph格式,如果数据过大,就转换为bigWig。
BigWig:简写为bw,是wig格式文件的二进制压缩版本,可在基因组浏览器中进行可视化,是UCSC推荐的一种格式。BigWig文件是由原始的Wig格式通过wigToBigWig工具转换过来的。

# create the chrom.sizes file for the UCSC database (e.g., hg19).
fetchChromSizes  hg19 > chrSize.txt
# Convert wig to big wig:
wigToBigWig input.wig chrSize.txt myBigWig.bw

Wiggle Track Format (.wig):http://genome.ucsc.edu/goldenPath/help/wiggle.html
bigWig Track Format(.bw) :http://genome.ucsc.edu/goldenPath/help/bigWig.html
BedGraph Track Format (.bdg):http://genome.ucsc.edu/goldenPath/help/bedgraph.html
这3种文件格式都是UCSC规定的,所以它提供了系列工具进行互相转换,可以直接下载可执行版本程序:http://hgdownload.cse.ucsc.edu/admin/exe/

UCSC数据格式转换代码见:http://barcwiki.wi.mit.edu/wiki/SOPs/coordinates

Wig文件主要由两部分格式组成:variableStep format和fixedStep format。variableStep format以一个声明开始,明确了染色体的序号,跨度(span)。后面跟两列数据,染色体开始的碱基位置,数据的值value(可以理解为覆盖度)。span参数可以将含有相同value的连续碱基包含在一起,使数据更加简洁。如图,variableStep format span=150,包含的第一行数据49304701 10.0表示49304701-49304850有相同的value,为10.0。

示例数据:http://genome.ucsc.edu/goldenPath/help/examples/wiggleExample.txt

5.2 BedGraph格式

BedGraph格式文件,它是BED文件的扩展,是4列的BED格式,但是需要添加UCSC的Genome Browser工具里面显示的属性,一般就定义有限的几个属性即可。

BedGraph,它的trace type和Wig文件很像,不过后面的数据和bed文件很类似,后面的四列分别表示染色体序号,起始位置,结束位置和value值。

其余文件格式见后续。

参考阅读:
http://genome.ucsc.edu/FAQ/FAQformat.html
wig、bigWig和bedgraph文件详解:http://www.bio-info-trainee.com/1815.html
生信菜鸟团 NGS数据格式之Bigwig/Wiggle
生信宝典 生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
常用生物信息学格式介绍:http://ju.outofmemory.cn/entry/193943

NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式相关推荐

  1. NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

    NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章: 二代测序方法:DNA测序之靶向重测序 NGS数据分析实践:00. 变异识别的基本流程 ...

  2. NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

    NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式 3. gtf/gff格式 3.1 gtf格式 3.2 gff格式 3.3 GTF格式与GFF异同点 系列文章: 二代测序方 ...

  3. NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

    NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重复标记 ...

  4. NGS数据分析实践:04. 准备测序数据

    NGS数据分析实践:04. 准备测序数据 文接上篇:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式 本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hise ...

  5. NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04. 准 ...

  6. NGS数据分析实践:00. 变异识别的基本流程

    NGS数据分析实践:00. 变异识别的基本流程 变异识别过程可以分成3大块:1. 原始数据质控:2. 数据预处理:3. 变异识别.大致可以细分为6个部分:(1) 原始测序数据的质控:(2) read比 ...

  7. NGS数据分析实践:02. 参考基因组及注释库的下载

    NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...

  8. NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

    NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC 2. MultiQC 2.1 帮助信息及运行代码 2.2 报告解读 2.3 小结 文接上篇:NGS数据分析实践:05. 测序 ...

  9. 七牛大数据平台的演进与大数据分析实践--转

    原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=info ...

最新文章

  1. OpenCV代码提取:Windows上通过DShow获取Camera视频
  2. Rust 2020 调查报告出炉,95%的开发者吐槽Rust难学
  3. python代码实现二叉树的镜像树
  4. CRUD之delete操作
  5. OCM备考 一、Server config 之网络配置
  6. vscode控制字符引起的问题以及解决思路
  7. 昨天,面试了一个安全工程师,她的回答让我耳目一新
  8. 数据降维降维(二)----Laplacian Eigenmaps
  9. python求曲线拐点_使用Python检测新冠肺炎疫情拐点
  10. Linux内存从0到1学习笔记(7.3,用户空间虚拟内存之内存映射)
  11. 动态硬盘转基本盘转换器
  12. 两个pdf合并成一个pdf
  13. 习惯的力量在于不由主——知道顶个球用,成为习惯才是你的
  14. 你的健身方法真的正确吗
  15. Leetcode04--给定两个大小为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的中位数。
  16. c语言计时纳秒_C代码中以纳秒为单位计算函数时间
  17. plt.scatter设置点大小_设置电脑桌面壁纸图文教程,下载图片设置计算机系统屏幕背景方法...
  18. 焦虑 程序员_我如何克服焦虑和沮丧来完成freeCodeCamp的前端开发程序
  19. Photoshop - 关于在 PS 中使用渐变会产生条纹色阶的问题
  20. python 经典ppt_Python讲解ppt

热门文章

  1. python 并发 数据库_python写入mysql数据库
  2. 异地北京办理居住证详细材料
  3. Lens5 指南:专为Kubernetes人员设计的IDE
  4. [NOIP2016PJ]魔法阵
  5. Kettle本机编译
  6. 中文文本情感分类(基于LSTM和textCNN)
  7. 第二集:你真的会吸气吗 ?科学呼吸法(汇播课程演说笔记)
  8. divi 相关主题推荐
  9. 游戏约玩app源码开发,重复请求如何处理?
  10. oracle12c密码登录失败,【译】解决Oracle12c Cloud Control登录验证出错问题