bed文件是记录基因组位置信息的标准文件格式,同时也用于存储与位置相关的信息,例如在ChIP-Seq 分析中,长以bed文件存储检测信号强度的信息、结构变异检测(SV)结果也可以用bed文件或bedpe文件进行存储。可以说,bed文件格式的应用范围非常广泛。

除了bed文件之外,gtf文件格式和其发展版本gff文件格式,也是常用的记录基因组区间位置的文件格式;GATK 团队针对基因组版本管理的基本需求,规定了interval list 文件格式强绑定bed文件与基因组之间的依赖关系等等。这类文件的基本规则和bed文件非常类似,但应用场景缺相对比较固定。

本文意在为读者介绍bed文件的基本格式和在生物信息领域的基本应用场景下的变化,希望对大家有所帮助。

1. 格式规范

bed文件最为神奇的地方在于, 其实官方并没有给出一个标准说明,不同组织和机构其实对bed文件有着自己的发挥。最为常见的是表示基因组信息的bed12文件格式。

1.1 必须列

bed文件的必须列为以下三列:

  • chrom:表示位置所在染色体
  • chromStart: 表示区域在染色体的起始位置,该列需要注意的是,该项是以0-base作为记录方式的。
  • chromEnd: 表示区域在染色体上的终止位置。

上述三列信息为bed文件必须包含的内容,主要记录基因组区间信息。文件中列与列之间以tab分割,上述3列为bed文件的核心列。

1.2 可选列

除了上述三列之外,bed文件也支持以下追加列信息。

  • name: 表示区域的名称,可以为基因名称、转录本编号等等。
  • score:该区域得分,取值范围随着不同的应用有所区别。
  • strand:表示该区域的连特异性
  • thickStart: 该项为展示过程中使用,表示区域中着重表示的区域的起始位置,例如在基因中外显子的起始位置。
  • thickEND:表示着重表示区域终止位置
  • itemRgb:表示区域的Rgb颜色值
  • blockCount:表示子区域个数,例如基因中外显子个数。
  • blockSize:表示子区域大小,应与上面的blockCount数量一致,数值之间以逗号分隔。
  • blockStarts:表示区域的相对坐标起始位置(相对于ChromStart值),与blockCount数量一致,数值之间以逗号分隔

上述各列信息非必须,但是顺序应符合上面所列的顺序。上述9列结合前面的必须散列,构成bed12的核心信息组。在此基础上,也可以根据其他应用场景需求,继续增加列以丰富表达数据信息。常见的bed格式主要有bed3bed4bed5bed6bed12

2. 0-based 和 1-based

对于程序员而言,下标起始下标是个永远值得讨论的问题。与此类似,对于记录基因组坐标也面临同样的问题,因此就有了两个流派:0-based——以0为坐标起始的文件格式;1-based——以1作为坐标起始的文件格式。

前面介绍过得vcf文件和sam文件都是1-based 记录类型,而bed文件则是 0-based 的ChromStart 列记录类型。这种问题就造成了在格式转化的过程中,需要特别考虑这种情况,尤其对于结构变异类数据的记录。

另外,在一些应用场景,比如某些位点的检测过程中,需要提供bed区域信息以减少计算量。例如在WES的变异检测中,添加捕获区域的bed文件是十分必要的。

3. 具体实例

3.1 作为ChIP-Seq结果bed文件

以MACS2为例,其输出的bed文件采用的是bed12+3格式,即在bed12格式的基础上,增加3列用以表示表观遗传(ChIP-seq、甲基化等)实验结果信息,追加的3列信息如下:

  • signalValue: 测量区域的整体(通常是平均)富集度。
  • pValue: 统计显着性的测量 (-log10)。如果没有分配 pValue,则使用 -1。
  • qValue: 假阳性率 (-log10) 测量统计显着性。如果没有分配 qValue,则使用 -1。

3.2 作为结构变异结果的bedpe文件

由于bed文件原则上不能表示跨染色体的信息,因此,对于结构变异,一般采用的一种基于bed文件的变种文件bedpe格式进行存储。其格式与bed最大的区别在于,对于必须列即chrom、chromStart、chromEnd三列分别记录两次。例如:

chr1 100 200 chr5 5000 5100 bedpe_example1 30 + -
chr9 1000 5000 chr9 3000 3800 bedpe_example2 100 + -

这样就可以对涉及夸染色体的结构变异进行记录和进一步处理了。其他规定与bed标准文件一致。 该文件的另一个用例就是表示比对结果,可以非常方便的进行图形化展示。

生信常见文件格式 bed相关推荐

  1. 数据格式_初识生信常见数据格式知多少?

    ?点击上方蓝字把我们设为星标吧✴ 前言 刚刚踏入生信圈的你,有没有因为各种数据格式而困惑过?比如基因组Fasta序列,又或者二代测序的Fastq数据.这些数据有哪些特点?又有哪些日常操作是生信小白必须 ...

  2. .md是什么文件_生信中常见的数据文件格式

    TCGA | GEO | 文献阅读 | 数据库 | 理论知识 R语言 | Bioconductor | 服务器与Linux 前面我们介绍了各种测序技术的原理:illumina.Sanger.第三代和第 ...

  3. linux怎么查看一个bam文件,生信分析过程中这些常见文件的格式以及查看方式你都知道吗?...

    原标题:生信分析过程中这些常见文件的格式以及查看方式你都知道吗? 生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据 fastq 之外,还需要准备基因组文件 fasta 格式和基因注释文件 ...

  4. 【生信】常见测序数据格式

    [生信]常见测序数据格式 文章的文字与图片全部/部分来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信]常见测序数据格式 1.FASTA 2.FASTQ 3.GFF 4.BED ...

  5. 生信分析过程中这些常见文件的格式以及查看方式你都知道吗?

    生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...

  6. 生信分析过程中这些常见文件(fastq/bed/gtf/sam/bam/wig)的格式以及查看方式你都知道吗?

    生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...

  7. 生信分析流程构建的几大流派

    导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...

  8. 这是入门生信,学习生信分析思路和数据可视化的首选?

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

  9. 易生信高级转录组分析和数据可视化-最后一天报名

    常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,以后应该就如做个PCR一样常见.而且分析思路简洁清晰,是入门生信,学习生信分析思路的首选. 数据分析是相通的,通过一个简单 ...

最新文章

  1. Jeff Atwood倾情推荐——程序员必读之书
  2. 2021中国华录杯·算法大赛活动进行中,超多奖励等你来拿
  3. java collection join_java – @ElementCollection @CollectionTable在一对多映射中
  4. ubuntu之Unable to lock the administration directory(/var/lib/dpkg/), are you root?13 Permission denie
  5. Postgresql使用coalesce实现类似oracle的NVL方法
  6. 头条三面: String.valueOf、toString()、(String)强转,有啥区别?
  7. 学习 Perl(一) —— 安装及 hello world
  8. (日常搬砖)voc(xml)格式的标注转换为coco(json)格式
  9. Dataset增加行数据及常用方法
  10. part-7 共模抑制比CMRR
  11. Python实现 excel转Word 工具开发
  12. Android 5.0特性
  13. 笛卡尔的爱心函数Java语言_笛卡尔情书的秘密——心形函数的绘制
  14. ifconfig安装
  15. 16届智能车竞赛单车拉力国二经验分享
  16. 基于R语言的主成分回归(PCR)与Lasso回归在水稻基因组预测中的对比(生信数基实验作业)
  17. 【从0到1搭建LoRa物联网】4、国产LoRa终端ASR6505普通GPIO
  18. 求推荐电脑上好用的音乐剪辑软件
  19. myeclipse,eclipse配色方案(方案epf下载)(新手必备)
  20. repost:Android shell 下 busybox,clear,tcpdump、、众多命令的移植

热门文章

  1. 自从学会了Pandas,我用Python处理Excel更高效了
  2. Foursquare数据集介绍
  3. 一篇让读者恐怖、令微软害怕的文章
  4. python制作游戏修改器_基于Python的游戏是如何制作的?
  5. WV.33-电阻并联
  6. Win10 64位下载与安装 MySQL 5.7.30
  7. 测量误差与准确度,测量不确定度
  8. Android 听筒扬声器切换(多机型兼容、兼容5.0以上)
  9. 01-Spring Boot 2.0 迁移指南
  10. 好虐!一张图看懂程序员和测试之间的关系!