SAM文件

SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。

SAM是一种序列比对格式标准,由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。

SAM分为两部分,注释信息(header section)和比对结果部分(alignment section)。

行:除注释外,每一行是一个read。

1 @HD,说明符合标准的版本、对比序列的排列顺序;

2 @SQ,参考序列说明;

3 @RG,比对上的序列(read)说明;

4 @PG,使用的程序说明;

5 @CO,任意的说明信息。

比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tab分割。必须的字段有11个,顺序固定,不可用时,根据字段定义,可以为’0’或者’*’,这是11个字段包括:

1. QNAME 比对片段的(template)的编号;read name,read的名字通常包括测序平台等信息

# eg.ILLUMINA-379DBF:1:1:3445:946#0/1

2. FLAG 位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;flag取值见备注(3)

# eg.16

3. RNAME 参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是'*';

# eg.chr1

4. POS 比对上的位置,注意是从1开始计数,没有比对上,此处为0;

# eg.36576599

5. MAPQ mapping的质量,,比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一;

# eg.42

6. CIGAR 简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,match/mismatch、insertion、deletion 对应字母 M、I、D。比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;

# eg.36M 表示36个碱基在比对时完全匹配

###注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义###

7. RNEXT 配对片段(即mate)比对上的参考序列的编号,没有另外的片段,这里是'*',同一个片段,用'=';

# eg.*

8. PNEXT 配对片段(即mate)比对到参考序列上的第一个碱基位置,若无mate,则为0;

# eg.0

9. TLEN Template(文库插入序列)的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0(ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0);

# eg.0

10. SEQ 序列片段的序列信息,如果不存储此类信息,此处为'*',注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;

# eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN

11. QUAL 序列的质量信息,read质量的ASCII编码。,格式同FASTQ一样。

# eg.PY[[YY_______________QQQQbILKIGEFGKB

12.第十二列之后:Optional fields,以tab建分割。

# eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU

flag取值

image.png

image.png

0:多个片段比对到同一区域?

1:是paired-end或mate pair中的一条

2:双末端比对的一条

4:没有比对到参考序列上

8:是paired-end或mate pair中的一条,且无法比对到参考序列上

16:比对到参考序列的负链上

32:双末端reads的另一条(mate)比对到参考序列的负链上

64:这条read是mate 1

128:这条read是mate 2

BAM文件

BAM是SAM的二进制格式,因此两者格式相同,只是BAM文件占用储存空间更小,运算更快

Usage: samtools view -S in.sam -t Reference.fa.fai -b > out.bam

samtools 可以查看bam文件

Usage: samtools view *.bam | less

bam文件.png

linux bam文件格式介绍,Sam和bam文件说明相关推荐

  1. Linux ELF文件格式介绍

    文章目录 一.引言 二.介绍 三.ELF目标文件格式 3.1 常见段及对应用途 3.2 目标文件内容解析 3.2.1 代码段.text 3.2.2 只读数据段.rodata 3.2.3 数据段.dat ...

  2. Linux DMA 框架介绍,demengine.c文件

    Linux DMA 框架介绍(demengine.c) 1.介绍 从我们的直观感受来说,DMA并不是一个复杂的东西,要做的事情也很单纯直白.因此Linux kernel对它的抽象和实现,也应该简洁.易 ...

  3. linux bam文件格式,sam和bam格式文件的shell小练习-答案

    sam和bam格式文件的shell小练习 首先使用bowtie2软件自带的测试数据生成sam/bam文件,代码如下: mkdir -p ~/biosoft cd ~/biosoft wget http ...

  4. linux bam文件格式,pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)...

    在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.bcf文件.目前已经有一些主流的处理此类格式文件的工具,如samtools.picard.vcftools.bcftools,但此 ...

  5. Samtools应用指南-处理Sam与Bam文件

    安装 去官网下载想要的版本 tar jxvf samtools-1.9.tar.bz2 cd samtools-1.9 ./configure --prefix=全路径/samtools-1.9 ma ...

  6. 03比对与 bam 文件格式

    03比对与 bam 文件格式 参考基因组及索引 通 过 trim 过滤后的到的 fq,需要比对到参考基因组上才能让这些数据有意义.前面我们已经下载了人类参考基因组 hg38 版本,而且是从 GATK ...

  7. linux常见文件打开,Linux常用操作有哪些? Linux常用操作介绍

    Linux系统,相信很多洞电脑的朋友都知道,也知道怎么使用,但是很多电脑新手可不一定知道的.今天我们就来看看电脑新手需要掌握哪些Linux系统的常用操作.下面,U大侠小编就给大家介绍Linux常用操作 ...

  8. Linux常用命令(本篇包括,Linux目录结构介绍、Linux Shell介绍、9个常见命令介绍、文件的概念、文件的操作(20个)、目录的操作、文件和目录的权限、文件压缩及解压缩)

    Linux常用命令(本篇包括,Linux目录结构介绍.Linux Shell介绍.9个常见命令介绍.文件的概念.文件的操作(20个).目录的操作.文件和目录的权限.文件压缩及解压缩)         ...

  9. Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存

    Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存 列式存储parquet文件格式介绍

最新文章

  1. 图论 ---- 构造DFS树的思想 K - Boomerangs Gym - 102001K
  2. Notification with Service Workers push events
  3. Vofuria 的 imageTarget 的图片无法显示或者显示为空白
  4. C#基础概念二十五问 【二】 [转]
  5. LeetCode hard 668. Kth Smallest Number in Multiplication Table(二分答案)
  6. linux常用的服务配置
  7. 阴雨连绵潮湿加剧 车辆防潮提升保值
  8. C++vector容器-插入和删除
  9. 手术后多久可以做胆摘除_近视手术后多久可以化眼妆?
  10. MFC中新建类在classview中没有显示问题
  11. c# 对象json互相转换_Go语言进阶之路(六):内置JSON库和开源库gjson
  12. 研发项目wbs分解简单案例_2013项目管理案例分析:工作分解结构(WBS)(精选五篇)...
  13. 推荐好用的临时邮箱工具,解决注册网站收到的垃圾邮件
  14. 数学建模写作指导20篇(二)-数学建模论文写作通用模板
  15. U盘安装Linux系统
  16. OceanBase 之 OBCA考试总结
  17. android获取短信中心号
  18. java创建不定长数组_java如何创建不定长的数组?
  19. 黑鹰ASP.NET教程
  20. centos下安装anaconda、scikit-learn、opencv、pytorch 和torchvision(文件在Windows下载好linux版本,使用xshll传到linux)

热门文章

  1. win10服务和控制器应用CPU占用过高
  2. 最佳37个获取LOGO设计灵感的网站推荐
  3. 科目二经验之谈 10小时必过秘笈
  4. 深度定制django admin界面
  5. 简易购买电影票系统(Java)
  6. 深入Flutter(四) Infinite scrolling -- 无限滚动
  7. 解密Kerberos流量
  8. Java中String类intern()详解
  9. Payment:支付宝即时到账接口接入教程
  10. html输入公式得到混合运算结果,excel表格如何用公式计算加减乘除混合运算-excel乘法如何计算,excel函数怎么计算乘法...