Sam格式在NGS中是一个不可或缺的格式,所以我们必须对其有一定了解。网上有很多文章对其有讲解,我当初也是看了那些文章入门的,当然最后只懂了每列是干嘛用的,但是具体每个标识代表什么含义却一知半解。虽然这不影响后续的学习以及相关的分析,但是对于这个一个这么重要的格式来说,这是不够的。

比如我们都知道SAM格式分为头部分和比对部分,那么头部分每个符号代表什么意思呢

我们知道SAM格式主要应用在测序数据mapping到参考基因组上(或者其他序列),那么知道什么是线性比对,什么是嵌合比对以及多重比对;还有片段(segment)和读段(read)的区别呢

我们也知道SAM格式的第2列是FLAG,那我们了解每个FLAG的含义吗,等等

以上我们一般只能说粗略了解,直到我看到一朋友分享的 https://github.com/samtools/hts-specs的SAM格式介绍,才发现自己以前所了解的实在太浅薄了

因此不打算自己来写SAM格式的介绍,推荐大家看这个pdf

这PDF从比对的基础术语到SAM格式的每个标识的含义都做了非常详细的解释,自认为如果我自己来写的话,也一般只能说清楚其他一小部分的内容,最后还是半懂不懂。

比如这PDF先以一个小例子初步说明比对是怎么样的

然后介绍了几个关键的术语,有助于后面的理解

接着介绍头部分的的几个标签的含义以及如何使用;比对部分的每列的含义,其中个人觉得比较需要理解的是FLAG列和CIGAR列;前者比较常见,用处也比较大;后者我也是看了才明白其含义,之前也是一知半解,其简要的用字母和数字表达了比对的信息

接着推荐了SAM格式的操作

最后还介绍了下BAM格式

如果上述的pdf还无法让人明白FLAG的话(比如我自己),推荐看http://www.samformat.info/sam-format-flag,你可以选择输入任何一个FLAG值来看其对应的含义,其右边也对FLAG进行了分类,比如:

只有一端比对上的FLAG值有

73, 133, 89, 121, 165, 181, 101, 117, 153, 185, 69, 137

双端都没比对上的有FLAG值有

77, 141

双端比对在正确的insert size以及正确的方向上的FLAG值有

99, 147, 83, 163

如果还是有些不明白的话,可以看http://seqanswers.com/forums/showthread.php?p=71753,作者在2012年就很好的将SAM格式的FLAG做了通俗的解释及分类,比如:

其对paired reads分为了"All Good"和"All Bad";并对"All Good"再次细分为:

Some values mean "all good" i.e. that both reads in the pair have aligned

65 - 0001000001 - this is first read in pair and both reads aligned the forward strand.

129 - 0010000001 - This is second read of pair and both reads aligned the forward strand.

Sometimes both reads of a pair are flipped (reverse complemented) before mapping

113 - 0001110001 - "this is the first read of a pair, both reads in pair were flipped and both mapped".

177 - 0001110001 - "this is the second read of a pair, both reads in pair were flipped and both mapped".

Other times only one of the reads in a pair is flipped though both of them map

81 - 0001010001 - "this is the first read of pair, both reads mapped, we had to flip this read, but mate is in forward orientation".

161 - 0010100001 - "this is second read, this one is forward but we flipped its mate and both reads mapped".

97 - 0001100001 - "this is first read, its mate is flipped but this is forward. Both mapped".

145 - 0010010001 - "this is second read. it is flipped but its mate is not. Both mapped".

这些可以很好的对上面的理解进行了补充说明,非常不错。

总体上,对于SAM格式的理解,在上述资料看完后绝对会有很好的提升

sam格式的结构和意义_SAM格式的学习相关推荐

  1. sam格式的结构和意义_BAM/SAM文件格式的一些小知识

    BAM/SAM文件的一些小知识 前言 如果不是在陈老师这读博,然后开始折腾BAM/SAM文件,我估计这辈子都不会了解到这么多东西吧 SAM/BAM简介 Sequence Alignment Map ( ...

  2. sam格式的结构和意义_各种格式的练字本,对写字真有帮助吗

    图片来源于笔势通 各种格式的练字本现在越来越多,目的主要是便于学生把握好笔画的位置和布局,从而把整个字的结构处理好,常见的有米字格,回宫格等.这些练字本对于初学者来说肯定是有帮助的,特别是低年级学生. ...

  3. c拆分字符串,并按照指定格式存入结构体数组

    c将字符串拆分,并按照指定格式存入结构体数组 函数功能 代码实现 结果显示 函数功能 字符串格式:username1,password1;username2,password2; 结构体格式: typ ...

  4. JAVA中几种循环结构的表示_本文通过实例讲解给大家介绍Java中for、while、do while三种循环语句的区别,具体详情如下所示:第一种:for循环 循环结构for语句的格式...

    本文通过实例讲解给大家介绍Java中for.while.do while三种循环语句的区别,具体详情如下所示: 第一种:for循环 循环结构for语句的格式: for(初始化表达式;条件表达式;循环后 ...

  5. 【Atlas500】入门到放弃(六)——【DVPP】浅析HFBC格式数据存在的意义

    转载自:https://bbs.huaweicloud.com/blogs/156199, 作者:山人 [摘要] HFBC格式是一种数据压缩格式,是VDEC解码后输出的每一帧数据的格式(Hisi Fr ...

  6. H.264 RTPpayload 格式------ H.264 视频 RTP 负载格式

    H.264 RTPpayload 格式------ H.264 视频 RTP 负载格式 1. 网络抽象层单元类型 (NALU) NALU 头由一个字节组成, 它的语法如下: +------------ ...

  7. mysql数据导入导出 CSV格式_MySQL中导入导出CSV格式数据

    原标题:MySQL中导入导出CSV格式数据 预备阅读:MySQL中的主键问题和赋权限问题 今天来讲一下在MySQL中导入和导出CSV格式数据的操作. CSV格式数据 逗号分隔值(Comma-Separ ...

  8. linux 文件 dos unix格式,如何查看文件是dos格式还是unix格式的?

    一.背景 由于windows和linux对换行的标识不一样,不同系统的代码传递导致代码格式的改变中可能会带来程序无法正常编译通过的问题.因此根据一些编译的错误提示,可以定位到是文件格式的问题,要对程序 ...

  9. 学报格式和论文格式一样吗_学报论文格式有哪些要求

    学报也是国内学术期刊的类型之一,基本上学术刊物除了期刊就是学报了,很多作者不是很清楚期刊和学报的区别,首先,期刊和学报都是被认可的出版物,不论是发表毕业论文还是职称论文都是可以的选择的发表载体,学报和 ...

最新文章

  1. 人工智能及其应用(第5版).蔡自兴-5章课后习题。【部分答案】
  2. mysql常用的函数
  3. mysql providername,c#访问各数据库的providerName各驱动
  4. java保存图片进度条_Java上传文件进度条的实现方法(附demo源码下载)
  5. 正则仅输入文字字母空格,但必须含有字母
  6. apache phoenix 入门_实现Phoenix入门
  7. 计算机统计知识,计算机知识在统计工作中的重要性
  8. 定时器中断实验 编写程序使定时器0或者定时器1工作在方式1,定时500ms使两位数码管从00、01、02……98、99每间隔500ms加1显示。
  9. Python: try finally 与 上下文管理器简介
  10. Kubernetes 学习总结(20)—— Kubernetes 与微服务和容器之间是什么关系?
  11. Charles抓包:APP抓包工具配置手机代理证书
  12. win7安装sqlserver2014
  13. Lens shading
  14. Python 实现 T00ls 自动签到脚本(邮件+钉钉通知)
  15. TCP三次握手以及与UDP的区别
  16. 12306登录python_python爬虫 -- 12306登录刷票
  17. 旗帜软件工作室年会总结
  18. python实现找任意点关于直线的对称点
  19. 2017年12306退票手续费新规定
  20. 群联金士顿惠普自封颗粒对应ID及相关数据表

热门文章

  1. Seq2Seq+前缀树:检索任务新范式(以KgCLUE为例)
  2. 请查收!深度学习超详细发展路线大公开!
  3. Java基础:HashMap的用法
  4. 【归并排序】求逆序数算法
  5. Nexus【环境搭建 01】CentOS 7.5 环境下搭建私有Maven仓库实录(启动问题处理+安装文件 nexus-3.4.0-02-unix.tar.gz 云盘链接)
  6. Java使用正则表达式去掉小数类型字符串多余的.与0
  7. PostgreSQL 9.6.0 手册
  8. 数据分析入门(第一课)
  9. FineReport——设计时无相关数据库查看权限,使用对应数据库解决方案
  10. Cython——[AttributeError: ‘MSVCCompiler‘ object has no attribute ‘compiler_so‘]解决方案