Bam文件

  • SAM(The Sequencing Alignment/Map Format)是bwa比对软件的标准输出文件,是纯文本文件,bwa的开发者设计了一种比gz更加高效的压缩算法,BAM的文件大小差不多只有原来的1/6。
  • header头文件
    @HD是必须的标准头文件;@SQ参考序列染色体信息,顺序必须和参考序列一致;@RG重要Read group信息,通常包含测序平台测序文库和样本id等信息;@PG有用的操作过程和参数信息。@RG在做后续数据分析时专门用于区分不同样本的重要信息。它的重要性还体现在,如果原来样本的测序深度比较深,一般会按照不同的lane分开比对,最后再合并在一起,那么这个时候你会在这个BAM文件中看到有多个RG,里面记录了不同的lane,甚至测序文库的信息,唯一不变的一定是SM的sample信息,这样合并后才能正确处理。
  • record

    CIGAR中的M,不能觉得它代表的是匹配就以为是百分百没有任何miss-match,多态性碱基或者单碱基错配也是用M标记!

    MAPQ(mapping quality)值大于30就意味着错比概率低于0.001.
    疑问 为什么自己做分析结果里MAPQ部分为0,mate信息第三个值为负?
MAPQ为0的multiple mapping由于其不可靠性都舍弃
在使用bwa这个软件来把测序数据比对到参考基因组的时候并没有加上-a这个参数,那么输出的sam文件里面,bwa会对每一个有multiple mapping情况的reads的MAPQ值设置为0,所以提multiple mapping的reads是非常容易的。
一些软件在根据bam文件来选择变异位点的时候会忽略掉这些mapping quality为0的reads。
也就是说对于这部分软件来说,这些mapping quality为0的reads是没有用的,相当于损失掉了,假设整体基因组的覆盖深度是很平均的,那这些MAPQ为0的位置的覆盖深度相当于降低了。这很有可能影响SNV位点的可信度。
那有multiple mapping情况的reads都集中在基因组的哪些区域呢?在哪些基因附近呢?
我们可以先用公司提供的bam文件提取出MAPQ为0的reads[里面包含大多数 multiple reads],看一下大致的分布,后面再用我自己比对得到的bam作进更加准确的分析。

Mateinfo:mate 序列所在参考序列的名称;mate 序列在参考序列上的位置;估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。

samtools index in.bam  # 生成in.bam的索引文件in.bam.bai
samtools view in.bam chr22            # 跳转到chr22染色体
samtools view in.bam chr22:16050103   # 跳转到chr22:16050103位置
samtools view in.bam chr22:16050103-16050103  # 只查看该位置
samtools view -h in.bam chr22:16050103-16050203 | samtools view -Sb - > small.bam
samtools tview --reference hg38.fa in.bam  #该模式下,按下键盘‘g’后,会跳出一个Goto框

生物信息学基本知识笔记相关推荐

  1. access2013数据库实验笔记_医学科研实验基础知识笔记(十):甲基化

    往期回顾 医学科研实验基础知识笔记(一):细胞增殖 医学科研实验基础知识笔记(二):细胞凋亡检测 医学科研实验基础知识笔记(三):细胞周期检测 医学科研实验基础知识笔记(四):细胞自噬研究策略 医学科 ...

  2. 数据库系统故障相关知识笔记

    数据库系统中可能发生的故障主要包括事务故障.系统故障.介质故障.计算机病毒等.下面给大家简单整理一下相关的故障知识笔记. 1.事务故障 事务故障是因为程序执行错误而引起的非预期.异常终止的故障.主要有 ...

  3. 汇编程序基本原理知识笔记

    1.汇编语言的概念 定义:为特定计算机或计算机系统设计的面向机器的符号化程序设计语言.汇编程序也就是用汇编语言编写的程序.计算机要运行汇编程序需要用专门的翻译程序进行翻译,然后计算机才可以识别. 汇编 ...

  4. Elasticsearch集群知识笔记

    Elasticsearch集群知识笔记 Elasticsearch内部提供了一个rest接口用于查看集群内部的健康状况: curl -XGET http://localhost:9200/_clust ...

  5. Java基础知识笔记-11_2-Swing用户界面组件

    Java基础知识笔记-11_2-Swing用户界面组件 这章教程两个版本,一个语法是非lambda表达式版本,另一个是lambda表达式版本 非lambda表达式版本 1 Java Swing概述 J ...

  6. 机器学习入门:准备知识笔记(pandas)之一

    参考教学笔记:2021年Python人工智能,13天机器学习入门到精通,精讲+14大案例分析(数据来源参考) pandas的优势  增强图表可读性 便捷的数据处理能力 读取文件方便 封装了Matplo ...

  7. 6-DoF问题相关基础知识笔记

    6-DoF问题相关基础知识笔记 一.什么是6-DoF,即6个自由度是什么? 二.PnP算法 三.BOP挑战与官方数据集简介 BOP数据集 BOP toolkit BOP挑战的介绍页面 四.相关论文 C ...

  8. 二代测序之SNV基础知识笔记总结

    二代测序之SNV基础知识笔记总结 文章目录 二代测序之SNV基础知识笔记总结 SNV基础知识 SNVs Mutation vs. Variant[变异和突变] 不同层次的突变 DNA: 1.编码DNA ...

  9. 推荐两个本地知识笔记软件

    由于工作中经常要记录知识或者经验,所以对知识笔记软件比较依赖. 公司要求使用的软件都是正版的.合规的.经过试用,觉得以下两个笔记本软件比较好用. eDiary eDiary是国内开发者开发的,免费可用 ...

最新文章

  1. Error: INFO ipc.Client: Retrying connect to server: Already tried XXX time(s).
  2. jenkins rec cve-2019-1003000 复现
  3. java责任链模式的三种方式,分享一点面试小经验
  4. Winform中使用MQTTnet实现MQTT的服务端和客户端之间的通信以及将订阅的消息保存到文件
  5. Boost:程序选项program options实例
  6. 【图像处理】——遍历图像所有像素的方法(for 循环和np.where遍历)应用在模板制作
  7. 带有示例的Python File readlines()方法
  8. windows server 2012 磁盘整理功能 试用 chkdsk
  9. dubbo协议_Dubbo框架支持多少种协议?各有什么特点?文中一一为你揭晓
  10. 怎么用python自动梳理表格_Python将多份excel表格整理成一份表格
  11. blob 在线解码_roon、NAS图文全攻略 | 试听欧博旗舰RDS1电池数字界面转盘+旗舰RDB1电池解码器(三)。...
  12. 基于QT的音视频采集推流实时传输播放数据发布系统 文档+项目源码+答辩PPT
  13. layui form表单提php验证,layui表单验证介绍
  14. 怎样用360改计算机名称,360随身wifi网络名称怎么修改
  15. OpenGL(三)——着色器
  16. 关于一个学习计算机专业,迷茫的大一新生的看法和理解
  17. 运维脚本 内存管理统计(5)
  18. Java NIO(二)缓冲区Buffer
  19. 什么是腾讯云Redis弹性缓存?
  20. 数学连续和导数的定义

热门文章

  1. 正交频分复用(OFDM)初步(原理)
  2. 阿里好的开源项目有哪些(善用工具)
  3. 首款VR全身触控体验套件Teslasuit,让你浑身“来电”
  4. 这是一篇“团队”博客
  5. ASP.NET Get和Post两种提交的区别
  6. [Drupal] How to display the month in French words.
  7. 阿里热更新android,阿里最新热更新使用采坑记录
  8. DDR读写简介及相关
  9. C++中floor,ceil , round , rint用法
  10. invalid character in identifier