生物信息学基本知识笔记
Bam文件
- SAM(
The Sequencing Alignment/Map Format
)是bwa比对软件的标准输出文件,是纯文本文件,bwa的开发者设计了一种比gz更加高效的压缩算法,BAM的文件大小差不多只有原来的1/6。 - header头文件
@HD
是必须的标准头文件;@SQ
参考序列染色体信息,顺序必须和参考序列一致;@RG
重要Read group信息,通常包含测序平台测序文库和样本id等信息;@PG
有用的操作过程和参数信息。@RG
在做后续数据分析时专门用于区分不同样本的重要信息。它的重要性还体现在,如果原来样本的测序深度比较深,一般会按照不同的lane分开比对,最后再合并在一起,那么这个时候你会在这个BAM文件中看到有多个RG,里面记录了不同的lane,甚至测序文库的信息,唯一不变的一定是SM的sample信息,这样合并后才能正确处理。 - record
CIGAR
中的M,不能觉得它代表的是匹配就以为是百分百没有任何miss-match,多态性碱基或者单碱基错配也是用M标记!
MAPQ
(mapping quality)值大于30就意味着错比概率低于0.001.
疑问 为什么自己做分析结果里MAPQ部分为0,mate信息第三个值为负?
MAPQ为0的multiple mapping由于其不可靠性都舍弃
在使用bwa这个软件来把测序数据比对到参考基因组的时候并没有加上-a这个参数,那么输出的sam文件里面,bwa会对每一个有multiple mapping情况的reads的MAPQ值设置为0,所以提multiple mapping的reads是非常容易的。
一些软件在根据bam文件来选择变异位点的时候会忽略掉这些mapping quality为0的reads。
也就是说对于这部分软件来说,这些mapping quality为0的reads是没有用的,相当于损失掉了,假设整体基因组的覆盖深度是很平均的,那这些MAPQ为0的位置的覆盖深度相当于降低了。这很有可能影响SNV位点的可信度。
那有multiple mapping情况的reads都集中在基因组的哪些区域呢?在哪些基因附近呢?
我们可以先用公司提供的bam文件提取出MAPQ为0的reads[里面包含大多数 multiple reads],看一下大致的分布,后面再用我自己比对得到的bam作进更加准确的分析。
Mateinfo:
mate 序列所在参考序列的名称;mate 序列在参考序列上的位置;估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。
samtools index in.bam # 生成in.bam的索引文件in.bam.bai
samtools view in.bam chr22 # 跳转到chr22染色体
samtools view in.bam chr22:16050103 # 跳转到chr22:16050103位置
samtools view in.bam chr22:16050103-16050103 # 只查看该位置
samtools view -h in.bam chr22:16050103-16050203 | samtools view -Sb - > small.bam
samtools tview --reference hg38.fa in.bam #该模式下,按下键盘‘g’后,会跳出一个Goto框
生物信息学基本知识笔记相关推荐
- access2013数据库实验笔记_医学科研实验基础知识笔记(十):甲基化
往期回顾 医学科研实验基础知识笔记(一):细胞增殖 医学科研实验基础知识笔记(二):细胞凋亡检测 医学科研实验基础知识笔记(三):细胞周期检测 医学科研实验基础知识笔记(四):细胞自噬研究策略 医学科 ...
- 数据库系统故障相关知识笔记
数据库系统中可能发生的故障主要包括事务故障.系统故障.介质故障.计算机病毒等.下面给大家简单整理一下相关的故障知识笔记. 1.事务故障 事务故障是因为程序执行错误而引起的非预期.异常终止的故障.主要有 ...
- 汇编程序基本原理知识笔记
1.汇编语言的概念 定义:为特定计算机或计算机系统设计的面向机器的符号化程序设计语言.汇编程序也就是用汇编语言编写的程序.计算机要运行汇编程序需要用专门的翻译程序进行翻译,然后计算机才可以识别. 汇编 ...
- Elasticsearch集群知识笔记
Elasticsearch集群知识笔记 Elasticsearch内部提供了一个rest接口用于查看集群内部的健康状况: curl -XGET http://localhost:9200/_clust ...
- Java基础知识笔记-11_2-Swing用户界面组件
Java基础知识笔记-11_2-Swing用户界面组件 这章教程两个版本,一个语法是非lambda表达式版本,另一个是lambda表达式版本 非lambda表达式版本 1 Java Swing概述 J ...
- 机器学习入门:准备知识笔记(pandas)之一
参考教学笔记:2021年Python人工智能,13天机器学习入门到精通,精讲+14大案例分析(数据来源参考) pandas的优势 增强图表可读性 便捷的数据处理能力 读取文件方便 封装了Matplo ...
- 6-DoF问题相关基础知识笔记
6-DoF问题相关基础知识笔记 一.什么是6-DoF,即6个自由度是什么? 二.PnP算法 三.BOP挑战与官方数据集简介 BOP数据集 BOP toolkit BOP挑战的介绍页面 四.相关论文 C ...
- 二代测序之SNV基础知识笔记总结
二代测序之SNV基础知识笔记总结 文章目录 二代测序之SNV基础知识笔记总结 SNV基础知识 SNVs Mutation vs. Variant[变异和突变] 不同层次的突变 DNA: 1.编码DNA ...
- 推荐两个本地知识笔记软件
由于工作中经常要记录知识或者经验,所以对知识笔记软件比较依赖. 公司要求使用的软件都是正版的.合规的.经过试用,觉得以下两个笔记本软件比较好用. eDiary eDiary是国内开发者开发的,免费可用 ...
最新文章
- Error: INFO ipc.Client: Retrying connect to server: Already tried XXX time(s).
- jenkins rec cve-2019-1003000 复现
- java责任链模式的三种方式,分享一点面试小经验
- Winform中使用MQTTnet实现MQTT的服务端和客户端之间的通信以及将订阅的消息保存到文件
- Boost:程序选项program options实例
- 【图像处理】——遍历图像所有像素的方法(for 循环和np.where遍历)应用在模板制作
- 带有示例的Python File readlines()方法
- windows server 2012 磁盘整理功能 试用 chkdsk
- dubbo协议_Dubbo框架支持多少种协议?各有什么特点?文中一一为你揭晓
- 怎么用python自动梳理表格_Python将多份excel表格整理成一份表格
- blob 在线解码_roon、NAS图文全攻略 | 试听欧博旗舰RDS1电池数字界面转盘+旗舰RDB1电池解码器(三)。...
- 基于QT的音视频采集推流实时传输播放数据发布系统 文档+项目源码+答辩PPT
- layui form表单提php验证,layui表单验证介绍
- 怎样用360改计算机名称,360随身wifi网络名称怎么修改
- OpenGL(三)——着色器
- 关于一个学习计算机专业,迷茫的大一新生的看法和理解
- 运维脚本 内存管理统计(5)
- Java NIO(二)缓冲区Buffer
- 什么是腾讯云Redis弹性缓存?
- 数学连续和导数的定义
热门文章
- 正交频分复用(OFDM)初步(原理)
- 阿里好的开源项目有哪些(善用工具)
- 首款VR全身触控体验套件Teslasuit,让你浑身“来电”
- 这是一篇“团队”博客
- ASP.NET Get和Post两种提交的区别
- [Drupal] How to display the month in French words.
- 阿里热更新android,阿里最新热更新使用采坑记录
- DDR读写简介及相关
- C++中floor,ceil , round , rint用法
- invalid character in identifier