bam获取序列_bam格式说明
SAM文件map结果是类似下面的东西:
HWI-ST1001:137:C12FPACXX:7:1115:14131:66670 0 chr1 12805 1 42M4I5M * 0 0 TTGGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCACCAATATG CCCFFFFFHHGHHJJJJJHJJJJJJJJJJJJJJJJIJJJJJJJJJJJJIJJ AS:i:-28 XN:i:0 XM:i:2 XO:i:1XG:i:4 NM:i:6 MD:Z:2C41C2 YT:Z:UU NH:i:3 CC:Z:chr15 CP:i:102518319 XS:A:+ HI:i:0
HWI-ST1001:137:C12FPACXX:7:2313:17391:30032 272 chr1 13494 1 51M * 0 0 ACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACAGTGTTT CFFFFHHJJJJIJJJJIJJJJJJJJJJJJJJJJJJJJJHHHHFA+FFFC@B AS:i:-3 XN:i:0 XM:i:1 XO:i:0 XG:i:0NM:i:1 MD:Z:44G6 YT:Z:UU XS:A:+ NH:i:3 CC:Z:chr15 CP:i:102517626 HI:i:0
HWI-ST1001:137:C12FPACXX:7:1109:17518:53305 16 chr1 13528 1 51M * 0 0 CGCTGGAGCCGGTGTTTGTCATGGGCCTGGGCTGCAGGGATCCTGCTACAA #############AB=?:*B?;A?<2+233++;A+A2+<7==@7,A<A<=> AS:i:-5 XN:i:0 XM:i:2 XO:i:0 XG:i:0NM:i:2 MD:Z:8A21T20 YT:Z:UU XS:A:+ NH:i:4 CC:Z:chr15 CP:i:102517592 HI:i:0
看上去很类似fastq文件,它也有read名称,序列,质量等信息,但是又不完全一样。首先,每个read只占一行,只是它被tab分成了很多列,一共有12列,分别记录了:
1、read名称
2、SAM标记
3、chromosome
4、5′端起始位置
5、MAPQ(mapping quality,描述比对的质量,数字越大,特异性越高)
6、CIGAR字串,记录插入,删除,错配以及splice junctions(后剪切拼接的接头)
7、mate名称,记录mate pair信息
8、mate的位置
9、模板的长度
10、read序列
11、read质量
12、程序用标记
显然,其中chromosome至CIGAR的信息都是非常重要的。
bam获取序列_bam格式说明相关推荐
- bam获取序列_bam格式文件处理大全(四)
sam文件是短序列比对生成的文件,是二代测序中最核心的文件.在RNAseq,变异检测等分析中,都需要首先生成sam文件格式.bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储.掌 ...
- bam文件读取_bam格式文件处理大全(一)
sam文件是短序列比对生成的文件,是二代测序中最核心的文件.在RNAseq,变异检测等分析中,都需要首先生成sam文件格式.bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储.掌 ...
- bam获取序列_如何从BAM文件中提取fastq
虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq.最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了 ...
- bam获取序列_Jbrowse安装和序列、bam、vcf配置
最近做了一个关于基因开发的项目,要求最终输出的文件可以在专门的基因浏览器上边显示,类似统计图的东西.废话不说上图(表示表达不出来0.0)! 先说下Jbrowse这个东西吧,一句话:一个简单的,便携式依 ...
- bam获取序列_如何高效地从BAM文件中提取fastq
在一年前,我写过一篇文章,叫做如何从BAM文件中提取fastq,之前也发现了从BAM里面提取Fastq是有些麻烦,只不过最后通过samtools的子命令实现了数据提取,实现功能之后也没有再去思考如何提 ...
- oracle获取序列并赋值,Oracle中序列的使用
数据库设计的三大范式第一条就是独立的表结构中必须有唯一主键来标识表中数据.在以往微软的SQL Server(duo版本)平台上.手动编码实现表中主键.并设定为自增列是极其简单.编码如下: typeid ...
- 基因组序列genbank格式和fasta格式批量下载
from Bio import Entrez,SeqIO import csv# 参数设置 Entrez.email = "example@163.com" Entrez.tool ...
- vue 获取当前时间 格式YYYY-MM-DD
函数封装: /*** 获取当前时间* 格式YYYY-MM-DD*/ Vue.prototype.getNowFormatDate = function() {var date = new Date() ...
- python返回序列中的最小元素_python实现获取序列中最小的几个元素
本文实例讲述了python实现获取序列中最小的几个元素.分享给大家供大家参考. 具体方法如下: import heapq import random def issorted(data): data ...
最新文章
- 从传统到深度学习:浅谈点云分割中的图结构
- php 正则过滤style,PHP 过滤常用标签的正则表达式
- spark 算子例子_Spark性能调优方法
- 布局时margin会影响父元素
- undefined reference to 'modbus_new_tcp'
- MPLS virtual private network Spoken-Hub网络实验(华为设备)
- android动画水波纹外扩,Android实现水波纹扩散效果
- 启用多CPU多线程,加快加速OpenJDK的编译办法
- Shiro 常用标签
- dedecms pm.php,dedecms /member/pm.php SQL Injection Vul
- 2020中山大学计算机学院保研,我校举行中山大学2020级研究生招生宣讲会
- moment获取本月、上个月、近三个月时间段
- 称为超级计算机,怎样的计算机被称为“巨型计算机”呢?
- WIN10 JDK下载及安装说明
- Apriori算法与python实现
- 知道创宇研发技能表v3.0
- IntelliJ IDEA 等软件 激活
- 【论文精读】Adaptive As-Natural-As-Possible Image Stitching
- 电商平台获取淘宝详情高级版接口、卖家信息、sku、发货地等参数字段调用示例展示
- leetcode-数组知识点(中等)
热门文章
- 【bfs】密码锁-C++
- 短链接服务架构设计概览
- 锐文科技智能网卡xNIC-200/400在国产飞腾FT2000测试性能报告
- 电脑管理android手机版下载安装,airdroid下载
- 基于tensorflow和卷积神经网络的电影推荐系统的实现
- 消费新品周报 | AWE海尔推出无尘洗衣机;卡西欧F1红牛车队合作新款运动手表...
- 电脑插上网线无法连接网络完美解决方案
- 《深入理解java虚拟机》学习笔记之虚拟机即时编译详解
- 阿里云天池大数据:【入门】精灵宝可梦数据集分析
- VTK 实现MinIP Activiz