bwa比对软件的使用以及其结果文件(sam)格式说明
一、bwa比对软件的使用
1、对参考基因组构建索引
bwa index -a bwtsw hg19.fa # -a 参数:is[默认] or bwtsw,即bwa构建索引的两种算法,两种算法都是基于BWT的(BWT search while the CIGAR string by Smith-Waterman alignment.)。-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb;-a is 不适用于大的参考序列,必须要小于等于2G;
output:hg19.fa.amb、hg19.fa.ann、hg19.fa.bwt、hg19.fa.pac和hg19.fa.sa
2、寻找输入reads文件的SA坐标
对于pair end数据,每个reads文件单独做运算,single end数据就不用说了,只有一个文件。
pair end:
bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I > read1.fq.gz.sai or bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I -f read1.fq.gz.sai
bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I > read2.fq.gz.sai or bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I -f read2.fq.gz.sai
single end:
bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I > read.fq.gz.sai or bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I -f read.fq.gz.sai
主要参数说明:
-o int:允许出现的最大gap数。
-e int:每个gap允许的最大长度。
-d int:不允许在3’端出现大于多少bp的deletion。
-i int:不允许在reads两端出现大于多少bp的indel。
-l int:Read前多少个碱基作为seed,如果设置的seed大于read长度,将无法继续,最好设置在25-35,与-k 2 配合使用。
-k int:在seed中的最大编辑距离,使用默认2,与-l配合使用。
-t int:要使用的线程数。
-R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会降低标准再次进行比对。增加这个值可以提高配对比对的准确率,但是同时会消耗更长的时间,默认是32。
-I int:表示输入的文件格式为Illumina 1.3+数据格式。
-B int:设置标记序列。从5’端开始多少个碱基作为标记序列,当-B为正值时,在比对之前会将每个read的标记序列剪切,并将此标记序列表示在BC SAM 标签里,对于pair end数据,两端的标记序列会被连接。
-b :指定输入格式为bam格式。bwa aln hg19.fa read.bam > read.fq.gz.sai
3、生成sam格式的比对文件
如果一条read比对到多个位置,会随机选择一种
single end:bwa samse hg19.fa read.fq.gz.sai read.fq.gz > read.fq.gz.sam
参数:
-n int:如果reads比对次数超过多少次,就不在XA标签显示。
-r str:定义头文件。‘@RG\tID:foo\tSM:bar’,如果在此步骤不进行头文件定义,在GATK后续分析中还是需要重新增加头文件。
pair end:bwa sampe -a 500 read1.fq.gz.sai read2.fq.gz.sai read1.fq.gz read2.fq.gz > read.sam
参数:
-a int:最大插入片段大小。
-o int:pair end两reads中其中之一所允许配对的最大次数,超过该次数,将被视为single end。降低这个参数,可以加快运算速度,对于少于30bp的read,建议降低-o值。
-r str:定义头文件。同single end。
-n int:每对reads输出到结果中的最多比对数。
4、其他
(1)
bwa mem ref.fa reads.fq > aln-se.sam 单端测序
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam 双端测序
(2)
bwa aln ref.fa short_read.fq > aln_sa.sai
bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam
(3)
bwa bwasw ref.fa long_read.fq > aln.sam
二、sam文件格式说明
1、
XT:A:U/R Type:Unique/Repeat/N/Mate-sw # U指第五列比对值>0;R指第五列比对值==0
参考文献:
1、《GATK使用方法详解(包含bwa使用)》http://www.tanboyu.com/gatk-bwa.html
2、《bwa英文操作手册》http://www.chinadmd.com/file/ecaeoaecwzvs3trpxpwtzows_1.html
转载于:https://www.cnblogs.com/Formulate0303/p/7826944.html
bwa比对软件的使用以及其结果文件(sam)格式说明相关推荐
- html5 filereader读取文件,H5的FileReader分布读取文件应该如何使用以及其方法简介...
这次给大家带来H5的FileReader分布读取文件应该如何使用以及其方法简介,H5的FileReader分布读取文件的使用以及其方法简介的注意事项有哪些,下面就是实战案例,一起来看一下. 先介绍一下 ...
- 安装,配置rp-pppoe拨号软件,使adsl成功上网(转)
安装,配置rp-pppoe拨号软件,使adsl成功上网(转)[@more@]----------------------------------------------------------本文出处 ...
- 尝试使用以5W1H分析法来学习5W1H分析法
开篇: 开篇属于日常的吐槽和啰嗦,闲来无事的可以看看,着急的建议选择直接跳过. 工欲善其事必先利其器,于是我决定先学习一个可以更系统科学的学习事物的学习方法.选择5w1h是因为之前就耳闻目染的了解过一 ...
- 课后实践2:以抖音为例使用以尼尔森十大可用性原则体验产品
课后实践2:使用以尼尔森十大可用性原则体验产品 本作品为白熊学院2021年的第92期作品,禁止抄袭! [作业目标] 都说想成为一个优秀的产品经理就要多去体验产品,手机至少要有100个以上的App.但是 ...
- 请问下载那种软件可以使模糊的照片变清晰?谢谢~_百度知道
百度首页 | 登录 新闻 网页 贴吧 知道 MP3 图片 百科 帮助 百度知道 > 电脑/网络 > 其他软件相关问题 • 问:数码相机的照片尺寸如何调整,还有就是照片的清晰... • 有什 ...
- 唐诗三百首加密软件如何使用_文档文件加密及设计图纸加密的防泄密软件怎么部署和使用...
深圳加密软件发展很快,目前较先进.较安全的加密技术是透明加密.透明加密是一种根据要求在操作系统层自动地对写入存储介质的数据进行加密的技术.文件透明加密模块是防止电子文件由于公司内部员工泄露而开发的内核 ...
- 如何使git忽略某些文件或文件夹
如何使git忽略某些文件或文件夹 为什么要忽略某些文件或文件夹的变化? git作为一款项目文件变更版本管理软件,其主要功能之一就是追踪项目文件夹内各种文件及文件夹的变更情况.但是,在日常使用中,并非项 ...
- 跨平台转码软件HandBrake, 一款万能的视频压缩/格式转换工具!
无论是下载高清电影,还是用手机录制的视频,很多时候文件体积都非常巨大.收藏保存或分享时会比较麻烦,因此常备一款真正好用的视频压缩软件是很有必要的. 网上的视频处理工具非常繁多,收费免费的一大堆,很多人 ...
- [转载]无需软件合并多个TS流文件
[转载]无需软件合并多个TS流文件 可以使用以下DOS命令达到目的(即"开始"菜单,"运行",输入 cmd 再按回车): (此处假设你要合并的高清文件位于 E: ...
最新文章
- 语义分割源代码_综述 | 基于深度学习的实时语义分割方法:全面调研
- WebDataMenu做工具栏程序代码
- 【分享】程序的开发与编写
- echart 折线图设置y轴单位_如何让echarts中y轴的单位位于数值的右上角
- boost::geometry::detail::overlay::get_ring用法的测试程序
- c++的string转char*遇到的指针问题
- ./sqlplusSP2-0667: Message file sp1lang.msb not found。SP2-0750: You may need to set ORACLE_HOME t
- 使用简单工厂模式demo
- android 拼接参数,Android 多参数多文件同时上传
- CentOS 7 安装教程、硬盘分区、LVM、网络配置、软件源配
- postman文件导入
- ACPI电源管理模式详解
- Encountered a duplicated sql alias [ID] during auto-discovery of a native-sql query; nested exceptio
- 比 Elasticsearch 更快, RediSearch + RedisJSON = 王炸
- 数据库课设--基于Python+MySQL的餐厅点餐系统
- 打印机连接不上打印设备提示0x0000011b 正式解决方案无需卸载补丁
- Linux就业形势报告
- SpringMVC图片文件上传功能实现
- IT专业报考指南:选择正确的学校和课程
- 在 Android Studio 中创建一个简单的 QQ 登录界面
热门文章
- Linux fprintf的用法
- js中自己实现bind函数的方式
- linux自带磁盘加密工具下载,TrueCrypt(磁盘加密工具)
- [转]NGINX-检测客户端是通过电脑还是移动设备访问的,将请求重定向到适配的WEB站点...
- hadoop 2.7.2 + zookeeper 高可用集群部署
- 05_HttpClient_模拟登陆
- 对contentoffset的理解
- Qt+ArcGIS Engine 10.1 开发(一)
- IIS不能发布asp.net 应用程序
- C# 淘宝商品微信返利助手开发-(七)返利助手开发(5)如何将优惠券地址转为淘口令