第一次听说START这款比对软件是因为其是ENCODE计划的御用软件,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。

第二次听说则的由于Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis这篇发表于2017年的文章,主要是针对转录组各个分析流程的不同分析工具的比较,里面针对mRNA的比对方法总结了基于参考基因组的三款比对软件:TopHat,STAR和HASAT2。其中讲到STAT相比较其他两款软件有较高的唯一比对率;STAR会将没有paired mapping上的reads都剔除,避免single reads比对到基因组上;并且STAR对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度

第三次听说也是由于恰好需要使用GATK对RNA-Seq Call Variants,因而在GATK刚好查到一篇教程Calling variants in RNAseq

将reads比对至Reference上是采用STAR的STAR 2-pass模式,所以为了学习该教程,必须先学习如何使用STAR了 #### STAR的下载及安装

下载STAR,无须编译即可使用

wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz

tar -xzf 2.5.3a.tar.gz

cd STAR-2.5.3a

STAR的使用

作为一款比对软件,建index肯定是必不可少的一步

STAR --runThreadN 6 --runMode genomeGenerate \

--genomeDir ~/reference/index/STAR/mm10/ \

--genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \

--sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \

--sjdbOverhang 100

这个命令参数也很好理解:

--runThreadN :设置线程数

--genomeDir :index输出的路径

--genomeFastaFiles :参考基因组序列

--sjdbGTFfile :参考基因组注释文件

--sjdbOverhang :这个是reads长度的最大值减1,默认是100

然后进行比对

STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \

--readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \

--outSAMtype BAM SortedByCoordinate \

--outFileNamePrefix ./SRR3589959

--readFilesIn :paired reads文件

--outSAMtype :表示输出默认排序的bam文件,类似于samtools sort(还有--outSAMtype BAM Unsorted和--outSAMtype BAM Unsorted SortedByCoordinate)

--outFileNamePrefix :输出文件路径即前缀

结果文件:

SRR3589959Aligned.sortedByCoord.out.bam

SRR3589959Log.final.out

SRR3589959Log.out

SRR3589959Log.progress.out

SRR3589959SJ.out.tab

可以通过samtools view SRR3589959Aligned.sortedByCoord.out.bam |less -S来查看对应文件的每列信息

前面12列一般也是规范的sam格式,最后一列attributes信息的话,STAR默认是输出NH HI AS nM attributes,这里需要注意的是HI,其表示多重比对的reads的起始位置,默认是以1开始算的,但是如果下游分析需要用到Cufflinks or StringTie的话,需要用--outSAMattrIHstart设置为0比对软件STAR的使用—高通量测序数据处理学习记录(一)

SRR3589959SJ.out.tab则是Splice junctions的一些信息,其中需要注意的是:对于junction的位置信息,STAR则是按照intron的起始和终止位置来定,而其他的一些软件则是按照exon的位置来决定的;至于每列代表的含义可以看mannul,很好理解

STAR 2-pass mode

为了发现更加灵敏的new junction,STAR建议使用2-pass mode,其能增加检测到的new junction数目,使得更多的splices reads能mapping到new junction。因此STAR先用一般参数做一遍mapping,收集检测到的junction信息,然后利用这已经annotated junction来做第二次mapping

STAR对于2-pass mode有新旧两种方式,比如original 2-pass 方法:

首先做一遍常规的比对,结果中会生成一个SJ.out.tab文件,如上面所提到的SRR3589959SJ.out.tab。然后用--sjdbFileChrStartEnd参数将所有样品的SJ.out.tab文件作为输入的annotated junction进行第二次建index

STAR --runThreadN 20 --runMode genomeGenerate

--genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \

--genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \

--sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \

--sjdbFileChrStartEnd SRR3589959SJ.out.tab SRR3589960SJ.out.tab SRR3589961SJ.out.tab SRR3589962SJ.out.tab \

--sjdbOverhang 100

然后用第二次建立的index再一次对每个样品进行STAR比对,以SRR3589959为例

STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \

--readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \

--outSAMtype BAM SortedByCoordinate \

--outFileNamePrefix ./SRR3589959_2-pass

上述方法original方法适用于多样本和单个样本的处理,但是如果是per-sample(单个样本?)的2-pass mapping,可以直接用--twopassMode Basic参数将第两步mapping中的make index省去,直接再mapping

STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \

--twopassMode Basic \

--readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \

--outSAMtype BAM SortedByCoordinate \

--outFileNamePrefix ./SRR3589959

这个比常规的结果还多2个临时产生的文件夹(SRR3589959_STARgenome,SRR3589959_STARpass1)

至于bam文件则是跟上述的original 2-pass

STAR还有其他一些不太常用的参数,可以参看manual,Download后即可查看

gauscoor软件怎么用_比对软件STAR的简单使用相关推荐

  1. 电脑投屏软件哪个好_电脑绘画软件哪个好?

    电脑绘画软件哪个好?初学漫画怎么选择绘画软件?_漫画培训_绘画培训 这应该是困扰很多漫画小白的问题了吗?初学漫画.绘画应该选择哪一种数字绘画软件?本期小编就给各位小伙伴介绍一下几款画漫画常用的数字绘画 ...

  2. 软件质量保证计划_如何做好软件项目的质量管理?

    保证软件质量,是一个贯穿整个软件生存周期的重要问题.在早期,由于忽视了质量管理,导致软件项目管理的严重问题,以至于在软件开发中出现软件危机.重视软件质量管理,规范软件质量管理体系,对整个软件项目管理起 ...

  3. 超级终端软件哪个好_同城配送软件哪个好?如何选择配送软件?

    什么是同城配送?同城配送服务都有哪些? 说到同城配送,相信大家都不陌生,我们最常使用的外卖.跑腿都属于同城配送服务,其最大的特点就是速度快,保证效率最大化.而跑腿作为同城配送最核心的业务,让众多创业者 ...

  4. 语音识别软件_语音识别软件是什么_离线语音识别软件_企业服务汇

    编者按:随着人工智能技术的发展,客服领域的语音识别软件类型也越来越多,那么到底语音识别软件是什么,怎么对语音识别软件进行区分,语音识别软件主要包含什么功能?本文为大家详细介绍语音识别软件相关信息. 语 ...

  5. deepnode软件下载地址_安卓苹果软件下载地址恢复

    福利站这两天下架了安卓区和苹果区的软件的下载入口,部分软件出现闪退不能用了,今晚全部恢复,划出软件后台重新打开即可正常使用! 福利站苹果软件进行部分调整,增加一个知网苹果软件合集,以后小于100兆的软 ...

  6. 普通话测试软件哪个不要钱,普通话测试软件哪个好_普通话测试软件靠谱吗_不要钱的普通话测试软件...

    普通话测试的软件有很多,哪些普通话测试软件是我们想要的呢,下面多特小编就跟您推荐几款比较合适的软件或者app给您参考 学普通话手机app是一款十分暖心.趣味的学习普通话手机软件 普通话练习app是一款 ...

  7. 网上的普通话测试软件可信吗,普通话测试软件哪个好_普通话测试软件靠谱吗_不要钱的普通话测试软件...

    核心提示:普通话测试的软件有很多,哪些普通话测试软件是我们想要的呢,下面多特小编就跟您推荐几款比较合适的软件或者app给您参考 普通话测试的软件有很多,哪些普通话测试软件是我们想要的呢,下面多特小编就 ...

  8. 手机钢琴软件测试自学,手机钢琴app哪个好_自学钢琴软件哪个好_安卓钢琴软件哪个好...

    核心提示:手机钢琴的软件有很多,哪些手机钢琴软件是我们想要的呢,下面多特小编就跟您推荐几款比较合适的软件或者app给您参考 手机钢琴的软件有很多,哪些手机钢琴软件是我们想要的呢,下面多特小编就跟您推荐 ...

  9. qq测试常用软件,测速软件有哪些_测速软件实用推荐

    在手机等设备的使用过程中,我们有时会发现网速非常的慢,这时,我们可以使用一款测速软件对我们的设备进行扫描测试,以便帮助我们更好的了解网速卡顿的问题,给我们的设备提速.那么,有哪些好用的测速软件呢?小编 ...

  10. iapp退出软件按钮代码_番茄·人生软件介绍 及 更新日志

    软件网址:www.tomatolist.com 软件介绍:有哪些好用的番茄工作法软件? 功能建议和Bug反馈,请反馈至知乎用户群 番茄人生软件用户圈 - 知乎​www.zhihu.com 0805版 ...

最新文章

  1. vivo 亿级优惠券系统架构设计与实践
  2. java操作protobuf
  3. 视频直播技术详解(8)直播云 SDK 性能测试模型
  4. cache_purge php
  5. VUE中出现 Cannot read property ‘length‘ of undefined 的错误
  6. 如何保证高可用?java删除文件夹下所有文件,技术详细介绍
  7. 【NOIP2000】【Luogu1019】单词接龙
  8. Android 系统架构图
  9. C++ 类的封装继承多态
  10. 网络游戏封包基础知识
  11. 自然语言处理,计算机与人类“谈心”的关键
  12. 鼠标右键失灵java_全百科鼠标助手
  13. VBA 图表的基本操作
  14. html和js画圣诞树图片,教你如何把JavaScript代码写成圣诞树
  15. 快捷键使电脑屏幕翻转
  16. Java中方法调用参数传递的方式是传值,尽管传的是引用的值而不是对象的值。(Does Java pass by reference or pass by value?)
  17. 97-ICMP 协议(端口不可达)
  18. 去掉Excel单元格最右边的几个字母
  19. postgis函数汇总
  20. 遗传算法求解无人机路径多目标规划问题(python实现)

热门文章

  1. 16个车辆信息检测数据集收集汇总(简介及链接)
  2. 计算机十个小技巧,Win10的10个实用小技巧,电脑小白轻松掌握,大大提升工作效率...
  3. 何謂 Raw Data ?
  4. Kettle下载资源
  5. Centos查看系统版本
  6. 海康威视摄像机修改网络参数报错:SADP.dll[2011]码
  7. Tomcat的乱码问题解决(最全面)
  8. C语言经典100例-6
  9. 面试题---jmeter
  10. c语言字符串不能是数字,C语言判断字符串是否为数字