欢迎关注”生信修炼手册”!

STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。软件的源代码保存在github上,地址如下

https://github.com/alexdobin/STAR

安装过程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解压缩之后,在bin/Linux_x86_64_static目录下,提供了编译好的可执行文件STAR。和hisat等软件不同,STAR将所有的功能整合在了同一个程序中,通过切换runMode来执行不同的任务。

1. 构建基因组索引

运行比对前,首先需要对基因组建立索引,建立索引对应的runMode为genomeGenerate, 基本用法如下

STAR --runMode genomeGenerate \
--runThreadN  20 \
--genomeFastaFiles hg19.fasta \
--genomeDir hg19_STAR_db \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149

建立索引需要基因组的fasta和gtf文件,通过genomeFastaFilessjdbGTFfile这两个参数分别指定;STAR构建索引需要指定一个输出目录,这个目录必须事先创建好,在该目录下,会生成许多文件,所以必须有写权限;runThreadN指定线程数;sjdbOverhang的值默认为100, 在实际设置时,最佳取值为max(read_length) - 1

在构建索引时,还支持加入intron的区间信息,通过sjdbFileChrStartEnd指定对应的文件,多个文件用逗号分隔,这种格式的文件是由STAR比对产生的,通常用于2-pass比对模式。

官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffoldpatches。对于human而言,NCBI的链接如下

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_assembly_structure/Primary_Assembly/

Ensembl链接如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

2. 运行比对

STAR支持fasta/fastq格式的输入文件,如果序列文件是压缩之后的,需要用readFilesCommand参数指定文件解压缩的方法,对于gzip压缩的文件而言,有以下两种下写法

--readFilesCommand  zcat
--readFilesCommand  gzip -c

比对完成后,会输出许多文件,包含4个类别

  1. log文件

  2. sam文件

  3. bam文件

  4. 剪切位点文件

每个文件都有事先定义好的名字,当多个样本同时运行时,为了加以区分,可以通过outFileNamePrefix指定输出文件的前缀。前3种类型的文件都比较容易理解,剪切位点文件实际上是根据mapping情况,估算出来的intron区间的信息,默认的文件名称为SJ.out.tab

默认输出的比对文件为SAM格式,为了节省磁盘空间,方便下游分析,可以通过outSAMtype参数指定输出bam文件,该参数有两个字段值,第一个值指定文件类型, 取值有SAMBAM两种,第二个值指定是否排序,取值范围包括Unsorted, SortedByCoordinate, 写法如下

--outSAMtype BAM SortedByCoordinate

上述写法输出排序之后的bam文件。

单端数据比对的基本用法如下

STAR \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn reads.fq \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

双端数据比对的基本用法如下

STAR  \
--runThreadN  20 \
--genomeDir hg19_STAR_db \
--readFilesIn r1.fq.gz r2.fq.gz \
--readFilesCommand  zcat \
--sjdbGTFfile hg19.gtf \
--sjdbOverhang  149 \
--outFileNamePrefix sampleA \
--outSAMtype BAM SortedByCoordinate

以上只是基本的比对,STAR官方更推荐使用2-pass比对模式,即比对两次,有以下两种方式

  1. multi-sample 2-pass
    第一次比对和上述的用法一致,比对完之后,每个样本会产生一个intron的区间文件SJ.out.tab; 在第二次比对之前,重新构建一次基因组的索引,添加所有样本的SJ.out.tab文件,然后利用新的基因组索引重新比对。这种做法综合了多个样本的intron信息,比对的灵敏度会更高,缺点是操作比较繁琐。

  2. per-sample 2-pass
    对于单个样本,在比对时直接添加--twopassMode Basic参数,软件会自动进行两次比对,将第一次比对的SJ.out.tab加入到索引,然后重新比对。这种方法操作简单,适用于单个样本的2-pass 比对。

更多参数和用法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

STAR:转录组数据比对工具简介相关推荐

  1. windows原型设计工具_Windows的疯人性原型工具简介

    windows原型设计工具 The topic for today is on Lunacy, a free native Windows graphic design app that works ...

  2. 《python 与数据挖掘 》一 1.2 工具简介

    本节书摘来自华章出版社<python 与数据挖掘 >一书中的第1章,第1.2节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问云栖社区"华章计算机"公众号查看 ...

  3. 【Windows 逆向】OD 调试器工具 ( OD 工具简介 | OD 工具与 CE 工具对比 )

    文章目录 一.OD 工具简介 二.OD 工具与 CE 工具对比 三.博客资源 一.OD 工具简介 OD 全程是 PLLYDBG , 动态追踪工具 , 是目前最流行的 调试解密 工具 ; 该工具支持插件 ...

  4. 【Android 命令行工具】Android 命令行工具简介 ( 官方文档 | SDK 命令行工具 | SDK 构建工具 | SDK 平台工具 | 模拟器工具 | Jetifier 工具 )

    文章目录 一.官方文档 二.Android 命令行工具简介 1.SDK 命令行工具 2.SDK 构建工具 3.SDK 平台工具 4.模拟器工具 5.Jetifier 工具 一.官方文档 Android ...

  5. 【音频处理】Melodyne 选择工具使用 ( 主工具简介 | 修改音高 | 自动吸附 | 音符长度修改 | 长度自动吸附 | 设置音符分离线 | 设置片段分离线 )

    文章目录 一.主工具简介 二.选择工具 | 修改音高 三.自动吸附 四.修改音符长度 五.修改音符长度自动吸附 六.音符分离线设置 七.设置片段分离线 一.主工具简介 主工具 是 主工具栏 中的 66 ...

  6. Algorithm:机械优化设计的数学模型简介、常用优化方法、优化计算工具简介之详细攻略

    Algorithm:机械优化设计的数学模型简介.常用优化方法.优化计算工具简介之详细攻略 目录 机械设计中基于算法模型的机械优化设计 1.优化设计的数学模型

  7. sysbench压力测试工具简介和使用(一)

    sysbench压力测试工具安装和参数介绍 一.sysbench压力测试工具简介: sysbench是一个开源的.模块化的.跨平台的多线程性能测试工具,可以用来进行CPU.内存.磁盘I/O.线程.数据 ...

  8. Qualcomm QXDM工具简介和log抓取

    高通工具简介 QXDM 简介 QXDM 安装 QXDM 激活 QXDM 使用AT打开Diagnostic口 QXDM 配置 1 Message View Configuration Message P ...

  9. Python静态类型解析工具简介和实践

    简介: Python是一门强类型的动态类型语言,开发者可以给对象动态指定类型,但类型不匹配的操作是不被允许的.动态类型帮助开发者写代码轻松愉快,然而,俗话说:动态一时爽,重构火葬场.动态类型也带来了许 ...

  10. webstrom 开发工具简介

    webstrom 开发工具简介 验证码 http://idea.javatiku.cn/ 方法 https://www.jianshu.com/p/76f97992bb32

最新文章

  1. 2021年大数据Spark(十一):应用开发基于IDEA集成环境
  2. seaborn将图例放置在图像外部并使用move_legend函数将图例(legend)放置在图像的底部(bottom)、且单行展开显示
  3. sas和python哪个更容易_我该选择谁?SAS VS Python
  4. python画柱形图-Python绘制柱状图
  5. 实用技巧:Linux操作系统Vim/Vi编程提速
  6. 内存管理1retain和release
  7. Git 仓库基础操作
  8. kettle分布式部署_Kettle(三)分布式架构
  9. javaweb实训第一天上午——HTML和CSS
  10. React:创建用于获取数据的自定义Hook
  11. FFmpeg总结(十三)用ffmpeg基于nginx实现直播功能,不用第三方SDK,自研推流拉流
  12. Java程序员简历书写
  13. 灰鸽子病毒——网络神偷之后应用最广的反弹端口***
  14. 模模搭古城搭建学习笔记3:建筑篇
  15. Rasa 聊天机器人Rasa_NLU_Chi
  16. oracle nested loops outer,11g对Nested Loops的改进
  17. Run Run Run
  18. 单道批处理操作系统、多道批处理操作系统以及分时操作系统区别
  19. android 广告视频,Android开屏视频广告
  20. C51学习笔记(一)

热门文章

  1. SBUS协议数据演示
  2. 根据消费定额生成菜单的算法(原创)
  3. sublime 格式化Json
  4. linux svnadmin,Linux下SVN+Apache+iF.svnadmin搭建
  5. 向日葵远程控制软件linux版安装
  6. wpf制作的画图软件
  7. Spoon工具使用(kettle进行实时同步数据)
  8. java od_OD使用教程
  9. MT6763/MT6763T处理器参数比较,MT6763设计资料参考
  10. ovito在linux下安装教程,linux下超详细教程安装phonopy