欢迎关注”生信修炼手册”!

STAR是目前主流的RNA-seq比对软件之一,而STAR-fusion就是一款基于STAR比对结果进行融合基因鉴定的软件,该项目的地址如下

https://github.com/STAR-Fusion/STAR-Fusion/wiki

在对应的文献中,将STAR-fusion与其他融合基因分析软件进行了比较

1. 运行时间

从上图可以看出,STAR-fusion的运行时间有明显优势。

2.  ROC曲线

ROC曲线用于评估软件分析结果的好坏,横坐标为false positive rate, 简称FPR,代表分析结果的假阳性率,纵坐标为true positive rate, 又称之为敏感度sensitivity。对于一个理想的分析结果而言,肯定是假阳性率越低越好,敏感度越高越好。

在ROC曲线中,在曲线下的面积称之为AUC值,一个软件的AUC值越大,则其综合效果最好。

从上图可以看出,对于文章中的测试数据,STAR-fusion的分析结果较好。

该软件的安装比较简单,直接下载文件,解压缩即可,其运行过程如下

需要注意一点,STAR-fusion依赖STAR来比对序列,STAR这个软件运行速度很快,但是其内存消耗是巨大的,对于人类基因组而言,比对时1个样本就需要30G左右的内存,如果运用于融合基因的检测,所用内存会上升到40G左右,这对于计算资源是一个考验,在实际分析时,要根据已有的硬件资源合理设置并行的样本数。

STAR-fusin具体的运行过程如下

1. 建立reference lib

首先需要建立参考基因组对应的reference lib,  至少需要参考基因组对应的fasta文件和gtf文件,另外还可以提供已有的融合基因的注释等。

对于humanmouse而言,提供了已经构建好的文件,链接如下

https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/

plug-n是已经建立好的reference lib, 而source里面包含了所需的原始文件。从原始文件构建reference lib的命令如下

FusionFilter/prep_genome_lib.pl \
--genome_fa ref_genome.fa \
--gtf ref_annot.gtf \
--fusion_annot_lib CTAT_HumanFusionLib.dat.gz \
--annot_filter_rule AnnotFilterRule.pm \
--pfam_db PFAM.domtblout.dat.gz

这个perl脚本是集成在star-fusion的安装目录在的,pfam_dbanno_filter_rule可以从上图中的source压缩包中得到,而fusion_annot_lib是融合基因的注释信息,对于人和小鼠,上图中提供了对应的注释文件,如果没有,也可以不提供。

默认会在当前目录生成一个名为ctat_genome_lib_build_dir的目录,所有的结果文件都保存在这个目录下。

2. 运行STAR-fusion

STAR-fusion支持两种模式,第一种是直接从fastq开始,第二种是自己手动进行STAR比对,然后在运行STAR-fusion。第一种模式的用法如下

双端测序

STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--right_fq reads_2.fq \
--output_dir star_fusion_outdir

单端测序

STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--output_dir star_fusion_outdir

其中的CTAT_resource_lib就是第一步建立好的reference lib所在的目录。 直接根据STAR比对的结果进行分析的模式称之为Kickstart模式,用法如下

1. STAR比对

STAR --genomeDir ${star_index_dir} \                                                                                     --readFilesIn ${left_fq_filename} ${right_fq_filename} \                                                                      --twopassMode Basic \                                                                                                      --outReadsUnmapped None \                                                                                                  --chimSegmentMin 12 \                                                                                                    --chimJunctionOverhangMin 12 \                                                                                           --alignSJDBoverhangMin 10 \                                                                                              --alignMatesGapMax 100000 \                                                                                             --alignIntronMax 100000 \                                                                                                --chimSegmentReadGapMax 3 \                                                                                    --alignSJstitchMismatchNmax 5 -1 5 5 \--runThreadN ${THREAD_COUNT} \                                                                                                           --outSAMstrandField intronMotif \--chimOutJunctionFormat 1

2. 运行STAR-fusion

STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
-J Chimeric.out.junction \
--output_dir star_fusion_outdir

STAR-fusion的输出结果文件名为

star-fusion.fusion_predictions.tsv

列数很多,部分列截图如下

其中的JunctionReadSpanningFrag,在之前的文章中有介绍,这些reads的个数越多,为一个真实的融合基因的可能性越大,SpliceType表示断裂点breakpoint是否位于exon边界,更详细的结果解读请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

使用STAR-fusion进行融合基因的分析相关推荐

  1. 生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

    2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一 ...

  2. mRNA数据分析专题

    欢迎关注"生信修炼手册"! mRNA是基因实时表达的产物,研究mRNA可以探究基因表达以及调控的规律:同时也可以用于发现基因结构的变化,比如可变剪切,融合基因等事件,本文整理了mR ...

  3. CMU-MOSEI数据集解读

    Multimodal Language Analysis in the Wild:CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph 作者 ...

  4. COSMIC数据库简介

    欢迎关注"生信修炼手册"! COSMIC是癌症相关体细胞突变位点的最大的数据库之一,网址如下: https://cancer.sanger.ac.uk/cosmic/ 最新版本为v ...

  5. Github 最受欢迎的 35 个项目一览

    文章目录 Github 最受欢迎的 35 个项目一览 搜索 Github 仓库分析 社区 JavaScript 领域 CSS 领域 Python 领域 杂项 学习资料.面试资料.职业生涯指引.设计指南 ...

  6. 用于期望视场中光导耦合的二元光栅的优化

    摘要 耦合光栅通常用于将期望视场(FOV)内的光发射到光导结构中,VirtualLab Fusion可用于研究此类耦合光栅的性能.在所有期望角度上获得均匀的耦合效率是一项具有挑战性的任务,来自Dyna ...

  7. DIV+CSS布局心得

    DIV+CSS布局心得 文章目录 DIV+CSS布局心得 1,清空所有原有样式 随时对HTML和CSS进行注释 2,分析页面布局 DIV+CSS布局页面 页面常用HTML标签 CSS常用选择器 CSS ...

  8. 没有实习经验,没有项目经验,简历怎么写?

    链接:https://www.jianshu.com/p/2d0a3a2f0e9c 一般来说,应届生简历要包含个人信息.求职意向.实习经历.项目经历.校内经历.教育背景.证书荣誉.技能特长.自我评价等 ...

  9. 基于Snort的入侵检测系统_相关论文

    摘 要 随着网络技术的发展,中小型企业已建设了属于自己的信息化业务平台与系统.中小型企业只有实现信息互通,资源共享,才能够在当今的竞争中生存下去,但信息的互通会面临一些安全问题,对此需要对其采取一些措 ...

最新文章

  1. SNMP功能开发简介 四 net-snmp动态监听自定义端口
  2. POJ 1505(二分+贪心)
  3. 大数系列三——斐波那契数列——高效万进制,亿进制
  4. 第一个WebService案例
  5. 用MS SQL Server事件探查器来跟踪数据库的操作
  6. LwIP应用开发笔记之五:LwIP无操作系统TCP服务器
  7. Mysql 中创建数据库并插入数据
  8. JavaScript闭包
  9. android报警声音
  10. .与localhost与 .\sqlexpress的区别
  11. Java 单点登录安全性如何保障?
  12. Linux隧道isatap(sit模式)
  13. Netty详解第二课 Netty进阶和优化
  14. CSS模块、筛选模块、文档处理(CUD)模块、事件模块
  15. 关闭、清除IBM小型机橙色告警灯方法
  16. word保存html格式批注没有了,word批注不见了 怎么显示批注
  17. 计算机网络基础选择题
  18. 2018十大最热门编程语言排行榜出炉,Java竟不是第一!
  19. 万用表测占空比怎么接_如何使用万用表测量频率和占空比?
  20. char[4]转int或int转char

热门文章

  1. 电话本管理系统 基础版
  2. InSAR基础知识简介
  3. 写好一篇软文文章的六个步骤技巧
  4. Android每日源码,微博编辑框ProgressDialog加载“到位”功能流动布局快递小说app
  5. LeetCode 221. Maximal Square (最大正方形)
  6. 56个民族select下拉框
  7. Java Swing编写udp数据传输的聊天程序demo
  8. linux6防火墙设置,centos6系统如何设置防火墙(图文)
  9. mysql怎么跑代码_MySQL菜鸟入门指南_mysql
  10. 老毛桃制作U盘装机步骤