使用STAR-fusion进行融合基因的分析
欢迎关注”生信修炼手册”!
STAR是目前主流的RNA-seq比对软件之一,而STAR-fusion就是一款基于STAR比对结果进行融合基因鉴定的软件,该项目的地址如下
https://github.com/STAR-Fusion/STAR-Fusion/wiki
在对应的文献中,将STAR-fusion与其他融合基因分析软件进行了比较
1. 运行时间
从上图可以看出,STAR-fusion的运行时间有明显优势。
2. ROC曲线
ROC曲线用于评估软件分析结果的好坏,横坐标为false positive rate, 简称FPR,代表分析结果的假阳性率,纵坐标为true positive rate, 又称之为敏感度sensitivity
。对于一个理想的分析结果而言,肯定是假阳性率越低越好,敏感度越高越好。
在ROC曲线中,在曲线下的面积称之为AUC值,一个软件的AUC值越大,则其综合效果最好。
从上图可以看出,对于文章中的测试数据,STAR-fusion的分析结果较好。
该软件的安装比较简单,直接下载文件,解压缩即可,其运行过程如下
需要注意一点,STAR-fusion依赖STAR来比对序列,STAR这个软件运行速度很快,但是其内存消耗是巨大的,对于人类基因组而言,比对时1个样本就需要30G左右的内存,如果运用于融合基因的检测,所用内存会上升到40G左右,这对于计算资源是一个考验,在实际分析时,要根据已有的硬件资源合理设置并行的样本数。
STAR-fusin具体的运行过程如下
1. 建立reference lib
首先需要建立参考基因组对应的reference lib, 至少需要参考基因组对应的fasta
文件和gtf
文件,另外还可以提供已有的融合基因的注释等。
对于human
和mouse
而言,提供了已经构建好的文件,链接如下
https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/
plug-n
是已经建立好的reference lib, 而source
里面包含了所需的原始文件。从原始文件构建reference lib的命令如下
FusionFilter/prep_genome_lib.pl \
--genome_fa ref_genome.fa \
--gtf ref_annot.gtf \
--fusion_annot_lib CTAT_HumanFusionLib.dat.gz \
--annot_filter_rule AnnotFilterRule.pm \
--pfam_db PFAM.domtblout.dat.gz
这个perl脚本是集成在star-fusion的安装目录在的,pfam_db
和anno_filter_rule
可以从上图中的source
压缩包中得到,而fusion_annot_lib
是融合基因的注释信息,对于人和小鼠,上图中提供了对应的注释文件,如果没有,也可以不提供。
默认会在当前目录生成一个名为ctat_genome_lib_build_dir
的目录,所有的结果文件都保存在这个目录下。
2. 运行STAR-fusion
STAR-fusion支持两种模式,第一种是直接从fastq开始,第二种是自己手动进行STAR比对,然后在运行STAR-fusion。第一种模式的用法如下
双端测序
STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--right_fq reads_2.fq \
--output_dir star_fusion_outdir
单端测序
STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--output_dir star_fusion_outdir
其中的CTAT_resource_lib
就是第一步建立好的reference lib所在的目录。 直接根据STAR比对的结果进行分析的模式称之为Kickstart
模式,用法如下
1. STAR比对
STAR --genomeDir ${star_index_dir} \ --readFilesIn ${left_fq_filename} ${right_fq_filename} \ --twopassMode Basic \ --outReadsUnmapped None \ --chimSegmentMin 12 \ --chimJunctionOverhangMin 12 \ --alignSJDBoverhangMin 10 \ --alignMatesGapMax 100000 \ --alignIntronMax 100000 \ --chimSegmentReadGapMax 3 \ --alignSJstitchMismatchNmax 5 -1 5 5 \--runThreadN ${THREAD_COUNT} \ --outSAMstrandField intronMotif \--chimOutJunctionFormat 1
2. 运行STAR-fusion
STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
-J Chimeric.out.junction \
--output_dir star_fusion_outdir
STAR-fusion的输出结果文件名为
star-fusion.fusion_predictions.tsv
列数很多,部分列截图如下
其中的JunctionRead
和SpanningFrag
,在之前的文章中有介绍,这些reads的个数越多,为一个真实的融合基因的可能性越大,SpliceType
表示断裂点breakpoint
是否位于exon边界,更详细的结果解读请参考官方文档。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!
使用STAR-fusion进行融合基因的分析相关推荐
- 生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)
2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一 ...
- mRNA数据分析专题
欢迎关注"生信修炼手册"! mRNA是基因实时表达的产物,研究mRNA可以探究基因表达以及调控的规律:同时也可以用于发现基因结构的变化,比如可变剪切,融合基因等事件,本文整理了mR ...
- CMU-MOSEI数据集解读
Multimodal Language Analysis in the Wild:CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph 作者 ...
- COSMIC数据库简介
欢迎关注"生信修炼手册"! COSMIC是癌症相关体细胞突变位点的最大的数据库之一,网址如下: https://cancer.sanger.ac.uk/cosmic/ 最新版本为v ...
- Github 最受欢迎的 35 个项目一览
文章目录 Github 最受欢迎的 35 个项目一览 搜索 Github 仓库分析 社区 JavaScript 领域 CSS 领域 Python 领域 杂项 学习资料.面试资料.职业生涯指引.设计指南 ...
- 用于期望视场中光导耦合的二元光栅的优化
摘要 耦合光栅通常用于将期望视场(FOV)内的光发射到光导结构中,VirtualLab Fusion可用于研究此类耦合光栅的性能.在所有期望角度上获得均匀的耦合效率是一项具有挑战性的任务,来自Dyna ...
- DIV+CSS布局心得
DIV+CSS布局心得 文章目录 DIV+CSS布局心得 1,清空所有原有样式 随时对HTML和CSS进行注释 2,分析页面布局 DIV+CSS布局页面 页面常用HTML标签 CSS常用选择器 CSS ...
- 没有实习经验,没有项目经验,简历怎么写?
链接:https://www.jianshu.com/p/2d0a3a2f0e9c 一般来说,应届生简历要包含个人信息.求职意向.实习经历.项目经历.校内经历.教育背景.证书荣誉.技能特长.自我评价等 ...
- 基于Snort的入侵检测系统_相关论文
摘 要 随着网络技术的发展,中小型企业已建设了属于自己的信息化业务平台与系统.中小型企业只有实现信息互通,资源共享,才能够在当今的竞争中生存下去,但信息的互通会面临一些安全问题,对此需要对其采取一些措 ...
最新文章
- SNMP功能开发简介 四 net-snmp动态监听自定义端口
- POJ 1505(二分+贪心)
- 大数系列三——斐波那契数列——高效万进制,亿进制
- 第一个WebService案例
- 用MS SQL Server事件探查器来跟踪数据库的操作
- LwIP应用开发笔记之五:LwIP无操作系统TCP服务器
- Mysql 中创建数据库并插入数据
- JavaScript闭包
- android报警声音
- .与localhost与 .\sqlexpress的区别
- Java 单点登录安全性如何保障?
- Linux隧道isatap(sit模式)
- Netty详解第二课 Netty进阶和优化
- CSS模块、筛选模块、文档处理(CUD)模块、事件模块
- 关闭、清除IBM小型机橙色告警灯方法
- word保存html格式批注没有了,word批注不见了 怎么显示批注
- 计算机网络基础选择题
- 2018十大最热门编程语言排行榜出炉,Java竟不是第一!
- 万用表测占空比怎么接_如何使用万用表测量频率和占空比?
- char[4]转int或int转char
热门文章
- 电话本管理系统 基础版
- InSAR基础知识简介
- 写好一篇软文文章的六个步骤技巧
- Android每日源码,微博编辑框ProgressDialog加载“到位”功能流动布局快递小说app
- LeetCode 221. Maximal Square (最大正方形)
- 56个民族select下拉框
- Java Swing编写udp数据传输的聊天程序demo
- linux6防火墙设置,centos6系统如何设置防火墙(图文)
- mysql怎么跑代码_MySQL菜鸟入门指南_mysql
- 老毛桃制作U盘装机步骤