使用Trinity进行转录组组装
Trinity是Broad Institute和Hebrew University of Jerusalem开发的RNA-Seq数据 转录组组装工具,包括三个模块,
- Inchworn(尺蠖): 将RNA-seq数据组装成单个转录本,通常是主要转录亚型的全长转录本
- Chrysalis(蛹): 这一步将上一步得到contig进行聚类,对于每个聚类构建完整的德布罗意图(de Bruijin graph)。每个转录本表示的是给定基因或者一组有着共同序列的基因的全部转录组成。 之后会根据图中不相交的点对全部短读数据进行拆分
- Butterfly(蝴蝶): 并行处理各个图(graph), 追踪每个图中的短读和配对短读的路径,最后报告可变剪切亚型的全长转录本,并且区分出旁系同源基因的转录本
如果不能理解上面这段话,就尝试理解下面这张图吧
当然如果示意图也让你不好理解的话,那就直接用软件吧,反正这些流程图的目标就是想告诉你,“用我,没毛病”
软件安装用bioconda就行了。
conda create -n Trinity trinity -y
source activate Trinity
运行流程
当你在命令行敲出Trinity
后,他就会输出一大堆信息。那么多信息分成3个部分:
- 必须参数:包括
--seqType
表示输入序列类型,--max_memory
允许使用最大内存(一般64G),还有输入数据的所在位置 - 可选参数:包括链特异性测序参数
--SS_lib_type
, 线程数--CPU
, 允许的最低组装contig长度--min_contig_length
, 是否标准化--no_normalize_reads
等 - 常见用法说明
Trinity --seqType fq --max_memory 50G \--left condA_1.fq.gz,condB_1.fq.gz,condC_1.fq.gz \--right condA_2.fq.gz,condB_2.fq.gz,condC_2.fq.gz \--CPU 6
# 有基因组引导组装
Trinity --genome_guided_bam rnaseq_alignments.csorted.bam --max_memory 50G \--genome_guided_max_intron 10000 --CPU 6
在常见用法中,Trinity提供了两种使用方式,一种是没有参考基因组进行组装,另一种则是先将序列回帖到参考基因组上,然后再进行组装。
前者很好理解,至于后者,大家可能会有疑问,这和TopHat2+Cufflink或HISAT2+StringTie的组合组装策略有什么区别呢?
Cufflinks和StringTie是根据参考基因组位置组装出转录本,基于原来的基因组返回GFF3文件,而Trinity只利用了参考基因组的位置信息,将同一个位置的read从头组装。这样的好处是在于,如果一个基因组存在多个旁系同源基因,无参考基因组组装可能会将这些基因的转录本组装成一个。但是如果原来的组装N50质量过差,片段化明显,就还是推荐使用无参考组装策略。
在运行中过程中,需要注意以下几点
- 质量控制(Quality control)。Trinity的
--trimmomatic
参数会调用Trimmomatic对数据进行过滤,这一步可以用其他软件完成。目前的RNA-seq质量也不需要过多的过滤。 - Trinity中有一个"In silico Read Normalization",用于对read进行标准化,适用于超过300M的数据,默认开启,可以用--no_normalize_reads关闭。标准化的原因是,由于某些高表达基因会被检测到很多次,但是对于组装没有帮助,所以可以提前剔除。
- 如果基因组中基因密度大(比如说真菌),一些转录本可能会在UTR区域有重叠。那么为了尽可能降低转录本的错误融合,需要用到--jaccard_clip。对于植物和脊椎动物,就不需要考虑这一步。
其他参数:
normalize_max_read_cov
: 某些基因的表达量特别高,可以通过限制覆盖度的策略提高组装效率
输出解读
运行结束后,最后的结果是trinity_out_dir
的Trinity.fasta
.Trinity将含有相同序列的转录本进行聚类,这种聚类可以被粗粗的被认为成一个基因的多个转录本。举个例子
>TRINITY_DN1000|c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACACACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGAAGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTCCAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGATAAAGCA
"TRINITY_DN1000|c115" 是Trinity 聚类编号,“g5”是基因编号,“i1”是转录亚型编号
评估组装质量
有如下几种方法可以评估组装的质量
- 使用Bowtie/BWA将RNA-seq回贴到组装的转录组上,有80%以上的回帖率就行了。
- 用全长重构蛋白编码基因去搜索已知蛋白序列,见representation of full-length reconstructed protein-coding genes,
- 使用BUSCO根据保守同源基因进行评估
- 计算E90N50,
- 计算DETONATE得分
- 使用TransRate评估转录组组装
转录本定量
直接根据转录本进行基因表达丰度定量工具根据是否比对分为两类
- alignment-based: RSEM, eXpress
- alignment-free: salmon, kallisto
估计转录本丰度
Trinity提供了align_and_estimate_abundance.pl
脚本用于调用不同的程序进行表达量定量。
RSEM相对于salmon或kallisto提供了更多的信息,但是速度明显地慢于salmon和kallsito。如果仅需要每个转录本的count, TPM和FPKM,那么更推荐用salmon。如果你为了更多的信息,愿意等待的话,那么你可以选择用RSEM.
使用Trinity进行转录组组装相关推荐
- Trinity进行转录组组装(2))
1. Trinity进行转录组组装 Trinity进行转录组组装的典型命令如下: $ /opt/biosoft/trinityrnaseq_r20131110/Trinity.pl --seqType ...
- Trinity进行转录组分析
1. Trinity进行转录组组装 Trinity进行转录组组装的典型命令如下: $ /opt/biosoft/trinityrnaseq_r20131110/Trinity.pl --seqType ...
- 常用转录组组装软件集合
转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续 ...
- 有参组装新转录本cufflinks_转录组组装软件stringtie
StringTie是約翰·霍普金斯大學计算机生物中心开发的一款转录组组装软件,在组装转录本的完整度,精度和速度方面都较以往的cufflinks 有很大的提升,也是目前有参考基因组转录组主流的组装软件. ...
- 应用第二代测序技术的转录组组装
目录 Next-generation transcriptome assembly 应用第二代测序技术的转录组组装... 2 第一部分:总体介绍挑战与机遇... 2 第二部分:实验提取与数据分析... ...
- 转录组组装软件--Bridger安装使用和报错解决方案
@转录组组装软件----Bridger安装注意事项和使用 #前言 在很多的文章中都看到了关于转录组组装软件–Bridger的推荐,但是找遍了很多平台都没有找到详细的安装教程,众所周知,安装软件都需要去 ...
- 转录组组装软件--SPAdes--安装和使用
spades这款de novo基因组组装软件, 适用于细菌/真菌等小型基因组的组装,不推荐用于动植物基因组的组装.该软件主要用于illumina,IonTorrent reads的组装,也可以进行Pa ...
- 转录组分析流程|数据处理与De novo组装(一)
title: 转录组分析流程|数据处理与De novo组装(一) tags: - 转录组组装 - 教程 - 软件 - Trinity - Rcorrector - Trimmomatic catego ...
- Trinity 一条龙策略
1. Trinity进行转录组组装 Trinity进行转录组组装的典型命令如下: $ /opt/biosoft/trinityrnaseq_r20131110/Trinity.pl --seqType ...
最新文章
- 1058 A+B in Hogwarts
- 技术随笔 查找速度最快的Google IP
- shell中定义变量用双引号和单引号以及不用引号的区别
- 如何写圆角矩形用html,圆角矩形的html+css实现
- pyMagic:用python控制的Geek入门神器
- Swift和Objective-C混编
- codesmith 模板
- sql语句创建唯一索引
- 游戏日志分析2:全方位数据采集
- eventlistener java_EventListener原理
- 校园网免认证登录基于DNS伪装包
- jquery 之简单好用的分页插件的使用方法 jQuery分页插件pageGroup.js
- LFW database
- gege.fans上热搜背后是明星私域流量的折射
- Word2013出现未响应的解决方法
- 无需开发!阿里大于推出全新短信群发助手
- 游戏脚本用什么语言写_为什么要写分镜头脚本?
- OCAD应用:光楔初始设计
- 顶会论文笔记:联邦学习——ATPFL: Automatic Trajectory Prediction Model Design under Federated Learning Framework
- 2字节、4字节、8字节的有符号整数的取值范围
热门文章
- 24 Three.js的环境光源THREE.AmbientLight
- java swing 下拉复选框_Java Swing JCheckBox复选框的实现方法
- 使用 Bumblebee 控制 NVIDIA 双显卡(ubuntu13.04-X64)
- 智能硬件APP开发之路:基于机智云APP开源框架
- 量化数据分析有多厉害?
- 百度闪电算法什么时间开始
- android usb挂载分析---MountService启动
- Web前端开发需要具备哪些职责?需要掌握哪些技能?
- 数据结构-赫夫曼树(三)
- 解决D3.zoom()缩放和平移初始化时图形位置会跳跃的问题(v6版本)