hppRNA-基于Snakemake的便捷无参数管道,可用于众多样品的RNA-Seq分析 

王大鹏
生物信息学通报,第19卷,第4期,2018年7月,第622-626页,https: //doi.org/10.1093/bib/bbw143
发布时间:
2017年1月17日

文章历史

  • PDF格式
  • 拆分视图
  • 引用
  • 权限图标 权限
  • 分享

抽象

RNA-Seq技术已逐渐成为一种根据生物体,细胞类型和条件表征转录组特性的常规方法,因此,数据分析的工作负担沉重,这要求易于学习工作流以应对来自世界各地大量实验室的日益增长的需求。我们报告了一种称为hppRNA的一体解决方案,它由四个场景组成,例如映射前,核心工作流,映射后和序列变化检测,由一系列单独的Perl和R脚本编写,并依靠公认的和预装的软件,而与单端或双端,非链或链测序方法无关。它具有六个独立的核心工作流程,其中包括最新技术以及数十种流行的前沿工具,例如Tophat–Cufflink–Cuffdiff,Subread–featureCounts–DESeq2,STAR–RSEM–EBSeq,Bowtie–eXpress-edgeR ,kalisto-sleuth,HISAT-StringTie-Ballgown,并将自身嵌入Snakemake,这是一个现代的管道管理系统。该管道的核心功能是将原始的fastq文件转换为基因/同工型表达矩阵和差异表达的基因或同工型,以及鉴定融合基因,单核苷酸多态性,长非编码RNA和环状RNA。最后但并非最不重要的一点是,该管道是专为一次性完成对大量样本的系统分析而设计的,非常适合打算将管道部署在本地服务器上的研究人员。https://sourceforge.net/projects/hpprna/

RNA-Seq,管道,大量样品,基因表达谱,序列变异
发行部分:

介绍

随着测序技术和大数据分析方法的发展,RNA-Seq在当前时代的生物实验室中变得越来越普遍和重要,并且被认为是测量基因表达的最主要和最有效的方法之一[ 1,2 ]。RNA-Seq不仅通过无限的深度测序带来了检测低表达基因和区分属于同一基因的同工型的新机会,而且还带来了数据结构和分析方面的显着挑战,例如作为大容量数据,高性能计算能力和棘手的处理[ 3,4]。典型的RNA-Seq分析涉及多个步骤,因此,由于必须确保相邻步骤中使用的工具之间的数据格式具有一致性,因此也带来了困难。除此之外,研究人员还必须编写自己的脚本来解释和解析从各种软件获得的中间输出。

为了克服这一障碍,已经开发了许多用于RNA-Seq分析的管道程序,包括基于各种编程或编码系统的远程托管和基于Web的服务器以及本地安装的程序包的类型,每种程序都有其独特的优势。和优势。例如,某些工具接受补充数据格式作为输入,例如Chipster,wapRNA,PRADA,RseqFlow和RobiNA [ 5-9 ]。此外,RSEQtools通过将比对的总信息分为两个部分并在它们之间建立关系来建立模型来保护个人隐私,以进行以下深入分析[ 10 ]。TRAPLINE构建了蛋白质-蛋白质和miRNA-靶标相互作用的网络[ 11]。TCW通过集成一些进化工具来支持跨物种转录组分析。ArrayExpressHTS和easyRNASeq中的R性语言主要是实现和它们两者使用ř对象来存储中间数据和呼叫是内部或外部环境- [R [其他程序12,13 ]。NGSUtils,ViennaNGS和S-MART提供了与下一代测序(NGS)相关的工具的集合,这些工具能够处理,转换,分析和/或显示包含读取,比对或注释的专用数据文件[ 14-16 ]。GENE-Counter通过修改负二项分布来增强统计功效,从而解决了由于样本数量不足而引起的问题[ 17]。RAP并与先进的云计算技术FX工作执行分析,并有一些改进策略的对准读取或选择性剪接事件[检测18,19 ]。BioWardrobe是一个可以安装在核心服务器中的系统,并通过用户友好的图形界面(带有简化参数的选择)为所有生物学家提供服务[ 20 ]。QuickNGS允许对涵盖各种分类类别的大量物种进行分析,并使用MySQL数据库组织和管理数据以提高数据使用效率[ 21]。ExpressionPlot以比较的方式带来了数据表示的功能,并通过超链接[ 22 ]在表格数据和图形数据之间进行了交互操作。GeneProf同时维护一个网络服务器和一个数据库,以便用户可以将自己数据的分析结果与从大型项目中收集的公共数据存储库中的分析结果进行对比,或者在相同工作流程的背景下从多个实验的某些样本集中进行对比[ 23,24 ]。GenomeSpace具有两个显着的功能,它们是工具和灵活的子模块之间的轻松格式转换,以及详细的说明和示例,它们是形成复杂任务或进行高级分析的基本或最小单位[25 ]。Galaxy是一个流行的基于Web的工作台,结合了许多工具,可用于全局分析中涉及的特定步骤,并能够记录,共享和重用已执行的工作流[ 26 ]。

这些当前可用的程序或服务器为全球生物学界的最终用户做出了巨大贡献,加速了更多新颖,功能强大的工具的出现和开发。但是,某些管道要求进行数据传输,这既费时又占用有限的工作空间,或者每步仅提供一个或少量程序包选择,或者要求用户逐步确定冗余参数,这不适合一次分析大型数据集。对于大规模应用,我们提供了在本地服务器中实现的全面管道,该管道仅需要一个样本表来指定每个样本的描述,一堆被比较的组以及用于实验设计的有限数量的参数,从而产生所有重要的结果一轮后。该管道最有价值的部分是它包括六类核心工作流,并且所有代码都在Snakemake管道管理系统中进行了编程。此外,在几个重要步骤中建立了几个监控点,以评估和评估分析的质量,例如读数,比对和样品的水平。我们推测,这项工作为渴望在其项目中充分利用NGS技术而又无需担心琐碎步骤的研究人员提供了另一种选择。例如读取,比对和样本的水平。我们推测,这项工作为渴望在其项目中充分利用NGS技术而又无需担心琐碎步骤的研究人员提供了另一种选择。例如读取,比对和样本的水平。我们推测,这项工作为渴望在其项目中充分利用NGS技术而又无需担心琐碎步骤的研究人员提供了另一种选择。

方法

从lumina公司(ftp://ussd-ftp.illumina.com/)收集的iGenomes数据库中收集了人类(hg19)和小鼠(mm10)等两个物种的Fasta格式的基因组序列和gtf格式的基因注释。仅保留定义为蛋白质编码并位于完整染色体中的基因。创建了另一个由基因名称和转录本名称之间的关系组成的文件,以供进一步使用。为了减少资源数据的总量,仅在唤起各自的工作流程后才会生成用于映射的索引文件,并将其存储在工作流程文件夹中。分别从GENCODE数据库[ 27 ]和UCSC表浏览器[ 28 ]收集了已知的长非编码RNA(lncRNA)和重复注释文件。

最初,管道先于从定序器或商业存储库(例如BaseSpace)生成的原始fastq文件。FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)对原始fastq文件和已处理的fastq文件都进行了读取质量评估。基本质量过滤是通过PRINSEQ-lite [ 29 ]或FASTX-Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/)进行的,分别用于双端或单端读取。根据文库构建方法,可使用Cutadapt [ 30 ]修饰衔接子序列。fastx_collapser(作为FASTX-Toolkit的一部分)根据序列同一性估算唯一读取的数目。

在该管道的主要模块中,有六个类别的典型工作流程可用于三个步骤,包括作图,定量和差异表达基因(DEG)检测:(1)Tophat–Cufflink–Cuffdiff [ 31–33 ];(2)Subread-featureCounts-DESeq2 [ 34-36 ];(3)STAR–RSEM–EBSeq [ 37–39 ];(4)Bowtie–eXpress–edgeR [ 40–42 ]; (5)Kallisto酒店-猎犬[ 43,44 ]; (6)HISAT–细绳结–宴会礼服[ 45–47 ](图1)。在不同工作流程的方法学设计指导下,将基因组序列馈送到工作流程(1),(2),(3)和(6)的作图者,并为工作流程(4)和( 5)。在所有情况下,无论是基因座坐标系还是转录本坐标系的BAM文件都将由映射器生成,首选使用前者。两个矩阵文件包含基因或转录本/同工型水平的表达量,其中将在不同情况下使用各种定义的测量方法,例如每千碱基每百万片段(FPKM),每千碱基每百万读数(RPKM)或每百万转录本(TPM) ,具体取决于软件或算法的类型。特别是,除非可以通过该软件的内置模块直接输出此类结果,否则将采用将来自同一基因的转录物总和作为该基因最终值的策略。同样,DEG结果将在基因和转录本两个级别的两个文件中显示,包括比较组和校正后的所有可能性中的所有DEG /转录本基于统计检验和可选方法的P值和倍数变化。

图1
在新标签页中打开下载幻灯片

hppRNA的流程图。

为了简单和紧凑,在排序,索引,转换BAM和SAM文件之间的格式以及评估潜在的聚合酶链反应(PCR)复制水平方面,使用SAMtools [ 48 ]进一步处理了生成的bam文件。如果可能的话,BlackOPs [ 49 ]在识别标签“ NH:i:1”的帮助下选择唯一的对齐方式。为了控制作图效率,通过用ngs.plot.r绘制共有基因模型上的读数密度来检查RNA的质量和读数分布的平衡[ 50]。假发文件由SAMtools创建,BigWig文件将能够在面向物种的基因组浏览器中显示轨迹,而UCSC基因组浏览器团队提供的wigToBigWig进一步获得了这些假文件。在滤除所有样品中表达值均<1的基因后,选择了一组具有高度自信的表达的基因。R软件包通过分析所有基因的表达谱来负责所有样本之间的总体趋势和关系的图形化说明,从而产生一组用于热图和主成分分析的漂亮图像以及一些有用的文本文件,包括具有选定基因的表达矩阵和可变负荷矩阵,以了解某些基因对某些原理的原始贡献,

FusionCatcher [ 51 ]根据从成对末端或长时读取的单端数据进行的物理跨度读取的证据,检查融合基因。对于单核苷酸多态性(SNP)检测,将读数通过STAR [ 39 ] 2遍比对定位到基因组上,并通过Picard(http://broadinstitute.github.io/picard/)标记重复项。最后,GATK [ 52 ]根据阈值组合,通过后处理,变体检出和每个样品的突变过滤报告了可靠的SNP 。

该管道能够通过两种方式执行lncRNA分析,例如已知的lncRNA定量和新颖的lncRNA鉴定。所有众所周知的已知lncRNA已集成到上述六个主要工作流程中,因此,用户可以一次检查mRNA和lncRNA的表达谱。此外,该软件包还提供了用于识别分析样品中未知lncRNA的功能模块。详细地,工作流1用于在已知的mRNA和lncRNA的组合注释集的指导下比对阅读和组装转录物。通过Cuffmerge [ 31]从所有样本的集合中生成一个共有的转录本集[ 31]和潜在的新转录本,方法是将新集合与通过Cuffcompare进行的已知基因集合进行比较[ 31 ]并选择特定的类别代码,例如“ i”,“ j”,“ o”,“ u”和“ x” [ 53 ]。随后,iSeeRNA [ 54 ]将非编码基因与编码基因区分开,并将所有新发现的lncRNA添加到已知基因集,可以将其导入工作流程5进行任何进一步的分析。

为了进行环状RNA(circRNA)分析,选择STAR [ 39 ]进行单端和成对末端数据的不同策略映射,从而导致嵌合比对的产生。之后,DCC [ 55 ]负责发现和定量circRNA,CircTest [ 55 ]通过比较circRNA及其宿主基因之间的表达,研究了成对条件之间在circRNA相对丰度方面的差异。

实作

整个管道由多种编程语言(例如Perl,R和Python)编写,其中Perl和R负责简化多个样本同时的管道整个过程,在相邻步骤中将输出与输入连接起来,并自定义用户提供的各种参数。管道管理系统是根据现代Snakemake [ 56]框架与普通的Python代码一起使用,可简化错误处理,并行操作和文件自控制。所涉及的每种软件的参数或自变量可分为三类,例如默认,修改和用户提供的设置,其中第三种用于指定片段长度和测序方向的情况,从而使该管道适用于各种类别的文库构建测序策略,无论是单链还是双链,都可以是无链或多链的,这表明在一般情况下具有广泛有效应用的潜力。为了正确地运行整个管道,只应一步一步采取三个步骤。首先,执行Shell脚本以收集基因组和注释数据,安装必需的公共可用软件/工具,并收集自制的Perl和R脚本。其次,分析中所有样品的原始fastq文件(单端或成对端)应存储在文件夹中。最后,应通过使用输入表文件执行Perl脚本来编译主要的Snakemake文件,其中包括项目和实验设计的详细说明以及每个样品的具体说明以及重复条件以及用户希望进行的比较做。

讨论区

我们的目标是开发一条智能且标准的管道,从而使从头到尾进行大量样品的RNA-Seq分析成为可能,而无需编写脚本的繁重工作,从而满足公共研究界的共同要求。 。特别是,我们会努力提取尽可能多的信息,以从RNA-Seq数据中全面了解RNA水平的基因表达谱以及DNA水平的序列变异和点突变。此外,我们在此管道的第一个版本中将注意力集中在人类和小鼠基因组上,因为我们使用极其可扩展且灵活的样式化和每个模块的组织方式,因此很容易扩展到模型物种的其他注释良好的基因组在编写脚本时,尤其是以统一的方式呈现数据集的格式。我们会定期添加更多新颖的工作流程,其中包括新出现的计算工具。我们欢迎用户提供有关我们管道的所有反馈,并始终在某个时候等待改进和更新模块,以满足他们的特定需求,并希望在不断发展的过程中协助充分利用RNA-Seq技术的优点。

关键点

  • 该管道整合了六个主要的替代工作流程,以对齐,量化和分析RNA-Seq数据,从而为用户提供了更多选择,或为不同方法轻松进行一些比较分析。

  • 它包装在Snakemake管道管理系统中。

  • 它处理无限数量的样品,适合各种类型的实验设计。

  • 它是用户友好的,并且数十种软件的所有安装都是自动化的。

  • 它提供了对mRNA,lncRNA和circRNA的分析,并可以从RNA-Seq数据中检测序列变异(例如融合基因和SNP)。

王大鹏,牛津大学植物科学系。他正在致力于一系列用于下一代测序分析的管线的构建和应用。

hppRNA-基于Snakemake的便捷无参数管道,可用于众多样品的RNA-Seq分析相关推荐

  1. md500代码,异步电机,基于28379D,带无速度传感器控制,参数辨识,同步调制等功能

    md500代码,异步电机,基于28379D,带无速度传感器控制,参数辨识,同步调制等功能 ID:82144667340957932南瓜星忠心的奶酪

  2. 【共享内存】基于共享内存的无锁消息队列设计

    上交所技术服务 2018-09-05 https://mp.weixin.qq.com/s/RqHsX3NIZ4_BS8O30KWYhQ 目录 一.背景 二.消息队列的应用需求 (一)  通信架构的升 ...

  3. 基于图像重建损失的无监督变化检测

    阅读翻译:Unsupervised Change Detection Based on Image Reconstruction Loss Abstract: 为了训练变化检测器,使用在同一区域的不同 ...

  4. 《R语言数据挖掘:实用项目解析》——第2章,第2.9节无参数方法

    本节书摘来自华章出版社<R语言数据挖掘:实用项目解析>一书中的第2章,第2.9节无参数方法,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区 ...

  5. ajax无刷新留言板远吗,基于jquery实现ajax无刷新评论

    基于jquery实现ajax无刷新评论 发布于 2017-03-31 11:26:07 | 75 次阅读 | 评论: 0 | 来源: 网友投递 jQuery javascript框架jQuery是一个 ...

  6. 让业务感知不到服务器的存在——基于弹性计算的无服务器化实践

    导读:2018年7月6 - 7日,一年一度的技术圈盛会ArchSummit全球架构师峰会在深圳华侨城洲际酒店举办.100余位国内外技术专家将齐聚深圳,分享各类技术架构最佳实践.来自腾讯技术工程事业群架 ...

  7. 论文解读丨无参数的注意力模块SimAm

    摘要:本文提出了一个概念简单但对卷积神经网络非常有效的注意力模块. 本文分享自华为云社区<论文解读系列三十:无参数的注意力模块SimAm论文解读>,作者:谷雨润一麦. 摘要 本文提出了一个 ...

  8. *基于类平衡自我训练的无监督域自适应用于语义分割

    基于类平衡自我训练的无监督域自适应用于语义分割 摘要:最近的深度网络实现了最先进的性能在各种语义分割任务中.尽管有这样的进步,但是这些模型在现实世界中面临挑战,它们存在很大的差别在已标签训练/源文件和 ...

  9. 【自然语言处理】【可解释性】Perturbed Masking:分析和解释BERT的无参数探针

    Perturbed Masking:分析和解释BERT的无参数探针 Perturbed Masking:Parameter-free Probing for Analyzing and Interpr ...

最新文章

  1. (转)Sql中的constraint
  2. python计算两个数乘积_如何用PYTHON使两个数字总和变成乘积
  3. Netty(一)——Netty入门程序
  4. Java安全编码之用户输入
  5. 让微信扫描直接下载你的APK
  6. 人民币 小写金额转换为大写金额
  7. 序列输出ZOJ1108 FatMouse's Speed
  8. TableViewCell,TableView,UITableViewCell
  9. outlook 附件保存位置-附件无法打开
  10. 干货干货:px和毫米之间的转换
  11. 【DFS】n皇后问题(代码逐句分析)
  12. JetBrains DataGrip 2018.2.3中文破解版 含jar文件注册码激活教程(转)
  13. 【学术】论文返修时,能否增加作者或变更作者顺序?
  14. 快速取消PPT中所有动画效果
  15. 网课答案公众号搭建过程详解
  16. python的print与sys.stdout
  17. 面试时不能讲的跳槽理由有哪些
  18. leetcode感想
  19. 3dmax 建模插件 Rappa Tools 3 笔记
  20. 教你搭建个人/企业私有云盘-seafile

热门文章

  1. EF-Net一种适用于双流SOD的有效检测模型(Pattern Recognition)
  2. PointPillars:点云物体识别的快速编码
  3. LSD-SLAM解读——帧间追踪(详细推导)
  4. 系列篇|编写一个翻转事件极性的package
  5. 用Beamer制作幻灯片(卷二 色彩篇)
  6. python repl_asyncio REPL(Python 3.8)
  7. R 语言柱状图示例笔记
  8. 在线作图丨做一张叠加mantel test的相关性热图
  9. 76项!海南省崖州湾种子实验室揭榜挂帅项目立项结果公示
  10. 第八届“数学、计算机与生命科学交叉研究” 青年学者云论坛(5月15日9:00-16:40)...