目录

Next-generation transcriptome assembly 应用第二代测序技术的转录组组装... 2

第一部分:总体介绍挑战与机遇... 2

第二部分:实验提取与数据分析... 2

组装前:... 2

组装策略:... 3

选择策略... 4

选择组装软件... 4

评价组装的质量... 5

总结和未来的展望... 5

全文完... 5

Next-generation transcriptome assembly             应用第二代测序技术的转录组组装

第一部分:总体介绍挑战与机遇

  1. 现有的转录组组装技术主要有三大方向:基于参考序列的组装,从头组装,两者结合的组装方法
  2. 第二代测序与Sanger测序在转录组中的优势:高灵敏度,高精度,高深度,检测范围广甚至包括起调节作用的稀有转录本
  3. 第二代测序与其他高通量技术如基因芯片技术相比在转录本中的优势:能达到单碱基水平的分辨率,能反应表达水平的动态变化,能进行从头基因注释
  4. 第二代测序在组装中的挑战:测序片段(reads)短,质量值偏低,数据量大,要求大内存或者多核计算机。现在已经有一些软件能解决这些问题如:Velvet,ABYSS,ALLPATH等
  5. 转录本组装与基因组组装的差别:

1.测序深度问题:各个转录本的深度不一致

2.链特异性,组装软件需要考虑正义链和反义链之间的overlap

3.转录本变异:例如可变剪切

第二部分:实验提取与数据分析

组装前:

  1. 文库构建

A. 为了多的构建转录本,核糖体RNA (rRNA) 和丰度过高的转录本应该被移除,但是如果实验要研究转录本的丰度数值的话,应该构建不经过移除处理的文库。

B. 是否取消文库构建的PCR过程,因为PCR导致高GC含量的转录本测序深度偏低。需要研发免扩增的技术(Amplification-free protocols),最新的单分子测序技术则不需要PCR扩增,尤其是Helicos甚至不需要构建cDNA文库,但是这种测序技术会大幅增加错误率。应用免扩增的技术使得转录本的测序深度更平均,更连续,有利于组装。

C. 利用链特异性的RNA测序技术则可以利用互补链的转录本信息来辅助组装。这在基因密度较大的基因组如细菌,古细菌和低等真核生物中尤为重要。此外在检测高等生物的antisense transcription中也有应用。http://bioinformatics.dxy.cn/bbs/topic/20719610
http://en.wikipedia.org/wiki/Antisense_RNA
需要看参考文献27:什么是链特异的RNA测序

  1. 测序:A. 测序平台的选择:454 SOLiD Solexa

B. 测序片段长度:越长越好

C. 是否采用双向测序的策略:双向测序可以将测通的短测序片段连接成较长的片段,此外不同插入片段的reads还有助于识别可变剪切等。

  1. 数据预处理

A. 移除人工引入的序列:测序接头 low-complexity reads 和一致的reads (通常由PCR扩增造成)。

B. 通过测序质量以及kmer频率移除测序错误,kmer纠错的缺点是丰富较低的转录本将会被移除。

组装策略:

  1. 基于参考序列的组装:

A. 首先将测序reads利用特定比对软件比对到基因组上。

B. 利用overlap关系构建graph

C. 转换graph中的信息为转录本。软件有Cufflinks, Scripture等。

关键步骤是reads比对和构图解码,reads比对分为两个策略:种子延伸和Burrows–Wheeler转换法。两种算法在处理跨越内含子的reads处理上相对不同。构图现在主流的也有两种算法:Cufflinks和Scripture。通常Cufflinks在重构转录本上更加保守而Scripture则在同一个位置上能得到更多的转录本。

基于参考序列的组装的优点

1.将整体的数据组装转换为各个位点的局部组装,内存需求小。

2.污染及人工引入的序列影响小,因为这些reads不能被比对回参考序列。3.灵敏度高,能检测低丰度的转录本

4.组装的转录本序列更完整,gap可以使用参考序列来填补,类似的可以获得更长的UTR序列。

4.可以发现参考序列中未注释的新的转录本。

基于参考序列的组装的应用:在组装细菌,古细菌,低等真核生物的转录本中更加容易,是因为这些物种的基因含有较少的内含子以及较少的可变剪切。转录本的边界可通过基因组中reads的连续覆盖度来判断,转录本的起始终止点可通过5端帽子或者polyA来判断。但是在基因密度较大的基因组中,这种策略无法区分来自两条链的转录出来的具有overlap的转录本,所以会把他们融合组装成一个转录本,即使他们不是一个基因的多个顺反字。链特异性的RNA测序也只能区分来自不同链的转录本而不能区分同一个链上具有overlap的基因的转录本。植物和哺乳动物的基因结构较复杂,很难进行组装。Cufflinks and Scripture主要是针对哺乳动物设计的重构转录本的软件。在多倍体植物中,转录本的组装依然是个难题。

基于参考序列的组装的缺点

1.依赖于参考序列,如果参考序列本身不可靠,那么转录本组装结果可信度很低。

2.比对软件会导致错误的比对。

3.不容易组装trans-spliced genes,而这些基因对研究一些癌症一份关键。

其他:基于参考序列的组装当然不能没有参考基因组,然而在缺少本物种的参考基因组的情况下可以使用相近物种的基因组序列(草莓基因组文章)。

总结:在高质量参考序列的存在下,该方法具有较高的灵敏度和精度,即使在测序深度10x左右依然能得到全长的转录本。同时利用更长的reads也有利于转录本的组装。结合基因预测,基于参考序列的组装将成为转录注释的一个强有力工具。

  1. 从头组装:不利用基因组,直接利用测序的reads之间的overlap进行组装。组装的算法为构建De Bruijn graph,然后从graph中连接reads构建转录本。现在流行的组装策略有

A.首先对数据集进行多次组装,最后合并多次组装得到的结代表软件有Rnnotator, Multiple‑k and Trans-ABySS等。

B. 直接从graph中计算得到转录本。

从头组装的优点:与基于参考序列的组装策略相比,具有以下优点

1.不依赖于参考序列

2.不依赖于比对软件

3.从头组装能较好的重建可变剪切或者来自染色体重组的转录本。

从头组装的应用:对细菌,古细菌,低等真核生物的转录本组装十分轻松。利用测序深度大于30层、测序长度为35bp的reads成功组装出了酵母的转录本,其中大部分组装出来是全长转录本。在不构建互补反转的kmer的情况下,可以区分来自不同链的具有overlap的基因转录本。然而对于来自同一个链上的具有overlap的基因则依然无法区分,或许可以利用测序深度的不同、明显的转录起始终止位点、编码阅读框来进行区分。由于在高等真核生物中,数据量较大而且存在较多的可变剪切变异,所以利用从头组装策略将对时间和内存有较大的需求,当然可以通过并行多节点运算来解决。利用从头组装来解决可变剪切的具体策略现在又以下两个:

1.利用双向测序的reads,代表软件:Oases

2.逐步组装策略,首先使用贪婪算法进行初步组装,再构建De Bruijn graph进行第二级组装,这样会大大提高运算速度。
从头组装的缺点

1.需要较大内存资源。2.需要较高深度的测序。3.对测序错误敏感。

4.高相似度的转录本可能会被合并

  1. 12结合的组装方法:结合基于参考序列的组装的高敏感度和从头组装查找新基因、可变剪切的能力。是先比对到基因组上再进行从头组装还是先先进行从头组装,到现在没有一个系统的评价,在不同的条件下需要选择不同的策略。

先比对再组装:比对完成之后,进行基于参考序列的组装,将组装的得到的初步结果和reads混在一起作为从头组装的输入文件(要求从头组装既支持短reads也支持长reads,代表:Trans-ABySS and Oases)。在参考基因组比较完整的情况下,含有错误的reads或者污染的reads将无法比对回基因组,这使得第二部中的从头组装占用更少的内存,更加准确。当reads中含有较多污染时,应当首选该策略。

先组装再比对:当参考序列质量较差或者是近缘物种的基因组时,应该先进行从头组装,在把从头组装得到的序列比对回参考序列进行延伸,构建scaffold。这中策略的优点是参考序列的错误影响不大。最近的一项鲶鱼转录本的研究中,在从头组装完成之后比对回棘鱼的基因组作进一步的组装,获得了更长的转录本(N50增加了27%),蚊子转录本也是用这种方法构建的。

其他:现在还没有能实现结合方法组装的软件,也没有系统的研究这种方法可能带来的错误。

选择策略:选择策略依赖于数个因素如:是否存在参考序列,测序能力,计算能力,数据类型,项目的目标等等。转录本的数据能提供大量的信息,有时候一小部分数据的研究也能带来成果,如最近水稻的研究中发现了新649个基因可能与耐盐性有关。还有的研究只关注数据的一部分,如老年痴呆症研究中假设发病机理与可变剪切的起始位点及剪切模式相关。随着越来越多的基因组被测序,基于参考序列的组装策略应用将越来越广泛,当然没有参考序列的只能使用从头组装方法。

选择组装软件:不同的测序平台有相应的不同数据类型,错误模型,因此也有不同的相应的组装算法、组装软件

评价组装的质量:对于基因组的组装结果评价已经有较多的研究,但是转录组质量的评价现在还没有一个统一的标准。现在主要的评价指标有:

准确性,完整性,连续性,嵌合现象,对变异的处理。

总结和未来的展望:两种不同的组装方法的发展使得转录组组装能应用于几乎任何基因组,甚至在宏转录组中。

HPC(高性能计算)的发展大大的减少了组装大量数据的运算时间,最近也有研究在开发基于云计算的组装软件。同时,实验方面如RNA提取和测序技术的发展也大大的改善了组装的结果。

第三代测序技术如PacBio的应用,使得reads的长度大幅提高,加入这种技术的通量能达到现在第二代测序技术的能力,那么相信在不久的将来,转录组的研究可能不在需要组装,而直接应用测序数据。

全文完

应用第二代测序技术的转录组组装相关推荐

  1. 基于RNA测序技术的转录组从头拼接算法研究

    基于RNA测序技术的转录组从头拼接算法研究 摘要: 生物信息学主要研究分子生物学领域,而对于分子生物学领域,转录组的从头拼接又是其核心内容,即利用转录组的测序片段拼接出整个转录组中的所有表达的转录体. ...

  2. 基因测序3——三、四代测序技术来势汹汹,国产化仍在布局二代测序?

    基因测序3--三.四代测序技术来势汹汹,国产化仍在布局二代测序? 和义广业创新平台 为医械创新创业者提供一站式产业转化服务 取消关注 1 人赞同了该文章 导读 [行业分析]基因测序系列,将聚焦基因测序 ...

  3. 为什么第二代测序碱基出错主要以替换(Substitutions)为主

    第二代测序碱基出错偏向的原因是什么 为什么第二代测序碱基出错主要以替换为主 稀有碱基会影响测序吗 小白提问:各位大佬好,我在学习碱基测序技术的时候,了解到第二代测序技术会有固定碱基出错的偏向,但我在网 ...

  4. DNA测序技术的发展史之——第一代测序技术

    DNA测序技术的发展史之--第一代测序技术 2016-11-19 15:55:42 | 分类: 默认分类  [转载]     1953年,沃森和克里克发现了DNA的双螺旋结构,随后,分子生物学研究发展 ...

  5. 基于三代测序技术的高产糖化酶黑曲霉工业菌株基因组组装与注释及功能基因比较研究

    第一代测序技术主要是由Sanger等人发明的测序技术,他的发明第一次为人们开启了解读 生命遗传密码 的大门,Sanger本人也因此获得了诺贝尔奖.这种DNA末端终止法测序技术的 原理:主要通过在DNA ...

  6. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  7. SMRT测序技术及其在微生物研究中的应用

    SMRT测序技术及其在微生物研究中的应用 唐勇1,2, 刘旭3 摘要:高通量测序技术的发展为研究者深入探索微生物世界提供可能.随着以Pacific BioSciences(PacBio)公司的单分子实 ...

  8. 解读生命密码的基本手段 ——DNA测序技术的前世今生

    DNA( 脱氧核糖核酸 ) 和 RNA( 核糖核酸 ) 是 生命体的两种最基本组成物质,其序列的组成和变 化造就了形形色色的生命世界.这两种承担了生命体遗传信息载体功能的物质,一方面在生命的不断 繁衍 ...

  9. 基因测序技术发展历史及一、二、三代测序技术原理和应用

    基因测序技术发展历史及一.二.三代测序技术原理和应用 红皇后学术 公众号:红皇后学术(ID: zzlphs2516) 已关注 125 人赞同了该文章 基因测序技术 基因测序技术也称作DNA测序技术,即 ...

最新文章

  1. javascript 实现图片切换,考虑平稳退化与行为结构分离
  2. 主题已放宽,科研UP主们速来Bio-protocol破浪吧
  3. 计算机算法设计与分析二--分治
  4. jmeter的基本功能使用详解
  5. 电子测量与仪器第四版pdf_固定资产管理系统_资产分类名称(电子和通信测量分析仪器篇)...
  6. Oracle --case、while、loop、for
  7. 996. Number of Squareful Arrays
  8. SQL On Linux 初体验
  9. 函数 的 重载 和 函数 模版
  10. dev-mysql_GitHub - intergrate-dev/mysql-elasticsearch
  11. 李向阳教授谈中科大AI承继与挑战,IT校友影响力惊人
  12. sudo apt-get update 与upgrade的用法
  13. bash中的特殊文件夹
  14. oracle 10g 各版本下载地址
  15. Win7 32bit 扫雷外挂
  16. SDUT 第十届校赛H menhera酱那惨不忍睹的数学 【二分图 || 网络流】
  17. win7计算机资源管理器卡住,Win7资源管理器未响应的解决方法
  18. 肿瘤特异性抗原行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  19. Docker IP forward问题
  20. 4、项目融资 - 打造企业上市系列文章

热门文章

  1. Smarty入门教程一----Smarty的安装
  2. 阿里巴巴普惠字体下载链接
  3. c++主线程和子线程
  4. 软件工程笔记:通用职责分配模式(grasp)
  5. 2020-08-09 我来邀请码
  6. 分辨率不同的ubuntu扩展显示器记录
  7. 免费的 PPT 模版资源
  8. JavaGUI编程 -- 窗口监听事件和键盘监听事件(AWT)
  9. MVC、MVP、MVI、MVVM 和 VIPER 设计模式
  10. mod_rewrite模块详解(转)