Nanopore测序在基因组 de novo中的应用

自1977年第一代sanger测序问世来,经过几十年的发展,测序技术得到了极大的发展。

从第一代测序到第二代测序再到第三代测序,测序技术的每一次变革都对基因组学的研究产生了巨大的推动作用。

利用第一代测序技术人类完成了拟南芥、线虫、果蝇等模式物种的基因组测序;

第二代测序使得几百个动植物基因组完成了测序,但是第二代测序读长较短,无法跨越基因组中的高重复、高杂合区域,所以用二代测序完成的物种基因组组装质量大都不是很高,甚至一些复杂的物种用二代测序难以获得基因组序列。

而近几年兴起的三代测序,具有读长长的特点,能够有效解决二代测序的组装难题,对动植物基因组de novo测序带来了很大的转机。

目前最广泛应用的三代测序是PacBio三代单分子荧光测序和Nanopore单分子纳米孔测序。三代Nanopore测序平台虽然兴起的时间不长,但因其具有便携性、测序成本低、测序读长长等特点,近年来在基因组组装上可谓大放异彩,下面小编就带大家看下Nanopore测序在几个物种de novo上的应用。

1、拟南芥基因组

第一个拟南芥基因组(Col-0)是通过sanger法测序于2000年完成的,随后经过完善,成为拟南芥乃至真核生物基因组的“金标准”。但是其最新组装版本中依然包含29个大的没有组装的区域,有117个gaps,缺失25Mb的重复序列。

方法:

使用MinION对拟南芥KBS-Mac-74进行测序,并对高质量的DNA进行了1个flow cell的测序,共产生了3.4G的序列,reads的平均读长为11.4Kb,其中有4条reads长度超过200Kb,14条长度超过100Kb,2317条长度超过50Kb。使用Canu和minimap/miniasm组装raw ONT reads,并与使用Falcon对PacBio数据组装的结果进行了比较。使用ONTmin组装的序列长度最短为110.9Mb,contigs数目最少(62),N50居第二(11.5Mb),单个contig最长(13.8Mb)。

之后,使用3轮racon 和1轮pilon进行polish,发现racon显著提高了序列的总长,并将N50长度提升到12.3Mb,提高了序列的质量。

采用265个光学基因组图谱,评估修正ONT组装序列质量。最终将ONTmin组装的序列由115.9Mb提升到了118.4Mb,并将FP/FN比值从0.33/0.12降到0.01/0.04。通过进一步的分析发现polish后的序列质量和连续性与使用PacBio数据组装的结果相当。

2、高粱基因组

高粱,是一种重要的经济作物,具有极强的干旱和高温适应性。高粱基因组大小约为730Mb,比玉米(~2.3Gb)和大豆(~1.2Gb)等作物基因组小,重复序列约为61%,且含有大量的转座子。同时之前用sanger法测序获得了其基因组序列(BTx623)。这也成为基于ONT 组装质量评估的有利资源。

使用高粱Tx430提取高质量DNA,构建文库,MinION测序,共产生了33.5Gb数据,最长read长767K。对序列采用Canu纠错后用Smartdenovo进行组装,经过组装及2轮Pilon polishing后,最终组装基因组为671.8Mb,contig N50为~3Mb,含有723个contig。其中最长的400条contigs长651.3Mb,占基因组序列的97%

将Tx430的Illumina数据与ONT contig比对,通过唯一比对的Illumina reads评估ONT组装的准确性。结果显示唯一比对的reads为92.94%。经过几轮Pilon polishing后,唯一比对的Illumina reads比例提升到了99.62%。

采用BioNano DLS构建了79个高粱Tx430的图谱,长度达732.1Mb,其中32个图谱占BTx623总长度的99.5%。利用DLS光学图谱与723个contigs混合组装以改善组装质量,极大地提高了组装结果的完整性,最终得到29条scaffolds长度为661.06Mb,N50由3Mb提升到了33.35Mb,并实现将序列组装到染色体水平。具体结果见下表。通过将这29条scaffolds比对到高粱V3.0.1基因组上评估混合组装的完整性(见图3)。

3、菊花基因组

菊科植物大约含24000到35000 个物种,具有非常高的植物多样性,占整个被子植物的10%左右。菊属是一个非常大的植物分类单位,包括菊组和苞叶组两大分支。菊属植物染色体结构复杂,包含从2n=18 到8n=72之间的各种染色体组结构。菊花是中国的传统名花之一,具有极大的观赏价值;同时也是重要的健康食品和中草药,具有很大的经济价值。菊花基因组大约为3.07Gb ,杂合度和重复序列含量都高,属于复杂基因组,采用二代Illumina测序很难获得基因组序列。而Nanopore测序能够获得超长的序列长度,这些长序列比基因组中大部分的重复序列长度要长,从而能够有效组装基因组中的重复序列。本研究利用Nanopore测序数据和二代Illumina数据混合组装,得到了菊花的基因组序列。菊花基因组测序对于揭示菊属物种的起源进化及物种多样性具有重要意义。

采用Nanopore 进行测序,共得到了39个flow cells,产生了570条单分子的reads(平均长度为17.7Kb),总数据量为105.2Gb。采用99.5Gb 数据用于组装,并使用362.3Gb 的Illumina短读长数据对ONT数据进行较正并混合组装,最终组装得到了24,051个congtigs,N50为130.7Kb,序列总长度为2.53Gb,占预估基因组大小的82%。 鉴定到了56,870个蛋白编码基因。进行重复序列注释发现菊花基因组中重复序列占69.6%,其中长末端重复反转录转座子最多,LTR/Copia占据基因组的25.4% ,其次是LTR/Gypsy repeats(21.5%) 。

随后进行了比较基因组学的分析,发现菊花在进化过程中发生了多次的全基因组复制事件;近期复制事件可能导致了与花发育和重要药效成分合成相关基因的扩张。菊花基因组的破译将极大地推动药用植物基因组研究的进程,是本草基因组学研究的一项重要突破。

以上就是Nanopore 测序仪在几个物种de novo中的应用,可以看到无论是像拟南芥这样的简单基因组,还是像菊花这样的复杂基因组,用Nanopore 测序数据进行组装都有非常不错的结果,相信随着试剂的升级、软件的更新等,Nanopore 测序会在基因组测序上发挥更大的作用,极大地推动组学的发展。

参考文献:

1.Michael T P , Jupe F , Bemm F , et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell [J]. Nature Communications, 2018, 9(1):541.

2.Lin HN, May G, et al. A chromosome-scale assembly of the sorghum genome using nanopore sequencing and optical mapping [J]. Nature Communications, 2018 Nov 19;9(1):4844

3.Song C , Liu Y , Song A , et al. The Chrysanthemum nankingense Genome Provides Insights into the Evolution and Diversification of Chrysanthemum Flowers and Medicinal Traits[J]. Molecular Plant, 2018.

首赞

Nanopore测序在基因组 de novo中的应用相关推荐

  1. 一文搞定细菌基因组De Novo测序分析

    本文转自基因的生物信息学分析,链接 https://mp.weixin.qq.com/s/xWOlv5WVJ7LwTuRQDXmGzg 以一个细菌的测序数据为例子,介绍细菌基因组测序分析流程.本次实验 ...

  2. 三代测序之微生物基因组 de novo 测序

    三代测序之微生物基因组 de novo 测序 2016-05-20    编辑:诺禾致源 微生物基因组 de novo 测序 产品优势 • 单分子,长序列,完美跨越细菌全部重复单元 • 真菌 20Kb ...

  3. 2020.12.10【读书笔记】丨基因组De novo 产品介绍

    基因组De novo 简介 基因组 定义:基因组就是物种所含有的一套遗传物质 单倍体 细胞核. 细胞器所 含的全部 DNA 分子),包括全套基因和间隔序列. 基因组观察维度 基因组测序 基因组测序( ...

  4. Metagenome Assembly - Part1:基于德布莱英图(De Bruijn graph)的宏基因组de novo拼接

    最近在做一批宏基因组数据的拼接工作,这里的拼接主要指从Read到Contig这个水平.然后因为是第一次做,有很多没懂的地方,在学习和实践的过程中,总结了一下.写成几篇博客记录一下,以后又不清楚了可以回 ...

  5. Nanopore测序的基因组组装策略

    最近拿到了nanopore的数据,尝试对其组装.目前用的是Canu,预计2个月内才能走完第一波分析,速度实在感人,所以翻了翻文献,找找组装方法. 目前Nanopore卖点主要是两个角度:第一是Nano ...

  6. De novo 测序基础知识

    名词解释 De novo:拉丁文,从头开始的意思,de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接.组装,从而绘制该物种的全基因组序列图谱. 重测 ...

  7. 全基因组测序 从头测序(de novo sequencing) 重测序(re-sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing). 从头测序(de novo)不需要任何参考基因组信息即可对某个物种的基因组进行测序 ...

  8. “鸟枪换炮”,nanopore测序在宏基因组中的应用

    "鸟枪换炮",nanopore测序在宏基因组中的应用 2003年使用一代测序破译sars病毒用了4个月,2020年初使用二代测序破译新冠病毒用了4天,现在使用使用nanompore ...

  9. Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads

    Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads 混合和非混合方法对nanopore ...

最新文章

  1. 就在几天前,听说用了 YYYY-MM-dd 的程序员,都在加班改 Bug !
  2. 搭建eclipse版的ssm+maven+tk.mybatis+redis及mybatis+spring多数据源配置集成的demo
  3. 把HttpClient换成IHttpClientFactory之后,放心多了
  4. 【渝粤教育】电大中专药物化学基础_1作业 题库
  5. 框架层 java_简单就是美!浅谈java各层框架。
  6. 【java】java 1.8 之 supplier 理解
  7. 杭电2122Ice_cream’s world III
  8. 存储基础知识(八):备份技术(上)
  9. LintCode_408 二进制求和
  10. windows如何离线打补丁安全需知
  11. bt种子制作php,BT种子制作
  12. 六子棋 c语言程序设计,六子棋计算机博弈系统的研究与实现
  13. MATLAB经纬度转化
  14. Nodejs之NestJS之pkg打包
  15. IOS音视频(四十五)HTTPS 自签名证书 实现边下边播
  16. 一位美国教授给研究生的怎样记读书笔记的建议(中文总结)
  17. 递归方式实现打印一个整数的每一位
  18. 十、C#接口、抽象、密封、开放封闭原则
  19. Admission(准入控制器)-2021.12.05
  20. 【Postgresql】pg_show_plans插件

热门文章

  1. ds18b20和plc接线图_PLC如何接线
  2. 如何对K8s进行考核?Kuberhealthy来打个样!
  3. 末位淘汰制是任何时候的万金油吗?
  4. Charles 的使用(电脑 获取微信小程序数据)
  5. 树莓派系列(6)-搭建私人网盘
  6. 电脑win10计算机图标,win10系统桌面的计算机图标没了的详细技巧
  7. Python入门练习:turtle风轮绘制
  8. OCP考试结束后,如何查询成绩和下载电子证书?
  9. 【Python爬虫实战】为何如此痴迷Python?还不是因为爱看小姐姐图
  10. 计算机软考初级含金量高吗?