如何快速而准确的获取生物体的遗传信息一直是生命科学 中的一个非常重要的研究点。

生物的基因组 包含了其完整的生物遗传信息, 基因组中核苷酸的排列顺序在记录生物遗传信息上起到了重要的作用,基因组中核苷酸的排列顺序在记录生物遗传信息上起到了重要作用。获得生物基因中核苷酸的完整排列顺序的技术, 也就是基因测序技术就显得尤为重要。

基因测序技术的出现最早可以追溯到20世纪70年代中期, sanger提出的双脱氧链末端终止测序法和Maxam等提出的化学降解法几乎同时出现。这两种方法都是先得到随机长度的DNA序列,再通过 电泳方法确定序列的碱基排列。前者使用特殊的化学试剂标记出碱基之后用化学方法切割待测序列 。后者使用带有放射性同位素标记的dNTP随机中断合成待测序列。这两种方法成为了现代测序技术的基础,在这两种技术基础上发展而来的各种DNA测序技术被统称为第一代DNA测序技术。在此之后,80年代中期,sanger法得到改进,使用荧光标记代替同位素标记,90年代又出现了毛细管电泳技术大大的提高了测序的通量 ,使人类基因组计划得以提前完成。

第一代测序技术虽然错误率低,read长度长,但是其成本高,且速度慢,光是为了完成人类基因组计划,就花费了30亿美元的巨资,耗费了三年的时间。因此,第一代测序技术还不能达到大规模应用的要求。21世纪后,一种新的测序技术开始出现,这种新的测序技术以Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术为代表。第二代测序技术显著地降低了测序成本,大大的提高了测序速度,使人类基因组测序任务只需要一周左右的时间就能完成。然而,第二代测序技术所得到的序列read长度较短,对比第一代 Sanger技术600-1000个碱基的read长度,第二代技术通常只有几十到数百个碱基的read长度,因此对已知序列的基因组重新测序比较适用,对全新的基因组测序需要结合第一代测序技术。

 上述read长度不足的问题限制了测序的完整性和分析的准确性。因为成本上的降低,目前已经有大量的物种使用短read测序并拼接,但是大部分的拼接都不能得到完整的基因组,而是拼接成上千个contig片段。为了解决这个问题, PacBio的SMRT技术和Oxford的Nanopore纳米孔单分子技术作为第三代测序技术的代表, 显著地 增加了read的长度。它们的最大的特点是使用了单分子测序。虽然read的长度增加到了数千甚至有些能够达到数十万个碱基。但是这些read中包含了10-15%的错误。

为了在拼接中完全发挥长read的优势,在数据处理阶段引入纠错步骤是必须的。目前,已经有许多的针对第三代测序技术所得序列的纠错算法被提出,这些算法 可以归纳为三种类型,分别是使用准确度更高的二代序列给第三代序列纠错,使用二代序列拼接后的序列给第三代序列纠错和使用第三代序列自行纠错。通过使用这些纠错算法,第三代序列纠错后错误率能够下降到1%以下。然而,这些算法需要舍弃read中大量的无法纠错的碱基,因而导致了较低的通量。因为长read相对于短read更加昂贵,这样的碱基损失是不经济的。碱基损失也会降低后期拼接的完整性和分析的准确性。因此如何提高纠错算法的通量成为了一个值得关注的问题。

  

如何快速而准确的获取生物体的遗传信息一直是生命科学 中的一个非常重要的研究点相关推荐

  1. 万人马拉松赛事,人脸识别系统如何快速、准确完成校验?

    作者 | 阿里文娱技术专家墨贤 出品 | AI科技大本营(ID:rgznai100) 大麦的人脸闸机在2019年杭州马拉松上成功的完成了刷脸入场功能的首秀,相比传统的马拉松入场核验方案在入场体验和入场 ...

  2. RACER: Rapid and accurate correction of errors in reads 快速、准确地修正读数中的错误

    抽象 动机:高-产量未来-新一代测序技术使基因组和转录组的日益快捷,实惠测序,具有广阔的应用范围.测序数据的质量对于所有应用都至关重要.产生的数据中很大一部分包含错误,因此需要更有效的错误纠正程序. ...

  3. 论文阅读:超高分辨率图像中快速、准确的条码检测

    摘要 由于目标对象的尺度不同,超高分辨率 (UHR) 图像中的对象检测长期以来一直是计算机视觉中的一个具有挑战性的问题.在条码检测方面,将 UHR 输入图像调整为更小的尺寸通常会导致相关信息的丢失,而 ...

  4. 新冠疫情相似句对判定,快速匹配准确答案

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 面对疫情抗击,疫情知识问答应用得到普遍推广.如何通过自然语言技术将问答进行相似分类仍然是一个有 ...

  5. 一个方法多个return_用这个方法可以快速、准确地记住一个单词的多个词义

    我们知道每个英语单词只有一个核心词义,由核心词义又延伸出更多的词义,记起来比较困难,为了解决这个问题,我们根据词义间的逻辑关系把单词的所有词义都做了重新排列,并且把核心词义放在了第一位,这样根据核心词 ...

  6. excel快速填充_Excel教程:24秒,提取excel工作簿中300张图片

    微信扫码观看<财务人的Excel速成视频> 或许您在看本篇教程的时候,会很惊讶,会有疑问,Excel和压缩软件有啥关系,提取图片居然可以这样做!小雅用的是Excel2013版本,给大家分享 ...

  7. 移动游戏运营数据分析指标:用户获取,用户活跃,用户生命周期

    一.用户获取(Acquisition) AARRR模型指出了移动游戏运营两个核心点: 1)     以用户为中心,以完整的用户生命周期为线索 2)     把控产品整体的成本/收入关系,用户生命周期价 ...

  8. c#获取对象的唯一标识_在 Java 中利用 redis 实现分布式全局唯一标识服务

    作者: 杨高超 juejin.im/post/5a4984265188252b145b643e 获取全局唯一标识的方法介绍 在一个IT系统中,获取一个对象的唯一标识符是一个普遍的需求.在以前的单体应用 ...

  9. java注解返回不同消息,Spring MVC Controller中的一个读入和返回都是JSON的方法如何获取javax.validation注解的异常信息...

    Spring MVC Controller中的一个读入和返回都是JSON的方法怎么获取javax.validation注解的错误信息? 本帖最后由 LonelyCoder2012 于 2014-03- ...

最新文章

  1. 算法----打印二叉树最右侧的节点 Java版
  2. webconfig.java_基于JavaConfig配置的Spring MVC的构建
  3. 曼昆《经济学原理》(第五版)习题解答 第三章 相互依存性与贸易的好处
  4. 模块化和组件化的定义以及两者的区别
  5. 【Java线程】互斥 同步 异步 并发 多线程的区别与联系
  6. Skywalking部署常见问题以及注意事项
  7. main方法_十个经典的 Java main 方法面试题
  8. CP/IP四层模型与OSI参考模型
  9. 《构建之法》阅读笔记05
  10. hfss matlab api,HFSS-Matlab-API实践体会与HFSS Scripting快速入门
  11. matlab遗传算法实例crtrp,遗传算法实例参考.ppt
  12. C++ DNF脚本源码模板开源
  13. Oracle10g卸载
  14. win10下安装tecplot360关于无hosts文件的问题
  15. python 全栈开发,Day104(DRF用户认证,结算中心,django-redis)
  16. VMware版虚拟机怎么安装win7系统(详细教程)
  17. 【芯片前端】关于门控电路和逻辑做在D端还是EN端的思考
  18. ubuntu下使用 RabbitVCSRapidSVN
  19. “燕云十六将”之Lorna(14)
  20. 【深度学习】pytorch自动求导机制的理解 | tensor.backward() 反向传播 | tensor.detach()梯度截断函数 | with torch.no_grad()函数

热门文章

  1. 最新!3D目标检测论文汇总(多模态融合)
  2. CVPR 2021 | 基于帧场学习的多边形建筑提取
  3. 如何在ARM开发板上从源码编译安装OpenCV和OpenCV contrib
  4. 重磅直播|立体视觉之立体匹配理论与实践​
  5. OpenCV java 线性滤波(16)
  6. -bash: sz: command not found
  7. Keras中神经网络可视化模块keras.utils.vis_util 的安装
  8. bazel源码编译Tensorflow
  9. python处理图片文件_python 学习(二)处理图片、TXT文档
  10. Microsoft R 和 Open Source R,哪一个才最适合你?