基因组组装学习笔记(一)

基因组组装的前期工作:需要掌握什么知识点?

1)基因组大小 / genome size:

一般有两种办法,使用流式细胞来估计,或者使用Illumina short reads,也就是基于Kmer的方法,对基因组大小进行估计,

但由于流式细胞需要考虑到用什么物种(e.g. 所选用的参考物种基因组大小是多少,也就对应相应的DNA C-value)等,就需要进行先攻的查询,

流式细胞相关资源:
- 真菌DNA C-value查询网站:http://www.zbi.ee/fungal-genomesize
- 植物DNA C-value查询网站:http://data.kew.org/cvalues
- 动物DNA C-value查询网站:http:// www.genomesize.com

用一句话来总结的话,越大的genome,在相同的测序深度情况下,需要更多的测序量,才能达到对应的覆盖度(coverage,e.g. 99%)。

2)重复序列

当genome中的重复序列占比过高的话,又没有使用CLR测序,无法得到跨越重复序列的位置信息,

那就会出现片段化的组装结果(fragmented assembly),即出现多个contig不能够搭建到scaffold级别

所以,这就是为什么现在大家都在用PacBio、Nanopore的原(但是现在是2022年了,基因组时代已经过去了)

3)杂合度 / Heterozygosity

在不要求组装到subgenome、allele-aware级别的genome时,组装软件都是自动将“collapsed”的基因组草图给输出,即只输出一套,

但是在很多需要深究的科学问题上,比如Y染色体的拼接等,就需要使用一些特殊方法。

  • 杂合度特别高,是一件好事,因为hifiasm直接组装出来两套,

  • 杂合度特别低,也是一件好事,因为hifiasm直接组装出来一套

  • 杂合度不高不低,是件坏事,因为组装结果不三不四

4)倍性

如果有可能的话,选择单倍体进行测序会比较好一些,比如基因组大小为26.3G的火炬松就是直接测的花粉,

微生物也就不用说了,都是haploid。

基因组组装的前期工作:Genome Survey

一些非常常规的东西,我不太想提,准备三两句话带过,

  • adapter removement

  • QC accessment

而在二代测序拼接的时候,虽然NovoSeq的量级很高,能够达到10millions~20 billions,乘数也特别高,

但是一些基于de Brujin graph的组装软件较为理想的参数还是在60-80×(“Identification of optimum sequencing depth especially for de novo genome assembly of small genomes using next generation sequencing data” (Dominguez Del Angel 等。, 2018, p. 17) (pdf) )

基因组大小评估怎么做?

  • fastp/Trimmomatic/trim_galore

  • Jellyfish/KMC

  • GCE/GenomeScope2

「干活」基因组组装 学习笔记 - 入门知识点和Genome Survey相关推荐

  1. 「Docker」Docker教程+学习笔记

    Docker概览 docker是一个开发,运输,承载应用的开源平台.docker能够将一个大型项目的各个模块独立,各模块独立也就意味着传送独立.部署独立.环境独立.测试独立,为开发大型项目提供了极大的 ...

  2. 「Apollo」Cyber RT 学习笔记

    介绍 Cyber RT是一款开源的适用于自动驾驶场景的框架 在x86/ARM64架构的Docker环境中运行CyberRT 利用CyberRT创建一个新组件 CyberRT开发者工具 CyberRT开 ...

  3. LearnOpenGL学习笔记—入门03:Hello Triangle

    LearnOpenGL学习笔记-入门03:Hello Triangle 0 前言 1 图形渲染管线 2 顶点输入 3 VAO,VBO 3.1 VAO建立 3.2 VBO建立 4 shader 5 绘制 ...

  4. MongoDB学习笔记(入门)

    MongoDB学习笔记(入门) 一.文档的注意事项: 1.  键值对是有序的,如:{ "name" : "stephen", "genda" ...

  5. Vue学习笔记入门篇——数据及DOM

    本文为转载,原文:Vue学习笔记入门篇--数据及DOM 数据 data 类型 Object | Function 详细 Vue 实例的数据对象.Vue 将会递归将 data 的属性转换为 getter ...

  6. C# 学习笔记入门篇(上)

    文章目录 C# 学习笔记入门篇 〇.写在前面 Hello World! 这篇学习笔记适合什么人 这篇学习笔记到底想记什么 附加说明 一.命名空间 "进入"命名空间 嵌套的命名空间. ...

  7. R语言学习笔记——入门篇:第一章-R语言介绍

    R语言 R语言学习笔记--入门篇:第一章-R语言介绍 文章目录 R语言 一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点 二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...

  8. R语言学习笔记——入门篇:第三章-图形初阶

    R语言 R语言学习笔记--入门篇:第三章-图形初阶 文章目录 R语言 一.使用图形 1.1.基础绘图函数:plot( ) 1.2.图形控制函数:dev( ) 补充--直方图函数:hist( ) 补充- ...

  9. JS学习笔记——入门基础知识总结

    JS入门基础知识总结1 前言 基础背景知识 一.产生历史: 二.特点: 三.应用方向: 四.Javascript组成: JavaScript书写使用方式 一.行内式(了解即可,项目中不使用,日常练习尽 ...

  10. 大数据 -- kafka学习笔记:知识点整理(部分转载)

    一 为什么需要消息系统 1.解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多 ...

最新文章

  1. Mac iStat Menu 注册码
  2. 不上市就等死?AI故事难讲,豪门盛宴背后的“血”与“泪”
  3. 苹果手机怎么设置时间24小时制_8款手机电池测试,iPhone 12 5G让人意外
  4. [首次分析]PHP写框架
  5. Linux 上的最佳 C/C++ IDE
  6. leetcode 373. Find K Pairs with Smallest Sums | 373. 查找和最小的K对数字(小根堆)
  7. 05.SpringBoot的yml配置详解
  8. python del 函数
  9. u大师制作linux系统,U大师官方下载|U大师U盘启动盘制作工具官方版 v4.7.37.56 最新版 - 系统天堂...
  10. OA审批工作流设计器实现
  11. IDEA单击打开文件
  12. 一款令我相见恨晚的工具Utools
  13. ORACLE 考试的流程
  14. C语言:一个非常完美MAX宏的诞生及5次进化
  15. 2021鹅厂产品管培生宣讲会干货总结
  16. Java高级之Float类和Double类的isNaN()方法
  17. 工具类:(一) java压缩与解压
  18. 建立自己的封装库(一)
  19. 吉大考博英语是计算机答题吗,我公费考入吉大计算机的经验之谈
  20. python环境-基于go-cqhttp-简易qq聊天机器人

热门文章

  1. 易飞计件工资的设计及应用
  2. Java——线程回顾汇总:同步/生产者消费者模式/定时调度
  3. 项目 cg day09
  4. 百度快排点击软件-搜索引擎排名模拟点击器-快排点击软件
  5. BZOJ4378[POI2015]Logistyka——树状数组
  6. CNN详解——反向传播过程
  7. 华硕笔记本BIOS详细设置
  8. Windows调试技巧工具
  9. 关于EA和ED的区别
  10. 利用win10自带的系统配置禁止开机启动项和程序