「干活」基因组组装 学习笔记 - 入门知识点和Genome Survey
基因组组装学习笔记(一)
基因组组装的前期工作:需要掌握什么知识点?
1)基因组大小 / genome size:
一般有两种办法,使用流式细胞来估计,或者使用Illumina short reads,也就是基于Kmer的方法,对基因组大小进行估计,
但由于流式细胞需要考虑到用什么物种(e.g. 所选用的参考物种基因组大小是多少,也就对应相应的DNA C-value)等,就需要进行先攻的查询,
流式细胞相关资源:
- 真菌DNA C-value查询网站:http://www.zbi.ee/fungal-genomesize
- 植物DNA C-value查询网站:http://data.kew.org/cvalues
- 动物DNA C-value查询网站:http:// www.genomesize.com
用一句话来总结的话,越大的genome,在相同的测序深度情况下,需要更多的测序量,才能达到对应的覆盖度(coverage,e.g. 99%)。
2)重复序列
当genome中的重复序列占比过高的话,又没有使用CLR测序,无法得到跨越重复序列的位置信息,
那就会出现片段化的组装结果(fragmented assembly),即出现多个contig不能够搭建到scaffold级别
所以,这就是为什么现在大家都在用PacBio、Nanopore的原(但是现在是2022年了,基因组时代已经过去了)
3)杂合度 / Heterozygosity
在不要求组装到subgenome、allele-aware级别的genome时,组装软件都是自动将“collapsed”的基因组草图给输出,即只输出一套,
但是在很多需要深究的科学问题上,比如Y染色体的拼接等,就需要使用一些特殊方法。
杂合度特别高,是一件好事,因为hifiasm直接组装出来两套,
杂合度特别低,也是一件好事,因为hifiasm直接组装出来一套
杂合度不高不低,是件坏事,因为组装结果不三不四
4)倍性
如果有可能的话,选择单倍体进行测序会比较好一些,比如基因组大小为26.3G的火炬松就是直接测的花粉,
微生物也就不用说了,都是haploid。
基因组组装的前期工作:Genome Survey
一些非常常规的东西,我不太想提,准备三两句话带过,
adapter removement
QC accessment
而在二代测序拼接的时候,虽然NovoSeq的量级很高,能够达到10millions~20 billions,乘数也特别高,
但是一些基于de Brujin graph的组装软件较为理想的参数还是在60-80×(“Identification of optimum sequencing depth especially for de novo genome assembly of small genomes using next generation sequencing data” (Dominguez Del Angel 等。, 2018, p. 17) (pdf) )
基因组大小评估怎么做?
fastp/Trimmomatic/trim_galore
Jellyfish/KMC
GCE/GenomeScope2
「干活」基因组组装 学习笔记 - 入门知识点和Genome Survey相关推荐
- 「Docker」Docker教程+学习笔记
Docker概览 docker是一个开发,运输,承载应用的开源平台.docker能够将一个大型项目的各个模块独立,各模块独立也就意味着传送独立.部署独立.环境独立.测试独立,为开发大型项目提供了极大的 ...
- 「Apollo」Cyber RT 学习笔记
介绍 Cyber RT是一款开源的适用于自动驾驶场景的框架 在x86/ARM64架构的Docker环境中运行CyberRT 利用CyberRT创建一个新组件 CyberRT开发者工具 CyberRT开 ...
- LearnOpenGL学习笔记—入门03:Hello Triangle
LearnOpenGL学习笔记-入门03:Hello Triangle 0 前言 1 图形渲染管线 2 顶点输入 3 VAO,VBO 3.1 VAO建立 3.2 VBO建立 4 shader 5 绘制 ...
- MongoDB学习笔记(入门)
MongoDB学习笔记(入门) 一.文档的注意事项: 1. 键值对是有序的,如:{ "name" : "stephen", "genda" ...
- Vue学习笔记入门篇——数据及DOM
本文为转载,原文:Vue学习笔记入门篇--数据及DOM 数据 data 类型 Object | Function 详细 Vue 实例的数据对象.Vue 将会递归将 data 的属性转换为 getter ...
- C# 学习笔记入门篇(上)
文章目录 C# 学习笔记入门篇 〇.写在前面 Hello World! 这篇学习笔记适合什么人 这篇学习笔记到底想记什么 附加说明 一.命名空间 "进入"命名空间 嵌套的命名空间. ...
- R语言学习笔记——入门篇:第一章-R语言介绍
R语言 R语言学习笔记--入门篇:第一章-R语言介绍 文章目录 R语言 一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点 二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...
- R语言学习笔记——入门篇:第三章-图形初阶
R语言 R语言学习笔记--入门篇:第三章-图形初阶 文章目录 R语言 一.使用图形 1.1.基础绘图函数:plot( ) 1.2.图形控制函数:dev( ) 补充--直方图函数:hist( ) 补充- ...
- JS学习笔记——入门基础知识总结
JS入门基础知识总结1 前言 基础背景知识 一.产生历史: 二.特点: 三.应用方向: 四.Javascript组成: JavaScript书写使用方式 一.行内式(了解即可,项目中不使用,日常练习尽 ...
- 大数据 -- kafka学习笔记:知识点整理(部分转载)
一 为什么需要消息系统 1.解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多 ...
最新文章
- Mac iStat Menu 注册码
- 不上市就等死?AI故事难讲,豪门盛宴背后的“血”与“泪”
- 苹果手机怎么设置时间24小时制_8款手机电池测试,iPhone 12 5G让人意外
- [首次分析]PHP写框架
- Linux 上的最佳 C/C++ IDE
- leetcode 373. Find K Pairs with Smallest Sums | 373. 查找和最小的K对数字(小根堆)
- 05.SpringBoot的yml配置详解
- python del 函数
- u大师制作linux系统,U大师官方下载|U大师U盘启动盘制作工具官方版 v4.7.37.56 最新版 - 系统天堂...
- OA审批工作流设计器实现
- IDEA单击打开文件
- 一款令我相见恨晚的工具Utools
- ORACLE 考试的流程
- C语言:一个非常完美MAX宏的诞生及5次进化
- 2021鹅厂产品管培生宣讲会干货总结
- Java高级之Float类和Double类的isNaN()方法
- 工具类:(一) java压缩与解压
- 建立自己的封装库(一)
- 吉大考博英语是计算机答题吗,我公费考入吉大计算机的经验之谈
- python环境-基于go-cqhttp-简易qq聊天机器人