2021.11.16【读书笔记】丨宏基因组分析流程
本次笔记为美格基因宏基因组课程笔记
目录
- 1. quality control
- 2. Reads-based分析
- 2.1 物种分类鉴定
- 2.2 揭示物种多样性
- 2.3 功能分类鉴定
- 2.4 数据库和比对算法的选择
- 2.5 序列的均一化原理与方法
- 2.6 数据表深入分析
- 2.7 分析示例
- 3. Contig拼接
- 3.1 拼接算法:de Bruijn Graph算法
- 3.2 Contig拼接算法和策略
- 3.3 Contigs-based分析
- 4. Binning分箱
- 4.1 MAGs:宏基因组组装基因组
- 4.2 Binning基本依据
- 4.3 Binning质量评估
- 4.4 Binning结果整合
- 4.5 Binning进一步分析
- 单菌
- 菌群
- 5. 总结
- 5.1 分析比较
- 5.2 分析局限与挑战
- 5.3 分析建议
1. quality control
质量检测
FastQC
低质量序列过滤及剔除接头
Trimmomatic
宿主机污染序列过滤
FastQ Screen;Bowtie2
2. Reads-based分析
定义:使用测序后的clean reads直接与数据库中的序列进行比对分析,通过比对获得已知物种或功能基因序列的检测丰度
2.1 物种分类鉴定
序列比对上基因组数据库不一定鉴定到物种,可能有保守序列
Marker-based检测局限性:16S数据库分辨率不高,物种分类模糊
2.2 揭示物种多样性
基于基因组、蛋白数据库的分析方法可能会高估物种的多样性,产生较多的丰度极低的物种类群,且可靠性不高;
基于16S序列比对的方法(EMIRGE、phyloFlash)产生的多样性与16S测序结果接近,丰度比例有差异,从原理上宏基因组结果更接近真实分布
2.3 功能分类鉴定
2.4 数据库和比对算法的选择
数据库的大小直接决定read-based分析结果的准确性
大的数据库运算慢,因此一般比对较小的通用数据库(KEGG/EGGnog/COG),或专业数据库(ARFs-OAP/NcycDB/CAZy)
比对数据库通常为蛋白数据库
算法选择:
Blastx
Diamond
HMMER
注:Reads-based通常需要多线程并行计算
2.5 序列的均一化原理与方法
2.6 数据表深入分析
Alpha
Beta
物种组成
差异比较
相关分析
网络分析
系统发育树
代谢通路、富集通路
2.7 分析示例
有生物学重复;挑选功能基因(与氮循环相关基因)
3. Contig拼接
3.1 拼接算法:de Bruijn Graph算法
3.2 Contig拼接算法和策略
常用工具
metaSPAdes(内存消耗较高)
SPAdes
MEGAHIT(均衡性好)
CLC
IDBA-UD
Contig拼接通常是每个样本独立进行,但生物学重复样本的clean reads在条件允许的情况下可以合并起来一起拼接。
3.3 Contigs-based分析
contigs可以与已知基因数据库的比对分析;
可以进行ORF和蛋白预测;
针对特殊基因和区段
可以通过contigs查找其上下游的调控位点或包含的区域特征
4. Binning分箱
4.1 MAGs:宏基因组组装基因组
MAGs流程
MetaWRAP:2020年新出的工具,集成度更高
MAGs定义:把一些性质相似的contigs分配到一起的过程
注:
1.得到的bin set由被分配到该bin下的多条contigs组成,但contigs依然是独立的
2.Binning后的MAG不是一个物种的基因组
4.2 Binning基本依据
Coverage覆盖度TNFs四碱基频率GC含量Taxonomy物种分类信息Contigs分布规律
4.3 Binning质量评估
原理:根据物种系统发育谱中所含有的普遍存在的单拷贝标记基因集(SCCs)来提供Binning后MAG的污染度和完整度的评价;
完整度:MAG中基因与对应SCGs相比,基因数量是否完整,数值越大,Bin质量越好
污染度:一个MAg存在多个物种的程度,数值越小,Bin质量越好
4.4 Binning结果整合
三种方案
共组装(消耗大量计算资源)
共分箱(Bins污染度与共组装一样高)
dRep
进行组装和去重复可以阐述更多和更高质量的bins
4.5 Binning进一步分析
单菌
展示基因组基因分布
与近缘物种进行共线性分析
绘制细胞代谢模型
开展上下游基因分析
菌群
绘制特殊细胞代谢模型
多保守蛋白构建更精确的进化树
通过代谢网络分析物种关联
5. 总结
5.1 分析比较
5.2 分析局限与挑战
- 成本较高 难以保持一致性
- 获取的基因组不完整,且没有明确的分类学信息
- 测序结果不能代表诱惑性的微生物类群
- 微生物本身属性会影响定量结果,宏基因组的相对定量信息也不能反应实际样本的绝对丰度
5.3 分析建议
- 根据科学问题使用reads-based分析或者Assembly-based分析
- 数据库、对比算法和拼接工具需要平衡准确性和运算速度
- 不断学习宏基因组分析的方法和软件,注意新方法的原理、适用范围及运行效率
- 学会使用数据库中的数据,与自己的数据进行整合分析
欢迎加群交流,或者添加作者VX:bbplayer2021,邀请进群
2021.11.16【读书笔记】丨宏基因组分析流程相关推荐
- 宏基因组分析流程报错与解决
宏基因组分析流程报错与解决 microbiome_helper流程报错 kneaddata质控 metaphlan_to_stamp.pl metaphlan2流程报错 前言:坑有时候就是这么出其不意 ...
- 微生物组助手——最易学的扩增子、宏基因组分析流程
软件简介 Microbiome Helper开源软件,方便大家分析微生物组数据.不仅提供了多套扩增子.宏基因组的分析流程方案,同时提供了几十个软件间衔接的脚本,可大大提高使用者分析的效率. 文章于20 ...
- 1.1-1.16 预习笔记
linux 学习笔记 1.1 学习之初 定位 目标 --就业.兴趣.辅助现工作 职位 --运维.开发.测试.DBA 城市 --家乡.一二线(半年.一年打基础) 目标 学习进度 --年底结束 工作 -- ...
- 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4
日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...
- 2022.04.11【读书笔记】|单细胞转录组概述
文章目录 摘要 研究意义 转录组学意义 技术比较 研究方法 细胞筛选 文库构建 测序 实验方法 实验流程 常见问题 分析内容(重点) 分析内容总览 细胞亚群分类 细胞类型频率统计 Marker基因分析 ...
- 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1
学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...
- 2021/11/18学习笔记:城市建成区的边界
老师让我做城市建成区的边界 卒 这咋做啊... 这小半个月都在做这个了... 把思路整理一下,免得以后忘记了. 数据来源: 1.夜间灯光数据:Chen Zuoqi, Yu Bailang*, Yang ...
- 2015.05.11,外语,读书笔记-《Word Power Made Easy》 15 “如何谈论事情进展” SESSION 44...
1. not the real McCoy simulate(['simjuleit] v. 假装,冒充,模仿,模拟)来自拉丁simulo,copy的意思.simulo本身派生自拉丁形容词simili ...
- 函数(2)——4.兔子数列5.汉诺塔6.综合案例-RSA算法7.综合案例-体测成绩判定2021.11.16
4.兔子数列(斐波那契数列) 一对兔子在出生两个月后,每个月能生出一对小兔子.现有一对刚出生的兔子,如果所有兔子都不死,那么一年后共有多少对兔子? 分析 n=1,兔子=1对: n=2,兔子=1对: n ...
最新文章
- .asmx支持post请求或者get请求调用(WebService 因 URL 意外地以 结束,请求格式无法识别 的解决方法)...
- 输出不详宗教预言,Google翻译为何“水逆”了?
- 一起谈.NET技术,C#创建不规则窗体的几种方式
- 借助Docker单机秒开数十万TCP连接
- 2020大学计算机知到答案,2020年_知到_大学计算机(济南大学)_网课答案
- 使用.Net Core MVC创建Web API
- Exynos4412 BSP平台搭建(详细图解)
- gin框架的学习--golang
- 放大你的Rstudio窗口字体
- GNSS NMEA-0183协议解析
- 触摸屏组态图库 触摸屏图库 昆仑通态触摸屏专用
- idea上maven引用jar出错(The POM for xxx is missing, no dependen)
- Modelica学习笔记1
- Onvif客户端与服务器通信时鉴权的自实现
- OpenSSL密码库算法笔记——第2.2.5章 利用Barrett约化做除法
- 基于MBOM的工艺数据管理及集成技术研究
- 零基础学FPGA(四):IP是什么东西(什么是软核,硬核)
- Linux系统自动更新时间命令的详细说明
- rar,zip文件加密判断
- python多轴图_python中用Matplotlib做多个纵轴 (多y轴)
热门文章
- [柒穆雨]学习ps有什么用?
- java 导出复杂格式的 Excel 留着自己备用
- 北京军区技侦局_校庆70周年系列学术活动之六:
- BOOT客户管理系统(详解)
- python获取图片像素点颜色_Python获取图片位置像素色值及判断色值是否存在
- 云计算企业级小架构部署应用综合练习-二- Ansible 部署 Elastic Stack(ELK)
- [工作积累] TAA Ghosting 的相关问题
- 计算机语言学考研考什么,语言学及应用语言学考研有哪些内容-考研经验
- 隐私保护 举例_完美保护隐私
- Arcgis中图像裁剪