本次笔记为美格基因宏基因组课程笔记

目录

  • 1. quality control
  • 2. Reads-based分析
    • 2.1 物种分类鉴定
    • 2.2 揭示物种多样性
    • 2.3 功能分类鉴定
    • 2.4 数据库和比对算法的选择
    • 2.5 序列的均一化原理与方法
    • 2.6 数据表深入分析
    • 2.7 分析示例
  • 3. Contig拼接
    • 3.1 拼接算法:de Bruijn Graph算法
    • 3.2 Contig拼接算法和策略
    • 3.3 Contigs-based分析
  • 4. Binning分箱
    • 4.1 MAGs:宏基因组组装基因组
    • 4.2 Binning基本依据
    • 4.3 Binning质量评估
    • 4.4 Binning结果整合
    • 4.5 Binning进一步分析
      • 单菌
      • 菌群
  • 5. 总结
    • 5.1 分析比较
    • 5.2 分析局限与挑战
    • 5.3 分析建议

1. quality control

质量检测
FastQC
低质量序列过滤及剔除接头
Trimmomatic
宿主机污染序列过滤
FastQ Screen;Bowtie2

2. Reads-based分析

定义:使用测序后的clean reads直接与数据库中的序列进行比对分析,通过比对获得已知物种或功能基因序列的检测丰度

2.1 物种分类鉴定

序列比对上基因组数据库不一定鉴定到物种,可能有保守序列
Marker-based检测局限性:16S数据库分辨率不高,物种分类模糊

2.2 揭示物种多样性

基于基因组、蛋白数据库的分析方法可能会高估物种的多样性,产生较多的丰度极低的物种类群,且可靠性不高;
基于16S序列比对的方法(EMIRGE、phyloFlash)产生的多样性与16S测序结果接近,丰度比例有差异,从原理上宏基因组结果更接近真实分布

2.3 功能分类鉴定

2.4 数据库和比对算法的选择

数据库的大小直接决定read-based分析结果的准确性
大的数据库运算慢,因此一般比对较小的通用数据库(KEGG/EGGnog/COG),或专业数据库(ARFs-OAP/NcycDB/CAZy)

比对数据库通常为蛋白数据库
算法选择:

Blastx
Diamond
HMMER

注:Reads-based通常需要多线程并行计算

2.5 序列的均一化原理与方法

2.6 数据表深入分析

Alpha
Beta
物种组成
差异比较
相关分析
网络分析
系统发育树
代谢通路、富集通路

2.7 分析示例

有生物学重复;挑选功能基因(与氮循环相关基因)

3. Contig拼接

3.1 拼接算法:de Bruijn Graph算法

3.2 Contig拼接算法和策略

常用工具

metaSPAdes(内存消耗较高)
SPAdes
MEGAHIT(均衡性好)
CLC
IDBA-UD

Contig拼接通常是每个样本独立进行,但生物学重复样本的clean reads在条件允许的情况下可以合并起来一起拼接。

3.3 Contigs-based分析

contigs可以与已知基因数据库的比对分析;
可以进行ORF和蛋白预测;
针对特殊基因和区段
可以通过contigs查找其上下游的调控位点或包含的区域特征

4. Binning分箱

4.1 MAGs:宏基因组组装基因组

MAGs流程

MetaWRAP:2020年新出的工具,集成度更高
MAGs定义:把一些性质相似的contigs分配到一起的过程
注:

1.得到的bin set由被分配到该bin下的多条contigs组成,但contigs依然是独立的
2.Binning后的MAG不是一个物种的基因组

4.2 Binning基本依据

    Coverage覆盖度TNFs四碱基频率GC含量Taxonomy物种分类信息Contigs分布规律

4.3 Binning质量评估

原理:根据物种系统发育谱中所含有的普遍存在的单拷贝标记基因集(SCCs)来提供Binning后MAG的污染度和完整度的评价;
完整度:MAG中基因与对应SCGs相比,基因数量是否完整,数值越大,Bin质量越好
污染度:一个MAg存在多个物种的程度,数值越小,Bin质量越好

4.4 Binning结果整合

三种方案

共组装(消耗大量计算资源)
共分箱(Bins污染度与共组装一样高)
dRep

进行组装和去重复可以阐述更多和更高质量的bins

4.5 Binning进一步分析

单菌

展示基因组基因分布
与近缘物种进行共线性分析
绘制细胞代谢模型
开展上下游基因分析

菌群

绘制特殊细胞代谢模型
多保守蛋白构建更精确的进化树
通过代谢网络分析物种关联

5. 总结

5.1 分析比较

5.2 分析局限与挑战

  • 成本较高 难以保持一致性
  • 获取的基因组不完整,且没有明确的分类学信息
  • 测序结果不能代表诱惑性的微生物类群
  • 微生物本身属性会影响定量结果,宏基因组的相对定量信息也不能反应实际样本的绝对丰度

5.3 分析建议

  • 根据科学问题使用reads-based分析或者Assembly-based分析
  • 数据库、对比算法和拼接工具需要平衡准确性和运算速度
  • 不断学习宏基因组分析的方法和软件,注意新方法的原理、适用范围及运行效率
  • 学会使用数据库中的数据,与自己的数据进行整合分析

欢迎加群交流,或者添加作者VX:bbplayer2021,邀请进群

2021.11.16【读书笔记】丨宏基因组分析流程相关推荐

  1. 宏基因组分析流程报错与解决

    宏基因组分析流程报错与解决 microbiome_helper流程报错 kneaddata质控 metaphlan_to_stamp.pl metaphlan2流程报错 前言:坑有时候就是这么出其不意 ...

  2. 微生物组助手——最易学的扩增子、宏基因组分析流程

    软件简介 Microbiome Helper开源软件,方便大家分析微生物组数据.不仅提供了多套扩增子.宏基因组的分析流程方案,同时提供了几十个软件间衔接的脚本,可大大提高使用者分析的效率. 文章于20 ...

  3. 1.1-1.16 预习笔记

    linux 学习笔记 1.1 学习之初 定位 目标 --就业.兴趣.辅助现工作 职位 --运维.开发.测试.DBA 城市 --家乡.一二线(半年.一年打基础) 目标 学习进度 --年底结束 工作 -- ...

  4. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4

    日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...

  5. 2022.04.11【读书笔记】|单细胞转录组概述

    文章目录 摘要 研究意义 转录组学意义 技术比较 研究方法 细胞筛选 文库构建 测序 实验方法 实验流程 常见问题 分析内容(重点) 分析内容总览 细胞亚群分类 细胞类型频率统计 Marker基因分析 ...

  6. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1

    学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...

  7. 2021/11/18学习笔记:城市建成区的边界

    老师让我做城市建成区的边界 卒 这咋做啊... 这小半个月都在做这个了... 把思路整理一下,免得以后忘记了. 数据来源: 1.夜间灯光数据:Chen Zuoqi, Yu Bailang*, Yang ...

  8. 2015.05.11,外语,读书笔记-《Word Power Made Easy》 15 “如何谈论事情进展” SESSION 44...

    1. not the real McCoy simulate(['simjuleit] v. 假装,冒充,模仿,模拟)来自拉丁simulo,copy的意思.simulo本身派生自拉丁形容词simili ...

  9. 函数(2)——4.兔子数列5.汉诺塔6.综合案例-RSA算法7.综合案例-体测成绩判定2021.11.16

    4.兔子数列(斐波那契数列) 一对兔子在出生两个月后,每个月能生出一对小兔子.现有一对刚出生的兔子,如果所有兔子都不死,那么一年后共有多少对兔子? 分析 n=1,兔子=1对: n=2,兔子=1对: n ...

最新文章

  1. .asmx支持post请求或者get请求调用(WebService 因 URL 意外地以 结束,请求格式无法识别 的解决方法)...
  2. 输出不详宗教预言,Google翻译为何“水逆”了?
  3. 一起谈.NET技术,C#创建不规则窗体的几种方式
  4. 借助Docker单机秒开数十万TCP连接
  5. 2020大学计算机知到答案,2020年_知到_大学计算机(济南大学)_网课答案
  6. 使用.Net Core MVC创建Web API
  7. Exynos4412 BSP平台搭建(详细图解)
  8. gin框架的学习--golang
  9. 放大你的Rstudio窗口字体
  10. GNSS NMEA-0183协议解析
  11. 触摸屏组态图库 触摸屏图库 昆仑通态触摸屏专用
  12. idea上maven引用jar出错(The POM for xxx is missing, no dependen)
  13. Modelica学习笔记1
  14. Onvif客户端与服务器通信时鉴权的自实现
  15. OpenSSL密码库算法笔记——第2.2.5章 利用Barrett约化做除法
  16. 基于MBOM的工艺数据管理及集成技术研究
  17. 零基础学FPGA(四):IP是什么东西(什么是软核,硬核)
  18. Linux系统自动更新时间命令的详细说明
  19. rar,zip文件加密判断
  20. python多轴图_python中用Matplotlib做多个纵轴 (多y轴)

热门文章

  1. [柒穆雨]学习ps有什么用?
  2. java 导出复杂格式的 Excel 留着自己备用
  3. 北京军区技侦局_校庆70周年系列学术活动之六:
  4. BOOT客户管理系统(详解)
  5. python获取图片像素点颜色_Python获取图片位置像素色值及判断色值是否存在
  6. 云计算企业级小架构部署应用综合练习-二- Ansible 部署 Elastic Stack(ELK)
  7. [工作积累] TAA Ghosting 的相关问题
  8. 计算机语言学考研考什么,语言学及应用语言学考研有哪些内容-考研经验
  9. 隐私保护 举例_完美保护隐私
  10. Arcgis中图像裁剪