Metagenomics Pipeline

文章主要目的:多数读者在从事宏基因组学分析的学习过程中都会遇到的共性问题,就是目前有太多的乱七八糟的分析软件,其分析质量无法考究。很难总结出一套比较切实可靠的分析流程,笔者也深受其害。摸索之中浪费了大量时间成本,故写此文,供各位参考。

宏基因组分析软件规划:

  • 初始fasta.q文件

  • 1.组装阶段:Megahit/Spades

  • 2.质控阶段:CheckM

  • 3.注释阶段:Pgap

  • 4.预测阶段:waka

陈述选择原因:

  1. Megahit:笔者通过文章查阅并实践分析所得,该软件相对轻量,对内存要求相对较低,其组装质量同比之下属于中上。应用于linux系统,通过conda安装很方便。适合前期学习使用。Spades:属于重量级组装工具,优点:组装N50大,contigs片段长度和准确性更好,缺点:非常耗内存,对硬件要求较高,组装速度慢
  2. CheckM:指控阶段的不可或缺的软件,对去除末端,冗余等有很好的效果,大胆选用即可。
  3. Pgap:强大的NCBI注释工具,可以添加很多大型数据库进行比对分析,虽然安装上有一定难度,不过其功能还是可圈可点。值得注意的一点是,这款软件同样需要很好的机器配置作为先决条件,cpu及内存,特别是内存,一定要够,否则会内存溢出。
  4. weka:机器学习等模型预测工具,内置常用的贝叶斯,决策树等机器学习算法,操作相对容易,完全可以满足一般的功能基因预测。

【生物信息学】——Metagenomics宏基因组学分析流程浅谈相关推荐

  1. Nature 子刊:三代测序的DNA提取和宏基因组学分析

    改进的人类肠道微生物组的高分子量DNA提取,纳米孔测序和宏基因组学装配 Improved high-molecular-weight DNA extraction, nanopore sequenci ...

  2. 生物信息学之rnaseq转录组分析流程--转换文件中的ensemble id到gene名

    生物信息学之rnaseq转录组分析--转换文件中的ensemble id到gene名 如何解决转录组分析中count之后遇到ensemble id的问题 一个将ensemble id转换成gene名的 ...

  3. map文件分析 stm32_浅谈STM32的启动过程

    分享这篇文章,谈一下STM32启动流程.如果读者朋友已经有过汇编相关基础,能够够好理解本文内容.汇编语言是比C语言更接近机器底层的编程语言,能让我们更好的理解和操纵硬件底层. STM32三种启动模式 ...

  4. 【机器学习】数据驱动方法在电网稳定分析应用浅谈

    目录 一.数据驱动概述 二.数据驱动特点 三.数据驱动与其他方法对比 四.总结 五.参考文献 一.数据驱动概述 数据驱动在电力系统稳定分析中的应用,主要目标是从电网运行数据角度建立电力系统稳定分析模型 ...

  5. 案例分析:浅谈12306核心模型设计思路和架构设计。

    前言 春节期间,无意中看到一篇文章,文章中讲到12306的业务复杂度远远比淘宝天猫这种电商网站要复杂.后来自己想想,也确实如此.所以,很想挑战一下12306这个系统的核心领域模型的设计.一般的电商网站 ...

  6. 《刺客信条:英灵殿》全面分析:浅谈公式化开放世界

    经过澳大利亚艺术家8个小时左右的艺术创作之后,育碧正式公布了刺客信条系列的最新一部作品--<刺客信条:英灵殿>的信息.受玩家万众瞩目的刺客信条系列终于在短暂的沉寂后,重新回到广大玩家们的视 ...

  7. 【分析】浅谈C#中Control的Invoke与BeginInvoke在主副线程中的执行顺序和区别(SamWang)

    今天无意中看到有关Invoke和BeginInvoke的一些资料,不太清楚它们之间的区别.所以花了点时间研究了下. 据msdn中介绍,它们最大的区别就是BeginInvoke属于异步执行的. Cont ...

  8. iPhone程序运行流程浅谈

    1. 和大多数语言一样,每一个iPhone应用也都是从主函数开始运行,它的main函数都在XCode的Other Reasource逻辑目录下. [cpp] view plaincopyprint? ...

  9. 塔菲尔曲线如何分析_浅谈塔菲尔动力学(Tafel Kinetics)

    1.塔菲尔公式 塔菲尔是一个有机化学家,当时他的主要研究集中在通过碳水化合物的还原实现有机物的合成以及有机物的改性,包括己糖,杂环化合物等.在研究过程中,塔菲尔发现一些化合物很难利用传统的同质反应合成 ...

  10. gwas snp 和_GWAS分析原理浅谈

    引言 遗传学的研究成功地找到了很多致病突变体,这些突变体是指染色体上的变异位点.GWAS(全基因组关联分析)试图找到染色体上的变异位点,并研究这些变异位点与疾病或其它性状的关联. GWAS常用的方法是 ...

最新文章

  1. HDU4666 Hyperspace(数学推理+数据结构)
  2. 微信小程序 对request方法二次封装
  3. Oracle 事务的开始与结束
  4. Java sdk及tomcat安装设置
  5. 【linux】——Linux tar打包命令
  6. 最近在忙着做一个加密的项目,还自己找的私活.
  7. (day9)357. 计算各个位数不同的数字个数
  8. Array and string offset access syntax with curly braces is no longer support
  9. android平板识别光驱,平板电脑看不了光盘?一个ORICO外置光驱就可以轻松搞定
  10. greenplum segment down 实例
  11. 转载和积累系列 - 为什么 HashMap 加载因子是0.75?而不是0.8,0.6?
  12. Java-数据结构:树,这份资料可帮你解决95%的问题
  13. “哥德尔不完备定理”到底说了些什么?
  14. 幼师和计算机学哪个好,大学不容易脱单的专业,计算机专业只是其一,幼师也会比较难...
  15. 2021年山东省安全员C证最新解析及山东省安全员C证实操考试视频
  16. jQuery经典小案例
  17. 【Java】javaSE的基础知识概括(完)
  18. Java 求一组数组中的平均数
  19. Linux网络管理命令整理回顾
  20. Android 版本更新安装apk

热门文章

  1. 城通网盘仿蓝奏网盘源码
  2. HttpClient 4 和 HttpClient 3 设置超时
  3. VMware安装流畅系统Chrome OS以及国产系统FedyOS(基于Chrome OS的二次开发)
  4. 女朋友都看得懂的服务器搭建(纯小白超详细图文教程,阿里云服务器搭建)
  5. Excel操作:分析工具库
  6. arduino 土壤温湿度传感器_arduino测量土壤湿度自动浇水提醒 - 全文
  7. 最简单24点算法,可任意实现n数n点,一看就明!
  8. 基于FFmpeg的H265编码器
  9. jemalloc 内存管理
  10. 小米4c android5.1,奇兔刷机全网独家攻破小米4c安卓5.1支持一键刷机ROOT