宏基因组数据分析专题之展望与数据质控


导读

宏基因组测序(Metagenomics Sequencing)是以特定环境下的微生物群落作为研究对象,对该样品中所包含的全部微生物总的DNA进行测序
从而使人类可以研究微生物种群结构、物种分类,系统进化,基因功能活性、微生物之间以及微生物与环境之间的互作关系。因此,一定程度上来说,宏基因组测序摆脱了微生物分离纯培养的束缚,为环境微生物群落的研究提供了有效工具。然而,宏基因组测序数据的分析仍然存在许多问题,如组装和参考基因组等。目前,绝大多数的科研学者在宏基因组数据分析这一板块都是依赖于测序公司来完成。对于测序公司而言,他们只负责流程化的数据分析,并未考虑每一个实验的具体设计和潜在的生物学意义,导致许多科研实验结果不理想。因此,科研学者自己掌握宏基因组数据分析会让你的科研更上一层楼。我们深度基因团队基于前期的技术攻关,目前基本上已经掌握了宏基因组测序数据的整套分析流程。接下来,我将在宏基因组数据分析专题中为大家逐步解密宏基因组数据分析。

背景知识

目前,微生物组的研究手段主要是通过16S(16S rRNA Gene Amplicon Sequencing)和宏基因组测序(Metagenomics sequencing)这两种测序方法。这种测序技术的主要区别在于测序原理的不同:16S测序的技术原理主要是基于16S rDNA基因存在于所有细菌的基因组中,具有高度的保守性。该序列包含9个高变区和10个保守区,通过对某一段高变区序列进行PCR扩增后进行测序,得到对应的序列.宏基因组测序 则是将样品内的微生物基因组DNA随机打断成小的片段,然后在片段两端加入通用引物进行PCR扩增测序,再通过组装的方式,将小片段拼接成较长的序列。对于测序结果的比较而言,16S测序得到的序列很多注释不到种水平,而宏基因组测序则能鉴定微生物到种水平甚至菌株水平。因此,在物种鉴定过程中,宏基因组测序具有较高的优势。当然,我们也建议科研学者可以结合16S和宏基因组测序两种测序手段,可以更高效、更准确地研究微生物群落组成结构、多样性以及功能情况。

宏基因组测序数据分析流程

此处以MetaWRAP的分析流程为示例。 模块(红色), 宏基因组数据(绿色), 中间状态(橙色)和最终的分箱数据(黄色), 数据报告和图片(蓝色). 后期,我将以此数据分析流程图为框架为大家讲解宏基因组数据分析。图片来自Uritskiy et.al 2018

质控软件安装

所需软件:fastqc,软件官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/。大家需要结合你的电脑操作系统或Cluster来选择你需要下载的版本。这里简单介绍一下在Linux服务器中的安装:linux命令:

wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip #下载fastqc_v0.11.8.zip

unzip fastqc_v0.11.8.zip #解压

cd FastQC #进入该目录

fastqc -h #查看帮助文档

chmod 754 fastqc #增加可执行权限

echo ‘export PATH=/home/xxx/FastQC:$PATH’ >> ~/.bashrc #任何路径下可直接调用

FastQC 常规参数选择

-o --outdir 生成的报告文件的路径

–extract 让程序不打包(默认会打包成一个压缩文件)

–noextract 结果文件压缩

-t --threads 程序运行的线程数(与文件数量一致就行)

-q --quiet 安静运行模式(不选这个选项的时候,程序会实时报告运行的状况)

-f --format 输入文件格式.支持bam,sam,fastq文件格式

-c --contaminants 制定污染序列。文件格式 Name[Tab]Sequence

-a --adapters 指定接头序列。文件格式 Name[Tab]Sequence

软件运行

fastqc -o./output/ -t 2 ./input/data/A.fq #单个fq文件的质控

ls $input/data/*.fq | while read id; #多个fq文件的循环质控

do

$fastqc_dir/fastqc -t 2 $id -o $output;

done

后续

关于数据质控的结果的解析,我将会在下一篇文章中为大家一一讲解,敬请期待。

链接:

[1]参考链接: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/1 Introduction/1.1 What is FastQC.html
[2]参考链接:https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1

深度基因小伙伴温馨提示:

  • 如果我们对文章理解有偏差,非常欢迎大家向我们反馈,我们会认真阅读建议并修改,另外有意愿加入我们的小团队的老师和同学可发送邮件至我们的邮箱:deepgener@gmail.com 祝大家科研顺利,生活开心!
  • 想要了解更多内容请访问我们的深度基因网站:http://deepgener.wordpress.com/
    点击查看上一篇文章

宏基因组数据分析专题之展望与数据质控相关推荐

  1. 青年生命科学论坛报告:扩增子和宏基因组数据分析与可视化流程—刘永鑫(北京210606)...

    感谢中科院动物所青促会组织的第三届青年生命科学论坛的邀请,参加本次大会,并和微生物所王军老师共同负责了<微生物组>专题的召集工作.感谢11位微生物组专题报告人的辛苦准备和分享. 现将本次1 ...

  2. 今晚中科院刘永鑫报告:宏基因组数据分析的机遇与挑战

    报告题目:宏基因组数据分析的机遇与挑战 报 告 人:刘永鑫 工程师 报告时间:2 0 2 0 年 1 2 月 0 8 日 1 9:0 0 - 2 1 : 0 0 直 播 平 台 :腾 讯 会 议 ( ...

  3. 12月8日中科院刘永鑫报告:宏基因组数据分析的机遇与挑战

    报告题目:宏基因组数据分析的机遇与挑战 报 告 人:刘永鑫 工程师 报告时间:2 0 2 0 年 1 2 月 0 8 日 1 9:0 0 - 2 1 : 0 0 直 播 平 台 :腾 讯 会 议 ( ...

  4. 宏基因组数据分析的机遇与挑战—刘永鑫(北京,2020年10月27日)

    各位老师.同学好!感谢中国农业大学张福锁院士.彭静静老师的邀请.宋春旭老师的主持,参加中国农业大学国家农业绿色发展研究院,微生物专题报告(十五).我叫刘永鑫,来自中科院,宏基因组公众号创始人,本次报告 ...

  5. 扩增子和宏基因组数据分析流程和可视化方案—刘永鑫(南京,2020年11月27日)

    感谢中科院南京土壤所褚海燕老师的邀请,参加微生物生态与生物信息技术培训. 本次会议预计300人规模的会议,结果现场来了超千人.即使会议进行至第二天下午接近尾声,依然火爆如下: 我将本次90分钟报告&l ...

  6. 扩增子和宏基因组数据分析流程和可视化方案—刘永鑫(南京,2020年10月27日)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  7. 宏基因组分析步骤Linux,为什么宏基因组数据分析比较难?

    生物数据分析包括很多种类,比如人基因组,植物,动物,微生物,还有RNA,单细胞RNA等等,其中宏基因组数据分析是比较难的部分,为什么呢?这里总结了以下10点原因. 样品采集 由于微生物在地球上广泛的覆 ...

  8. R语言大会:宏基因组数据分析和可视化套路总结

    2019年5月25日,我应邀参加在人民大学召开的R语言大会. <5月24-26日,第12届中国R会议(北京)可视化专场> 作题为<R语言在宏基因组数据统计分析及可视化中的应用> ...

  9. 三天实现独立分析宏基因组数据(有参、无参和分箱等)

    在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2019年11月1-3日,北京鼓楼推出<宏基因组分析>专题培训第六期,为大家提供一条走进生信大门的捷径.为同行提供 ...

最新文章

  1. 【 C 】const 学习笔记
  2. Java 根据comboBox选择结果显示JTable
  3. 这5种员工,千万不能重用
  4. Spring Cloud的核心成员、以及架构实现详细介绍
  5. 88.搭建git服务器 安装与使用gitlab gitlab备份与恢复
  6. CXF处理Date类型的俩种方式
  7. 巧用MacOS的勿扰模式,解决广告弹窗
  8. ibatis.net:尽可能的使用匿名类型替换 Hashtable
  9. matplotlib绘制横向柱状图
  10. 《数据科学》第二章自学报告
  11. python花瓣_Python 花瓣网动态爬虫
  12. 360全景图PS更换天空背景
  13. edvac是商用计算机吗,计算机系统发展历程.ppt
  14. 笑哭!程序员的23个段子,搞笑又实用!
  15. 幸福婚庆策划网管理系统
  16. R软件R2WinBUGS程序包在网状Meta分析中的应用
  17. JSONObject.parseObject
  18. Object IO Exercise
  19. 辅助类GenericOptionsParser,Tool和ToolRunner
  20. 未名企鹅极客 | 医药流向的数据仓库建模

热门文章

  1. c语言初学者2017,StudentMana(C语言,vs2017)
  2. 全球首次实现8K超高清电视直播和5G网络下的8K电视播出
  3. 教你快速升级火狐浏览器
  4. Ubuntu分辨率调节
  5. Vue--动画效果与过度效果
  6. Photoshop CS6自学(一)认识
  7. python求列表均值,方差,标准差
  8. 中心经纬度计算周边8宫格GeoHash编码
  9. 澎思科技 CEO 马原:不到一年三轮融资,我们的 AI 安防商业逻辑...
  10. Pytorch--Numpy--Random中的随机种子函数: seed(number)用法总结