本文转自肠道产业,点我阅读原文,有修改

这是《肠道产业》第 583 篇文章

编者按:

随着二代测序技术的成熟,微生物组领域蓬勃发展,并产生了大量数据,近年来研究所涉及的样本量和测序数据量更是快速增加,那么面对如此庞大的数据我们应该如何处理呢?可以利用这些数据做什么呢?

今天,我们特别共同关注微生物组领域中的数据科学,并对微生物组初创公司如何利用微生物组数据进行简要总结。希望本文能够为相关人士和诸位读者带来一些启发与帮助。

微生物组研究正在产生大量数据

并不是每一个人都认为人类基因组计划是个好主意。早在 20 世纪 80 年代末和 90 年代初,当这个计划仍处于筹划阶段时,一些著名的科学家认为,对整个人类基因组进行测序,是一件费力而不讨好的事情。

“我认为,这些信息将有不可估量的效用,但这一点并不那么显而易见。”麻省理工学院的生物学家 Robert Weinberg 如是写道1

批评人士担心,该计划将会抽走原本属于各个独立实验室的宝贵经费,然后投入到一个大型的政府计划中,而这个计划可能不会产生很多重要且富有意义的成果。

然而,三十年后的今天,人类基因组计划不仅回了本2,而且几乎彻底改变了生物医学研究领域3,并为今天的生物技术产业奠定了基础。

该计划影响科学和技术发展的主要方式之一,是提供免费可用的参考数据集,研究人员可以利用这些数据集,开发新的计算工具和测序技术。因此,生物医学研究领域,现已成为最大的数据科学领域之一。

而肠道微生物组也有着类似的发展轨迹。肠道微生物组是指栖息在肠道中的亿万微生物,这些微生物对我们的健康而言至关重要,被看作是我们的“虚拟器官”4。研究发现,我们的微生物组对机体的新陈代谢、疾病的易感性乃至药物反应,都会产生微妙但普遍的影响。

然而,直到最近,微生物组中的大多数微生物物种依然是“不可见的”,因为它们无法在培养皿上生长。为了追踪这些微生物,科学家们依靠对从粪便样本中收集的 DNA 进行测序。

与人类基因组计划一样,研究人员正试图通过建立大型参考数据集,来促进微生物组的研究,这些参考数据集,是新的技术和数据分析工具的基础。

在微生物组研究中,数据分析的关键挑战之一,是将粪便样本中提取的 DNA 序列片段,组装成完整的基因组。这份工作就像是,利用垃圾箱里的书页碎片,重新将成千上万的书页拼装起来。因此,如果你没有原始书本作为参考,这是很难做到的。

但是,有了一台像样的电脑和一份文本的原版拷贝,这项工作就将变得十分容易。

这就是为什么大量的研究团队,最近醉心于收集数十万份人类肠道微生物组样本以建构参考基因组序列5,6,比如 2019 年 7 月刚发布的一组新数据7。这项研究汇编了数千种微生物的基因组,以及超过 1.7 亿条非人类基因序列。在人体内,细菌基因的数量,大约是人类基因数量的 1 万倍。

微生物组研究是一个数据科学问题

这些庞大的数据集对计算生物学家提出了新的挑战和机遇。这些计算生物学家为了人类健康,试图理解,甚至操纵人体微生物组。

其中一个关键的挑战是,细菌基因组本身并没有那么有用。它们需要与其他数据一起进行分析。

微生物组对我们很重要,因为它会随着年龄、饮食、药物甚至癌症等疾病的变化而变化。不仅如此,我们的肠道微生物还会与我们一起代谢食物,操纵我们的免疫系统,并与人体本身共同构成广泛的代谢网络。而为了做到这一切,肠道微生物表达了大量的基因。

为了弄清楚微生物组,研究人员需要追踪这些细菌基因的表达,是如何随着时间的推移而变化的,以及为什么在不同患者之间出现差异。

这通常涉及到,将微生物组信息与患者血液检测数据、表观遗传学数据、临床结果,甚至组织学图像联系起来。研究者正在建立整合这些不同数据类型的平台资源。

ColPortal是一个专注于结肠直肠癌样本的平台,其将不同的数据集以一种利于数据分析的形式整合在一起,使得数据分析师更容易回答医学问题,而不是花费大量力气将数据整合在一起。

另一个挑战是将最先进的分析方法,如机器学习,应用于成分混杂的大型微生物组数据集。

机器学习算法可以很好地根据复杂数据中存在的微妙模式,对样本进行分类。例如,微生物组研究的目标之一,是根据患者微生物组组成的特征变化,来预测早期癌症9

如果这能成功,我们在 50 岁以后都应该做的常规结肠镜检查,可以被一种侵入性更小的筛查方法所取代,一种只需要粪便样本的筛查方法。

然而,机器学习手段一般不适合非专业人员。遗憾的是大多数微生物组学家,不是机器学习的专家,他们也没有理由成为这方面的专家。为了确保高质量的机器学习技术在这个问题上发挥作用,一些项目专注于为微生物组数据构建机器学习工具。

比如,欧盟资助的 ML4 Microbiome 项目10正在收集数据集,建立数据标准,并构建可广泛应用于研究社区的软件。而由明尼苏达大学的 Dan Knights 运营的“Microbiome Learning Repo”11,则是一个公开的机器学习工具库。

在不久之前,微生物组数据科学家还需要从零开始构建这样的工具。如今,他们却可以把工作重心放在数据分析上了。

初创公司如何利用微生物组数据?

这些新的微生物组平台资源,在实验室之外,又会产生怎样的影响呢?微生物组研究不仅仅是学术团队的课题;目前已有十多家生物科技初创公司,在这一领域开展工作,许多公司成立还不到五年。

初创公司采用的微生物组技术可以分为几种常见的手段,以下的每一种手段都依赖于微生物组 DNA 测序和数据分析:

微生物组移植:在治疗慢性胃肠道感染方面,利用健康捐赠者的粪便微生物组进行粪菌移植,取得了一定的成功。Rebiotix12 和 MaaT Pharma13 等公司,正在对细菌感染和溃疡性结肠炎等疾病的微生物组疗法,进行临床试验。

成功的关键之一,将是确切地了解一个“好的”微生物组是什么样子的——这只有通过分析微生物组测序数据,才能弄清楚。

“将细菌作为药物”:另一种手段是专注于特定种类的肠道微生物的代谢功能,而不是重现整个健康微生物组。Seres Therapeutics 公司14希望改善正在接受免疫疗法的转移性黑色素瘤(一种致死率很高的癌症)患者的治疗情况。

由于微生物组与免疫系统相互作用,Seres Therapeutics 公司开发了一种针对免疫系统的细菌混合物,目的是帮助这些患者对治疗产生更好的应答。想要了解细菌是如何控制人体免疫系统的,关键是要知道它们表达什么基因,并模拟这些基因是如何协同工作的。

微生物组工程:一种比较有野心的操纵微生物组的方法,是对其进行基因工程。法国公司 Eligo Biosciences15 正在利用一种来源于噬菌体的技术——CRISPR 基因编辑技术。具体地,该公司通过对肠道中的细菌进行基因编辑,让它们表达有益基因,或杀死传染性细菌。这项技术可能不会很快出现在临床上,但它依然可以从新的大型肠道微生物基因数据库中受益。

Eligo Biosciences 公司的技术,还可以针对感染性细菌中的抗生素耐药性基因——这种方法依赖于从数亿细菌基因中,识别出这些基因。

微生物组诊断:微生物组数据最有前景的应用之一,可能是在诊断上——尤其是对于癌症的诊断。肿瘤会产生很多不同寻常的代谢副产物,从而改变微生物组。

像 Metabiomics16 这样的公司,就是基于这样一种想法,即微生物组的变化,可以被用于早期癌症的发现——早在症状出现之前。这种方法要想成功,就需要依靠良好的模型,以从微生物组每天或每周的波动中,梳理出任何有风险的迹象。

微生物组数据非常复杂,即使以当今数据密集的生物医学科学的标准来看,也是如此。但就像大多数数据科学领域一样,研究的步伐正在加快,因为微生物组研究人员建立了新的工具和数据库,其他人可以使用这些工具和数据库来回答新的问题。

在这种情况下,在这个领域里,研究工作逐渐从实验室工作台上转移到了键盘上的数据分析。

参考资料:

(滑动下方文字查看)

1. https://pubmed.ncbi.nlm.nih.gov/3223969/

2.https://www.genome.gov/27544383/calculating-the-economic-impact-of-the-human-genome-project

3. https://genomemedicine.biomedcentral.com/articles/10.1186/gm483

4. https://pubmed.ncbi.nlm.nih.gov/23833275/

5. https://pubmed.ncbi.nlm.nih.gov/30867587/

6. https://pubmed.ncbi.nlm.nih.gov/30661755/

7. https://pubmed.ncbi.nlm.nih.gov/32690973/

8. https://colportal.imib.es/colportal/help.jsf

9. https://pubmed.ncbi.nlm.nih.gov/32647386/

10. https://www.ml4microbiome.eu/ml4-microbiome-overview/

11. https://bio.tools/ML_Repo

12. https://www.rebiotix.com/about-rebiotix/

13. https://www.maatpharma.com/technology/#gutprint

14. https://www.serestherapeutics.com/our-programs/

15. https://eligo.bio/

16. http://metabiomics.com/preventing-cancer/

原文网址:

https://builtin.com/data-science/microbiome-research-data-science

作者|Michael White

编译|Jessica

审校|617

编辑|晴晴大人

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

微生物组学大数据:如何挖掘与利用?相关推荐

  1. Mol Plant | 多家单位联合发布小麦组学大数据可视化和在线分析平台WheatOmics

    随着小麦模式品种"中国春"的参考基因组以及不同倍性.不同品种小麦基因组/泛基因组的陆续发布,小麦研究业已进入了后基因组大数据时代.与此同时,基于外显子测序.基因组重测序.SNP芯片 ...

  2. 南土所褚海燕组综述微生物组学的技术和方法及其应用

    DOI: https://doi.org/10.17521/cjpe.2019.0222 微生物组学的技术和方法及其应用 高贵锋 褚海燕* 中国科学院南京土壤研究所, 南京 210008 摘  要微生 ...

  3. 全程免费 - 挖矿转录组学大数据,中科院胡松年、方向东等开讲

    ▼生物信息学习的正确姿势(第三版) NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细 ...

  4. 【金猿案例展】某国家级研究所——组学大数据分析平台建设

    荣联科技集团案例 本案例由荣联科技集团投递并参与"数据猿年度金猿策划活动--2020大数据产业创新服务企业榜单及奖项"评选. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 大 ...

  5. 国家微生物科学数据中心微生物组学数据汇交指南

    科学家们往NCBI/EMBL/DDBJ等数据库提交的组学数据,也可以提交到国家微生物科学数据中心(NMDC,http://nmdc.cn/)了! 感受数据提交服务亮点: 线上全流程数据汇交,为您带来便 ...

  6. 微生物组学测序十大错误认知

    大家都知道,使用高通量测序技术解决微生物组学问题,已经成为一种成熟并且高效的技术手段.最近呢,我们的技术人员与科研工作者沟通时,发现很多人对组学研究存在不少模糊甚至错误的认识,为了便于大家学习到正确的 ...

  7. Cell子刊:微生物组学研究的突破与瓶颈

    本文转自肠道产业,点我阅读原文 https://mp.weixin.qq.com/s/ADq-xtRKg82SSgtEj6bcMA 这是<肠道产业>第 556 篇文章 编者按 在过去的 1 ...

  8. 没有云平台,又不会代码?MicrobiomeAnalyst:一款综合的可视化微生物组学数据分析网页工具

    文章目录 简介 文章简介 主要功能模块 16S多样性分析展示 数据上传及格式要求 数据完整性检查 数据过滤 数据标准化 分析主界面 可视化 堆叠柱状图 交互饼形图 Alpha多样性 Beta多样性 核 ...

  9. 基于三代测序技术的微生物组学研究进展

    基于三代测序技术的微生物组学研究进展 2020-09-04 09:16 微生物通常指一切难以用肉眼观察到的微小生物, 包括细菌.病毒.古菌.真菌以及一些微小的原生生物.微生物体积微小.结构简单, 却又 ...

  10. 微生物组学研究手段概览2——宏基因组和宏转录组

    原创: 林二狗  宇宙实验媛 宏基因组 宏基因组测序是将环境总DNA提取出来,随机打断成300/500bp的小片段,然后在片段两端加入通用引物进行PCR扩增测序,然后对测序数据进行质控,再将高质量序列 ...

最新文章

  1. NYOJ 23 取石子
  2. 操作系统例题:某文件系统中,针对每个文件,用户类别分为4类:安全管理员、文件主、文件主的伙伴、其他用户;访问权限分为5种:完全控制、执行、修改、读取、写入。若文件控制块中用二进制位串表示文件权限,为表
  3. iOS查看静态库命令
  4. android开发将h5转换成pdf_一键将PDF转换成PPT,秒懂!
  5. [C++STL]常用查找算法
  6. java biz包 怎么写,关于java dao与biz分工探讨
  7. [引]符号的英文说法
  8. Windows 8 页面应用测试(2)
  9. 【译】Vault 学习资源:1.0, 自动解印, 代理, Kubernetes
  10. js图片url反转file文件
  11. ssl证书在哪?如何查看ssl证书内容
  12. 根据设计稿,用JS计算rem的值
  13. H3C防火墙-安全域
  14. windows多线程编程1
  15. 测试用例大体上包含哪些内容?
  16. 小米生态链的战投启示
  17. 人脸检测——DDFD
  18. 有哪些比较好的原画设计学习网站,零基础学原画难么?
  19. 20200918:【广发金融工程】2018年重磅专题系列之九:基于隐马尔科夫模型的选股策略研究
  20. 电控无碳小车需要单片机吗_智能避障无碳小车-精选文档

热门文章

  1. 从源代码开始构建Ogre图文教程(Ogre 1.8 Source + VS2010)
  2. linux:/ete目录下的重要文件
  3. 阿塞拜疆对加密货币收入及利润征税
  4. 聆听天籁女声大碟《天碟落地》
  5. MySQL运行内存设置
  6. 数据库并发问题 封锁协议 隔离级别
  7. 人生感悟:名利如云烟
  8. linux局域网端口扫描,Linux 下 Nmap 网络扫描工具的安装与使用
  9. ios备忘录下载安卓版_如何下载和平精英国际服?
  10. GAN-cls:具有匹配感知的判别器