==微生物文献解读:问题串联文章思路,快速看懂正文主图。==

Cell:一种用基因流定义微生物种群的反向生态学方法

A Reverse Ecology Approach Based on a Biological Definition of Microbial Populations

  • 杂志:Cell [38.637]

  • 发表时间:8 August 2019

  • 第一单位:Department of Civil and Environmental Engineering, Massachusetts Institute of Technology

  • 第一作者:Philip Arevalo

  • 通讯作者:Martin F. Polz

  • 链接:https://linkinghub.elsevier.com/retrieve/pii/S0092867419307366

点评

大家都同样是做HGT,本文题目就丝毫未提及HGT,而是上升到population definition的水平,强调概念的提出而非方法的设计,还避免了与其他HGT方法的比较。从进化学、生态学、种群学出发,将方法升华到方法论+体系的高度,活该人家发cell。

简介

本文从反向生态学角度,开发了一个能够检测近期横向基因转移事件(recent HGT)的算法——-PopCOGenT,可以刻画基因组之间的基因流(gene flow)。由此将微生物种群(population)定义为基因流较为割裂的cluster,进而赋予种群以生态学上的意义。

背景

  • Q: 什么是种群(population,下文简称pop)?

  • A: 根据传统进化学概念可以推导出,种群是由同一个species的个体、但与该species的其他个体/群体有生殖隔离的成员组成。pop内的个体受到相似的选择压力。可以看出,种群是生态与进化的基本单位,许多生态学和进化学理论都是建立在种群的概念上。

  • Q: 为什么要研究种群?特别是微生物的种群?

  • A: 植物和动物等大型生物的生殖隔离清晰,种群明确,生态学和进化学理论非常成熟。但是因为HGT在微生物中广为流传,给他们定义种群就特别困难,更别说运用这些成熟的理论了。因此,如何定义微生物种群就显得十分重要(of paramount importance)。一旦定义成功,就可以研究他们在不同环境下与宿主内,如何协作交流、承受进化压力等。

  • Q: 16S或者其他marker gene不是可以很好地区分到species层面吗,还研究种群做啥?species与种群是什么关系?

  • A: 前人根据生态动态学将微生物的species进一步划分成种群,因此,pop是species更下层的一个划分,而且有生态学上的意义。但是发现无论是species的全基因组ANI(平均核苷酸一致性)cutoff还是16S marker gene都无法将pop区分开来。

  • Q: 上个问题产生背后的原因?

  • A: 一个pop因为接受同样环境下的gene sweep(就是选择压力同时对不同genome上同样的位置产生压力使得他们发生相同改变),因此在一些片段或者位点产生了一样的变化(可以是因为点突变也可以是因为HGT/重组)。但是genome的其他地方还是保持相对不变,因此当用整个基因组相似性来做cutoff,或是单纯比较16S时,他们基本是分不开的。除非,你把这些一致变化的片段+位点拿出来,只看他们,否则是无法区别的。

  • Q: 什么是反向生态学(reverse ecology)?

  • A: 我们先说一下遗传学。正向遗传学是从表型变化研究基因变化,反向遗传学则是从基因变化研究表型变化。其实类比到这里也是一样的,传统生态学是先看生态上有区别的群体,再研究基因层面上是什么造成了区别。因此,反向生态学就是,先研究基因,从基因上推断生态学上的区别。它在本文中具体阐释为:uses comparative genomics to predict ecological and metabolic features without any prior assumptions — 不事先知道生态上的信息,仅依靠比较基因组学来预测生态与代谢特征。

  • Q: 所以本文到底用反向生态学怎么解决了上面的问题?

  • A: 通俗点说,本文就是检测了一堆来同一个species的genomes的近期HGT,用有无HGT以及HGT的长度确定genomes(为网络的节点)中的gene flow关系和大小(为网络的边),画成网络。将网络上gene flow割裂的簇划分出来,定义为pop。因为gene flow在pop内高,pop间低,代表了基因的流向的隔离,同时gene flow将gene 功能赋予每个簇,因此也有生态学上的意义,这就实现了反向生态学的方法论—从基因组反推生态功能。

补充:

  • Q: strain和population的区别?和genomes的区别?

  • A: 我认为:把你比作一个genome,那strain就是你的直系亲属们(爸妈、儿女,你们几乎一模一样,可能就一丁点区别可以忽略不计)。population就是华人。species就是你所在的智人种。所以虽然你和黑人白人都是智人但是华人来往更紧密,且基因几乎不外流(除了并未与其他有色人种有生殖隔离,此比喻很恰当了)。

结果

PopCOGenT的算法思想

  • Q1: 算法最重要的假设是什么?什么是identical region?

  • A1: 定义:在两个genome alignment中没有突变的一模一样的region就叫做identical regions。DNA可能来自垂直遗传(上)或横向转移(下),比起前者,横向转移的DNA还来不及积累SNP。因此,只要看到两条genomes之间的ident regions分布显著高于垂直遗传的ident regions分布(背景分布),那就说明这两个genomes之间有gene transfer。详见Figure 1A。
    换句话说,就是我们认为发生了重组(基因交换)的两个genomes他们的ident regions应该比背景数量上更多、长度上更长。

Figure.1A

左:两个genomes中的identical DNA可能来自垂直遗传(上)或横向转移(下),比起前者,横向转移的DNA还来不及积累SNP。因此,只要看两条genomes之间的ident regions分布显著高于垂直遗传的ident regions,那就说明这两个genomes之间有gene transfer。

右:虚线是推导出来的没有发生gene transfer的genome alignment比例中有对应长度ident regions的关系图(常识理解:ident regions越长,背景模型下genome越少能找到这么长的ident region;极端情况,当ident region几乎到genome长度,genome上没地方(0%)能找到这样的ident region);实线是观察到的ident region与genome alignment的分布. 我们在图上画一条水平线,可以看到同样genome百分比下,重组的(实线)比没重组的(虚线)对应更长的ident regions(说明regions更长)。同理,再画一条垂直线,可以看到相同长度的ident region下,重组体(实线)比非重组体(虚线)找到了更多这样的序列(说明更频繁)。

  • Q2: 算法具体是怎么计算的?分几步?

  • A2:

  1. 设计基于pairwise genome的null model of mutational distribution,得到ident region的背景/期望分布;

  2. 统计真实看到的两两genomes的ident region分布;

  3. 真实分布与期望分布在每对genome alignment上差值平方和叫做length bias,衡量genomes之间远离期望ident region分布的程度;

  4. length bias作为两两genomes的的边关系,构建gene flow网络;

  5. 将网络上没有gene flow连接的簇定义为在基因、生态学上有意义的pop。

  • Q3: null model of mutational distribution是怎么设计的?

  • A3:

  • Q4: length bias是怎么算的?

  • A4:

富集identical regions(即length bias)可以敏感地检测出近期HGT

  • Q1: null model真的反映了非重组的ident region分布吗?【假阴性如何】

  • A1: Figure B显示7个species数据(每组一对genomes)中非重组体的分布都稍高于null model(就是至少没有已知的非重组体比null model要小,至少没有假阴性)。但是Fig2B显示非重组体都高于null model但是有些length bias更大,可能是有些重组没测出来,也可能是因为genome size有区别。

Figure.1B-C

根据genome size修改null model,并将null model和重组以及非重组的分布进行比较。

(对Figure.1B-D的进一步说明)Figure 1C 进一步发现这些非重组体length bias与genome size真的有线性的关系。从文献推测是因为genome size更长,因为正向选择删掉了更多的碱基差异,造成更少的突变+更多的ident regions。

如果上述推论成立,那么熟知的受正向选择的gene(例如核糖体基因)更应该富集在ident region中,而且genome size越大,这个基因富集程度越高。而从Fig1C中,我们知道非重组体中Buchnera基因组最小,Salmonella最大。因此,我们拿出这些非重组体,看看核糖体基因在ident region上的比例(Fig.1D),我们发现果然genome size越大这个比例越高,进一步坐实了上述理论。

Figure.1D

非重组体中,核糖体蛋白在长ident regions的比例。基因组越长,这个比例越高。间接说明length bias在非重组体中会受到更大的genome size上过多的正向压力选择影响,从而偏大,因此需要根据genome size做出调整。

  • Q2: 既然genome size大(导致更多的正向选择,减少mutation)会影响到非重组体的length bias增加,那怎么确定重组与非重组的阈值呢?

  • A2: 那就把非重组体的genome size和其length bias做线性拟合,将对应length bias的90%上限定为阈值(相当于一个置信区间,即Fig1C虚线)。下次再来一对genomes的 alignment,将其genome size带入这个线性方程进行计算,得到转化后(normalized)的null model length bias作为阈值,如果>=这个阈值就认为是重组体,<就是非重组体。

  • Q3: 重组体的ident region分布真的显著高于null model吗?【假阳性如何】

  • A3: 根据genome size改进过的null model,我们可以看到重组体的分布确实是高的(见Fig1B-C中最后三个species数据)。文中还进一步讨论了重组体的length bias可以由模拟HGT事件重现,而phylogeny结构以及genome组成特征改变则不行。

  • Q4: PopCOGenT能否区分recent和historical HGT?

  • A4: 答案是应该能。本文做了这么一件事,选择了5条genomes,计算机模拟他们进化,当5条genomes都达到了0.001的substitution/site(每个位置发生了0.001碱基替换)后,随机选donor和recipient genomes插入1000个长度为1000bp的transfer genes。之后继续突变,直到他们累积突变到0.005 substitution/site。这个过程重复50次(因此Figure 2中有shaded regions)。同时引入了三个指标,分别是mean length bias(mean是因为需要计算多个两两genomes的length bias所以取平均),h/m,r/theta,第一个是本文的指标,后两个指标是前人以gene特征刻画重组的指标。之后,每隔0.0001的substitution/site间隔对这5条genomes记录这些指标。

发现从0.001 sub/site时引入HGT后,length bias比起他指标下降更快速;其次,当mut累积到0.005 sub/site时,length bias早就回到了背景值,但是后两个指标还能检测出HGT(没有回归0值就是说还有检出存在)。这就说明,本文的length bias比起其他研究historical HGT的指标,只能检测到大约再多0.001 sub/site累积(即0.002 sub/site)的HGT,也就是更recent的HGT。【其实Figure 2只是说明了比起另外两个指标,本文指标检测的HGT是较新的HGT,但是并没有说明别人的指标就不是新的HGT了?而且这些HGT新到什么程度?会不会过于新从而漏掉了一些recent HGT等之类的问题】

Figure.2

随着突变积累时间,三个指标对HGT的检测能力变化。

在genomes mutation累积到0.001 sub/site时,计算机模拟在genomes中加入HGT,并继续进行genomes的突变。相比于h/m(绿色, A)和r/theta(紫色, B),mean length bias(红色)这个指标在HGT出现后更快的失去检出HGT的能力。同时,当突变都比原来累积了5倍(0.005 sub/site)时,其他两个指标都还存在HGT的检出,length bias早就检不出来了。因此说明,length bias相比于其他研究更能检测到较为recent的HGT。

PopCOGenT识别种群为基因与生态单位

  • Q1: 此部分的数据是什么?用了什么方法?

  • A1: 选取3个在生态学有区分且研究透彻的微生物(即Vibrio, Sulfolobus, Prochlorococcus)。使用length bias大小与有无作为genomes的边,代表gene flow,构建gene flow network。再用gene flow方法找到的割裂的units作为生态学上有意义的pop。

  • Q2: 用gene flow方法找到的割裂的units结果如何?与其他研究结果相比?

  • A2: 首先前人基于重组、gene模式等方法都不能很好地找到紧密联系但生态学上分离的pop。但本文开发的Gene flow networks 基于length bias是高度结构化的,找到的簇与生态学几乎复原了前人对这3种微生物在生态学上的pop划分。同时要注意一点的是,他们仅仅是用有无gene flow做判断,而没有用任何其他的cluster方法(这是最厉害的地方)。

  • Q3: gene flow network还做了其他调整吗?

  • A3: 在network上也发现了有些pop是刚刚speciated的(如Fig3A中Vibrio cyclitrophicus的三个subgroups)。表现在他们虽然在一个group中但是近期的gene flow还连着他们。因此本文引入了Infomap,一个可以区分新生pop的聚类方法。

  • Q4: 为什么选择Infomap?Infomap的优点是什么?

  • A4: 因为它是基于最小化构建网络信息的方法聚类,因此并不依赖于一个固定的cutoff,对微生物网络有更好的普适性。

  • Q5: gene flow network在范式改变上的重大意义?

  • A5: gene flow network呈现的pop间割裂,显示出genomes并不是由MGE高度相联系的。这大大改变了人们认为微生物随便两个genomes就可以发生gene转移的观念。

Figure.3

gene flow network在三种微生物上的聚类情况。

在phylogeny上分不开的genomes,在这里可以近乎完美地分离成生态学上独立的clusters。

  • Q6: PopCOGenT还有什么优势?

  • A6: PopCOGenT不依赖于global alignment,因此1.也可以检测MGE上的gene flow;2. genome 有缺失也没关系,这就对single cell genomes很友好(前提是genome要是高质量的)。

反向生态学方法预测生态种群,相互联系以及选择压力

  • Q1: 此部分的数据是什么?为什么选择这个数据?

  • A1: 之前都是在分析环境微生物,因此为了减少环境信息,这回选择了肠道菌Ruminucoccus gnavus(活泼瘤胃球菌)作为例子。又因为之前研究发现,IBD(炎症性肠病)病人与两个R.gnavus clades分别有关,因此可以指导我们找到不同功能的pop。

  • Q2: 这部分做了什么工作?目的是什么?

  • A2:

  1. 用gene flow预测pop;

  2. 寻找受到pop特异性选择压力sweep的alleles和genes(=biomarker)

  3. 用这些alleles和genes将pop与cohort种类联系起来。
    (总之,目的是将本文的方法论做一个case study。)

  • Q3: 第1部分工作结果如何?

  • A3: 见Figure 4.

Figure.4A

用gene flow方法找到了3个pop(I-III)。

可以看到genome source和pop并不统一,说明source不是定义pop的因素。也说明发生了近期的pop分化事件。

  • Q4: 除了看gene flow,有其他证据表明pop在近期真的有所分化吗?

  • A4: 见Fig.4B。

Figure.4B

如果近期pop的确分化了,那么pop内部的genome上只有少部分gene发生了改变(且不同pop改变的gene不一样),这些gene在phylogeny会形成monophyletic(单系群);而genome其他部分不变,还是保持原有树状结构。如果pop内部单系群比例高,那就说明真的有pop在生成。【其实大白话说就是pop内部要有特异性sweep的压力产生】。因此本文对R. gnavus的core genomes构建系统发育树(因为core genome代表所有genomes共有的genes,否则他们不在一个树上比较,就无法消除背景差异),发现相比于all pop,3个pop中的单系群比例相当高,说明他们的确是新生的pop。【所以,pop成熟阶段可以用gene的单系群程度来量化?】

  • Q5: 第2部分工作结果如何?

  • A5: 这部分是去找带有受到pop特异性选择压力产生alleles的regions(叫sweep regions)。这些alleles被定义为:在pop内群成员专门享有的低变异度(比正常突变产生的变异度显著低)的alleles(因为受到一样的压力,那么一个种群内部的特异性alleles应该尽量相似,不相似的被选择清除了)。结果见Figure 5A-C.

Figure.5A-C

在pop I、II(III数量太少不做计算)中寻找pop特异带有低变异度的alleles的regions(叫做sweep regions),除了发现他们在pop内部有低多样性(A),还意外发现计算这些alleles在pop间的核苷酸多样性高于全基因组平均值(B)。最后还计算了Fixation index(C),此值高于总体平均也说明pop I、II是高度分化的(Fixation index计算请参考https://en.wikipedia.org/wiki/Fixation_index)。

补充:

为什么用pop特异性的alleles来预测pop的生态学、代谢学特征,赋予pop生物学意义?因为传统正向遗传学中要想找差异的alleles,是需要根据表型来逐个敲掉基因/SNPs的,对于实验来说太累了。所以反过来,用计算手段反向找差异的alleles然后反推造成pop特异性的表型,可以极大地指导实验。

  • Q6: 找到的sweep regions在genome上是怎么分布的?【注意,sweep regions是允许有突变存在的,它和ident regions概念不同】

  • A6: 发现虽然trasnfer的region片段大小变化很大,但是sweep regions都集中在一个gene或者一个domain上(Fig.5D)。
    具体例子上,发现pop I特异的alleles(SNPs)和pop II特异的alleles(SNPs)集中在不一样的位置(基因功能)上,各自安好(Fig.6A,6B)。
    但是也有在同一段位置(基因功能)上,pop I和II的alleles(SNPs)同时出现的,但是相互仍有所不同(Fig.6C)。

Figure.5D

pop I,II特异性的sweep regions在reference genome上位置的呈现。

Figure.6

(A) 仅在pop I特异的alleles(SNPs);(B) 仅在pop II特异的alleles(SNPs); (C)同一段位置上,pop I和II的alleles(SNPs)的分布也表现出不同。并且这些位置对应的gene功能也标记了出来。

  • Q7: 第3部分工作结果如何?

  • A7: 为了今后可以将pop特异的SNPs和genes用于快速分型健康疾病以及疾病亚型,这里做了探索性的关联分析(Fig.7)。本文将healthy、UC、CD三个cohort的reads map到reference genome上(上面事先标记SNPs与genes信息)。
    发现healthy的宏基因组reads在pop I特异的SNPs上map的比例最高;CD的宏基因组reads在pop II特异的SNPs上map的比例最高(Fig
    .7A,B)。相似的结论也在pop特异的genes上看到(Fig.7C,D)。

Figure.7

pop I & II 的特异性SNPs(A,B)与genes(C,D)在不同类型cohort上富集。因此他们可以与cohort种类进行关联,并作为区分cohort类型的指标。


可改进之处

  1. 这篇文章本质上是将以前的16S、maker gene比对,放到了更多的identical regions上,如果用这些identical regions来建phylogeny的话,应该也可以展示出本文的gene flow units在网路上的关系。(即我相信用其他不那么绕的方法,也可以看到本文网络上的结构。)

  2. 阐述算法的验证数据量还是较少。

  3. 在构建gene flow和找sweep regions上逻辑连贯性不足:gene flow是基于ident regions来的,但是在找pop特异性region时却抛弃了这个概念,转而去看pop内部共有alleles。如果要使得逻辑更为连贯,应该继续看ident regions(哪怕是几个regions的组合),并找出pop特异性ident regions;或者在构建network时,就以alleles作为特征进行构建,拥有一类与其他cluster明显不同alleles的cluster是一个pop。又或者在构建网络时,两者都考虑;在找pop特异性片段时,两者也都考虑。

  4. 【思考亮点】如果上述分析过程是最佳的,逻辑上的不连贯性可能表明背后暗含的现象:在所有pop内部的gene flow是相似的,都会传播A、B、C片段,所以分析这些片段并不能展现pop特异性。所以gene flow的流通只能划分pop,但是要区分pop在生态学上的特异性,还需要看选择压力造成alleles的区别。可是通读本文没看到这个假设的讨论,也没看到对不同pop间gene flow片段的比较。

  5. 既然对于近期HGT,mutate都来不及,那是不是表观遗传也来不及修饰,这个是不是也可以作为null model的一部分呢。

编译:阳奕琰,同济大学

责编:刘永鑫,中科院遗传发所育

Cell:一种用基因流定义微生物种群的反向生态学方法相关推荐

  1. [文献解读#3] 一种反向生态学方法:用基因流定义微生物种群

    微生物文献解读:问题串联文章思路,快速看懂正文主图. A Reverse Ecology Approach Based on a Biological Definition of Microbial ...

  2. Cell:新方法PopCOGenT鉴定微生物基因组间的基因流动

    文章目录 基于微生物种群生物学定义的逆向生态学方法 日报 摘要 主要结果 图1. 重组微生物基因组比非重组微生物基因组共享更长和更高频的一致性区域 图2. 长度偏差测量最近的基因转移事件 图3.最近基 ...

  3. static的三种用法,定义静态变量,静态函数,静态代码块!

    static的三种用法,定义静态变量,静态函数,静态代码块! 1.定义静态变量 class PersonStatic { //静态变量的特点 //1.静态变量无需生成对象就可被调用,可以使用类名和对象 ...

  4. 24种设计模式的定义和使用场合

    一. 创建型模式 (Creational): 简单工厂模式 (simpleFactory)发音 :['simpl] ['f?kt( ?)r? ] 定义 : 提供一个创建对象实例的功能 ,而无须关心其具 ...

  5. 回归分析中,简述几种残差的定义?性质?作用以及特点?

    回归分析中常用的残差有普通残差,学生化残差,删除残差,删除学生化残差.下面给出这几种残差的定义,性质,作用和特点. 回归分析的几种残差定义和性质 回归分析中回归诊断的主要内容 普通残差 学生化残差 删 ...

  6. android 封装scpi 命令,一种scpi命令定义、解析、执行和测试的方法

    一种scpi命令定义.解析.执行和测试的方法 [技术领域] [0001]本发明涉及程序控制领域,特别涉及一种SCPI命令定义.解析.执行和测试的方法. [背景技术] [0002]SCPI (Stand ...

  7. Protein Cell:心血管疾病中的肠道微生物及其潜在的治疗应用

    编者按: 国内著名英文学术期刊 Protein & Cell 与热心肠研究院于去年再次合作,推出以"微生物组:迈向转化"为主题的人类微生物组专刊,邀请国内外有突出学术贡献的 ...

  8. Cell综述:动植物界的微生物群和宿主营养

    作者:张潞潞,南京农业大学硕士在读,主要研究益生元配合有机肥防控土传病害. 周刊主要展示LorMe团队成员优秀周报,每周定期为您奉上学术盛宴!本期周刊为您介绍动植物界的微生物群和宿主营养之间的联系与区 ...

  9. Cell重磅发布15万人体微生物基因组!超大规模宏基因组研究揭示数千计人体微生物新物种...

    本文转载自"测序中国",已获授权 微生物宏基因组是当今世界最热门的科研领域之一.越来越多的研究表明,人体微生物发挥着重要的健康作用,但大部分多样性仍未得到充分探索,尤其是在除肠道以 ...

最新文章

  1. DCN-2655 ssh 远程登陆配置
  2. Oracle执行计划相关(待补充)
  3. Windows又发现安全漏洞 能够控制网络用户
  4. JAVA Swing——框架(JFrame、JDialog)位置居于父窗口中央的解决方案
  5. 上传项目到gitHub,上传报错和删除gitHub上的项目
  6. mysql的事务操作
  7. 0924html小测答案
  8. 【CF-Round-458:D】Bash and a Tough Math Puzzle(判断是否可以通过修改区间内的一个数使区间gcd=x)
  9. 【干货】常用EXE文件反编译工具
  10. Python3爬取妹子图——爬虫下载网络图片
  11. windows禅道官网地址及环境搭建
  12. github代理地址
  13. Beyond compare vs kdiff3
  14. Java处理时间,得到指定几天前的凌晨0点时间戳
  15. Android多媒体框架(5)—— MediaMuxer.jara源码分析
  16. 使用markdownpad生成目录
  17. 数学之美:数学究竟是如何深入我们的生活
  18. GPRS手机+笔记本电脑无线上网
  19. python定义单位矩阵_python 实现一个反向单位矩阵示例
  20. 3 Kong 管理运维

热门文章

  1. 领导力,就是这5个问题
  2. 一生中用来开会的时间,你知道有多久吗?
  3. i7 7代 linux,【Intel 酷睿i7 7代(移动版)参数】Intel 酷睿i7 7代(移动版)系列CPU参数-ZOL中关村在线...
  4. 谈谈我们在用的Scrum看板工具!
  5. ROS~kinectv1~边缘检测
  6. windows opensshd 连接就close_基于Windows白名单执行Payload上线Metasploit 渗透红队笔记...
  7. python3.6运行界面_python3.6 +tkinter GUI编程 实现界面化的文本处理工具
  8. 08CSS的复合选择器
  9. Linux中的数据流重定向
  10. C++加线程锁详解篇