==微生物文献解读：问题串联文章思路，快速看懂正文主图。==

Cell：一种用基因流定义微生物种群的反向生态学方法

A Reverse Ecology Approach Based on a Biological Definition of Microbial Populations

杂志：Cell [38.637]
发表时间：8 August 2019
第一单位：Department of Civil and Environmental Engineering, Massachusetts Institute of Technology
第一作者：Philip Arevalo
通讯作者：Martin F. Polz
链接：https://linkinghub.elsevier.com/retrieve/pii/S0092867419307366

点评

大家都同样是做HGT，本文题目就丝毫未提及HGT，而是上升到population definition的水平，强调概念的提出而非方法的设计，还避免了与其他HGT方法的比较。从进化学、生态学、种群学出发，将方法升华到方法论+体系的高度，活该人家发cell。

简介

本文从反向生态学角度，开发了一个能够检测近期横向基因转移事件（recent HGT）的算法——-PopCOGenT，可以刻画基因组之间的基因流（gene flow）。由此将微生物种群（population）定义为基因流较为割裂的cluster，进而赋予种群以生态学上的意义。

背景

Q: 什么是种群（population，下文简称pop）？
A: 根据传统进化学概念可以推导出，种群是由同一个species的个体、但与该species的其他个体/群体有生殖隔离的成员组成。pop内的个体受到相似的选择压力。可以看出，种群是生态与进化的基本单位，许多生态学和进化学理论都是建立在种群的概念上。
Q: 为什么要研究种群？特别是微生物的种群？
A: 植物和动物等大型生物的生殖隔离清晰，种群明确，生态学和进化学理论非常成熟。但是因为HGT在微生物中广为流传，给他们定义种群就特别困难，更别说运用这些成熟的理论了。因此，如何定义微生物种群就显得十分重要（of paramount importance）。一旦定义成功，就可以研究他们在不同环境下与宿主内，如何协作交流、承受进化压力等。
Q: 16S或者其他marker gene不是可以很好地区分到species层面吗，还研究种群做啥？species与种群是什么关系？
A: 前人根据生态动态学将微生物的species进一步划分成种群，因此，pop是species更下层的一个划分，而且有生态学上的意义。但是发现无论是species的全基因组ANI（平均核苷酸一致性）cutoff还是16S marker gene都无法将pop区分开来。
Q: 上个问题产生背后的原因？
A: 一个pop因为接受同样环境下的gene sweep（就是选择压力同时对不同genome上同样的位置产生压力使得他们发生相同改变），因此在一些片段或者位点产生了一样的变化（可以是因为点突变也可以是因为HGT/重组）。但是genome的其他地方还是保持相对不变，因此当用整个基因组相似性来做cutoff，或是单纯比较16S时，他们基本是分不开的。除非，你把这些一致变化的片段+位点拿出来，只看他们，否则是无法区别的。
Q: 什么是反向生态学(reverse ecology)？
A: 我们先说一下遗传学。正向遗传学是从表型变化研究基因变化，反向遗传学则是从基因变化研究表型变化。其实类比到这里也是一样的，传统生态学是先看生态上有区别的群体，再研究基因层面上是什么造成了区别。因此，反向生态学就是，先研究基因，从基因上推断生态学上的区别。它在本文中具体阐释为：uses comparative genomics to predict ecological and metabolic features without any prior assumptions — 不事先知道生态上的信息，仅依靠比较基因组学来预测生态与代谢特征。
Q: 所以本文到底用反向生态学怎么解决了上面的问题？
A: 通俗点说，本文就是检测了一堆来同一个species的genomes的近期HGT，用有无HGT以及HGT的长度确定genomes（为网络的节点）中的gene flow关系和大小（为网络的边），画成网络。将网络上gene flow割裂的簇划分出来，定义为pop。因为gene flow在pop内高，pop间低，代表了基因的流向的隔离，同时gene flow将gene 功能赋予每个簇，因此也有生态学上的意义，这就实现了反向生态学的方法论—从基因组反推生态功能。

补充：

Q: strain和population的区别？和genomes的区别？

A: 我认为：把你比作一个genome，那strain就是你的直系亲属们（爸妈、儿女，你们几乎一模一样，可能就一丁点区别可以忽略不计）。population就是华人。species就是你所在的智人种。所以虽然你和黑人白人都是智人但是华人来往更紧密，且基因几乎不外流（除了并未与其他有色人种有生殖隔离，此比喻很恰当了）。

结果

PopCOGenT的算法思想

Q1: 算法最重要的假设是什么？什么是identical region？
A1: 定义：在两个genome alignment中没有突变的一模一样的region就叫做identical regions。DNA可能来自垂直遗传（上）或横向转移（下），比起前者，横向转移的DNA还来不及积累SNP。因此，只要看到两条genomes之间的ident regions分布显著高于垂直遗传的ident regions分布（背景分布），那就说明这两个genomes之间有gene transfer。详见Figure 1A。
换句话说，就是我们认为发生了重组（基因交换）的两个genomes他们的ident regions应该比背景数量上更多、长度上更长。

Figure.1A

左：两个genomes中的identical DNA可能来自垂直遗传（上）或横向转移（下），比起前者，横向转移的DNA还来不及积累SNP。因此，只要看两条genomes之间的ident regions分布显著高于垂直遗传的ident regions，那就说明这两个genomes之间有gene transfer。

右：虚线是推导出来的没有发生gene transfer的genome alignment比例中有对应长度ident regions的关系图（常识理解：ident regions越长，背景模型下genome越少能找到这么长的ident region；极端情况，当ident region几乎到genome长度，genome上没地方（0%）能找到这样的ident region）；实线是观察到的ident region与genome alignment的分布. 我们在图上画一条水平线，可以看到同样genome百分比下，重组的（实线）比没重组的（虚线）对应更长的ident regions（说明regions更长）。同理，再画一条垂直线，可以看到相同长度的ident region下，重组体（实线）比非重组体（虚线）找到了更多这样的序列（说明更频繁）。

Q2: 算法具体是怎么计算的？分几步？
A2:

设计基于pairwise genome的null model of mutational distribution，得到ident region的背景/期望分布；
统计真实看到的两两genomes的ident region分布；
真实分布与期望分布在每对genome alignment上差值平方和叫做length bias，衡量genomes之间远离期望ident region分布的程度；
length bias作为两两genomes的的边关系，构建gene flow网络；
将网络上没有gene flow连接的簇定义为在基因、生态学上有意义的pop。

Q3: null model of mutational distribution是怎么设计的？
A3:

Q4: length bias是怎么算的？
A4:

富集identical regions（即length bias）可以敏感地检测出近期HGT

Q1: null model真的反映了非重组的ident region分布吗？【假阴性如何】
A1: Figure B显示7个species数据（每组一对genomes）中非重组体的分布都稍高于null model（就是至少没有已知的非重组体比null model要小，至少没有假阴性）。但是Fig2B显示非重组体都高于null model但是有些length bias更大，可能是有些重组没测出来，也可能是因为genome size有区别。

Figure.1B-C

根据genome size修改null model，并将null model和重组以及非重组的分布进行比较。

（对Figure.1B-D的进一步说明）Figure 1C 进一步发现这些非重组体length bias与genome size真的有线性的关系。从文献推测是因为genome size更长，因为正向选择删掉了更多的碱基差异，造成更少的突变+更多的ident regions。

如果上述推论成立，那么熟知的受正向选择的gene（例如核糖体基因）更应该富集在ident region中，而且genome size越大，这个基因富集程度越高。而从Fig1C中，我们知道非重组体中Buchnera基因组最小，Salmonella最大。因此，我们拿出这些非重组体，看看核糖体基因在ident region上的比例（Fig.1D），我们发现果然genome size越大这个比例越高，进一步坐实了上述理论。

Figure.1D

非重组体中，核糖体蛋白在长ident regions的比例。基因组越长，这个比例越高。间接说明length bias在非重组体中会受到更大的genome size上过多的正向压力选择影响，从而偏大，因此需要根据genome size做出调整。

Q2: 既然genome size大（导致更多的正向选择，减少mutation）会影响到非重组体的length bias增加，那怎么确定重组与非重组的阈值呢？
A2: 那就把非重组体的genome size和其length bias做线性拟合，将对应length bias的90%上限定为阈值（相当于一个置信区间，即Fig1C虚线）。下次再来一对genomes的 alignment，将其genome size带入这个线性方程进行计算，得到转化后（normalized）的null model length bias作为阈值，如果>=这个阈值就认为是重组体，<就是非重组体。
Q3: 重组体的ident region分布真的显著高于null model吗？【假阳性如何】
A3: 根据genome size改进过的null model，我们可以看到重组体的分布确实是高的（见Fig1B-C中最后三个species数据）。文中还进一步讨论了重组体的length bias可以由模拟HGT事件重现，而phylogeny结构以及genome组成特征改变则不行。
Q4: PopCOGenT能否区分recent和historical HGT？
A4: 答案是应该能。本文做了这么一件事，选择了5条genomes，计算机模拟他们进化，当5条genomes都达到了0.001的substitution/site（每个位置发生了0.001碱基替换）后，随机选donor和recipient genomes插入1000个长度为1000bp的transfer genes。之后继续突变，直到他们累积突变到0.005 substitution/site。这个过程重复50次（因此Figure 2中有shaded regions）。同时引入了三个指标，分别是mean length bias（mean是因为需要计算多个两两genomes的length bias所以取平均），h/m，r/theta，第一个是本文的指标，后两个指标是前人以gene特征刻画重组的指标。之后，每隔0.0001的substitution/site间隔对这5条genomes记录这些指标。

发现从0.001 sub/site时引入HGT后，length bias比起他指标下降更快速；其次，当mut累积到0.005 sub/site时，length bias早就回到了背景值，但是后两个指标还能检测出HGT（没有回归0值就是说还有检出存在）。这就说明，本文的length bias比起其他研究historical HGT的指标，只能检测到大约再多0.001 sub/site累积（即0.002 sub/site）的HGT，也就是更recent的HGT。【其实Figure 2只是说明了比起另外两个指标，本文指标检测的HGT是较新的HGT，但是并没有说明别人的指标就不是新的HGT了？而且这些HGT新到什么程度？会不会过于新从而漏掉了一些recent HGT等之类的问题】

Figure.2

随着突变积累时间，三个指标对HGT的检测能力变化。

在genomes mutation累积到0.001 sub/site时，计算机模拟在genomes中加入HGT，并继续进行genomes的突变。相比于h/m（绿色, A）和r/theta（紫色, B），mean length bias（红色）这个指标在HGT出现后更快的失去检出HGT的能力。同时，当突变都比原来累积了5倍（0.005 sub/site）时，其他两个指标都还存在HGT的检出，length bias早就检不出来了。因此说明，length bias相比于其他研究更能检测到较为recent的HGT。

PopCOGenT识别种群为基因与生态单位

Q1: 此部分的数据是什么？用了什么方法？
A1: 选取3个在生态学有区分且研究透彻的微生物（即Vibrio, Sulfolobus, Prochlorococcus）。使用length bias大小与有无作为genomes的边，代表gene flow，构建gene flow network。再用gene flow方法找到的割裂的units作为生态学上有意义的pop。
Q2: 用gene flow方法找到的割裂的units结果如何？与其他研究结果相比？
A2: 首先前人基于重组、gene模式等方法都不能很好地找到紧密联系但生态学上分离的pop。但本文开发的Gene flow networks 基于length bias是高度结构化的，找到的簇与生态学几乎复原了前人对这3种微生物在生态学上的pop划分。同时要注意一点的是，他们仅仅是用有无gene flow做判断，而没有用任何其他的cluster方法（这是最厉害的地方）。
Q3: gene flow network还做了其他调整吗？
A3: 在network上也发现了有些pop是刚刚speciated的（如Fig3A中Vibrio cyclitrophicus的三个subgroups）。表现在他们虽然在一个group中但是近期的gene flow还连着他们。因此本文引入了Infomap，一个可以区分新生pop的聚类方法。
Q4: 为什么选择Infomap？Infomap的优点是什么？
A4: 因为它是基于最小化构建网络信息的方法聚类，因此并不依赖于一个固定的cutoff，对微生物网络有更好的普适性。
Q5: gene flow network在范式改变上的重大意义？
A5: gene flow network呈现的pop间割裂，显示出genomes并不是由MGE高度相联系的。这大大改变了人们认为微生物随便两个genomes就可以发生gene转移的观念。

Figure.3

gene flow network在三种微生物上的聚类情况。

在phylogeny上分不开的genomes，在这里可以近乎完美地分离成生态学上独立的clusters。

Q6: PopCOGenT还有什么优势？
A6: PopCOGenT不依赖于global alignment，因此1.也可以检测MGE上的gene flow；2. genome 有缺失也没关系，这就对single cell genomes很友好（前提是genome要是高质量的）。

反向生态学方法预测生态种群，相互联系以及选择压力

Q1: 此部分的数据是什么？为什么选择这个数据？
A1: 之前都是在分析环境微生物，因此为了减少环境信息，这回选择了肠道菌Ruminucoccus gnavus（活泼瘤胃球菌）作为例子。又因为之前研究发现，IBD（炎症性肠病）病人与两个R.gnavus clades分别有关，因此可以指导我们找到不同功能的pop。
Q2: 这部分做了什么工作？目的是什么？
A2:

用gene flow预测pop；
寻找受到pop特异性选择压力sweep的alleles和genes（=biomarker）
用这些alleles和genes将pop与cohort种类联系起来。
（总之，目的是将本文的方法论做一个case study。）

Q3: 第1部分工作结果如何？
A3: 见Figure 4.

Figure.4A

用gene flow方法找到了3个pop（I-III）。

可以看到genome source和pop并不统一，说明source不是定义pop的因素。也说明发生了近期的pop分化事件。

Q4: 除了看gene flow，有其他证据表明pop在近期真的有所分化吗？
A4: 见Fig.4B。

Figure.4B

如果近期pop的确分化了，那么pop内部的genome上只有少部分gene发生了改变（且不同pop改变的gene不一样），这些gene在phylogeny会形成monophyletic（单系群）；而genome其他部分不变，还是保持原有树状结构。如果pop内部单系群比例高，那就说明真的有pop在生成。【其实大白话说就是pop内部要有特异性sweep的压力产生】。因此本文对R. gnavus的core genomes构建系统发育树（因为core genome代表所有genomes共有的genes，否则他们不在一个树上比较，就无法消除背景差异），发现相比于all pop，3个pop中的单系群比例相当高，说明他们的确是新生的pop。【所以，pop成熟阶段可以用gene的单系群程度来量化？】

Q5: 第2部分工作结果如何？
A5: 这部分是去找带有受到pop特异性选择压力产生alleles的regions（叫sweep regions）。这些alleles被定义为：在pop内群成员专门享有的低变异度（比正常突变产生的变异度显著低）的alleles（因为受到一样的压力，那么一个种群内部的特异性alleles应该尽量相似，不相似的被选择清除了）。结果见Figure 5A-C.

Figure.5A-C

在pop I、II（III数量太少不做计算）中寻找pop特异带有低变异度的alleles的regions（叫做sweep regions），除了发现他们在pop内部有低多样性（A），还意外发现计算这些alleles在pop间的核苷酸多样性高于全基因组平均值（B）。最后还计算了Fixation index（C），此值高于总体平均也说明pop I、II是高度分化的（Fixation index计算请参考https://en.wikipedia.org/wiki/Fixation_index）。

补充:

为什么用pop特异性的alleles来预测pop的生态学、代谢学特征，赋予pop生物学意义？因为传统正向遗传学中要想找差异的alleles，是需要根据表型来逐个敲掉基因/SNPs的，对于实验来说太累了。所以反过来，用计算手段反向找差异的alleles然后反推造成pop特异性的表型，可以极大地指导实验。

Q6: 找到的sweep regions在genome上是怎么分布的？【注意，sweep regions是允许有突变存在的，它和ident regions概念不同】
A6: 发现虽然trasnfer的region片段大小变化很大，但是sweep regions都集中在一个gene或者一个domain上（Fig.5D）。
具体例子上，发现pop I特异的alleles（SNPs）和pop II特异的alleles（SNPs）集中在不一样的位置（基因功能）上，各自安好（Fig.6A,6B）。
但是也有在同一段位置（基因功能）上，pop I和II的alleles（SNPs）同时出现的，但是相互仍有所不同（Fig.6C）。

Figure.5D

pop I，II特异性的sweep regions在reference genome上位置的呈现。

Figure.6

(A) 仅在pop I特异的alleles（SNPs）；(B) 仅在pop II特异的alleles（SNPs）; (C)同一段位置上，pop I和II的alleles（SNPs）的分布也表现出不同。并且这些位置对应的gene功能也标记了出来。

Q7: 第3部分工作结果如何？
A7: 为了今后可以将pop特异的SNPs和genes用于快速分型健康疾病以及疾病亚型，这里做了探索性的关联分析（Fig.7）。本文将healthy、UC、CD三个cohort的reads map到reference genome上（上面事先标记SNPs与genes信息）。
发现healthy的宏基因组reads在pop I特异的SNPs上map的比例最高；CD的宏基因组reads在pop II特异的SNPs上map的比例最高（Fig
.7A,B）。相似的结论也在pop特异的genes上看到（Fig.7C,D）。

Figure.7

pop I & II 的特异性SNPs（A，B）与genes（C，D）在不同类型cohort上富集。因此他们可以与cohort种类进行关联，并作为区分cohort类型的指标。

可改进之处

这篇文章本质上是将以前的16S、maker gene比对，放到了更多的identical regions上，如果用这些identical regions来建phylogeny的话，应该也可以展示出本文的gene flow units在网路上的关系。（即我相信用其他不那么绕的方法，也可以看到本文网络上的结构。）
阐述算法的验证数据量还是较少。
在构建gene flow和找sweep regions上逻辑连贯性不足：gene flow是基于ident regions来的，但是在找pop特异性region时却抛弃了这个概念，转而去看pop内部共有alleles。如果要使得逻辑更为连贯，应该继续看ident regions（哪怕是几个regions的组合），并找出pop特异性ident regions；或者在构建network时，就以alleles作为特征进行构建，拥有一类与其他cluster明显不同alleles的cluster是一个pop。又或者在构建网络时，两者都考虑；在找pop特异性片段时，两者也都考虑。
【思考亮点】如果上述分析过程是最佳的，逻辑上的不连贯性可能表明背后暗含的现象：在所有pop内部的gene flow是相似的，都会传播A、B、C片段，所以分析这些片段并不能展现pop特异性。所以gene flow的流通只能划分pop，但是要区分pop在生态学上的特异性，还需要看选择压力造成alleles的区别。可是通读本文没看到这个假设的讨论，也没看到对不同pop间gene flow片段的比较。
既然对于近期HGT，mutate都来不及，那是不是表观遗传也来不及修饰，这个是不是也可以作为null model的一部分呢。

编译：阳奕琰，同济大学

责编：刘永鑫，中科院遗传发所育