生物信息预测毒力因子

文章目录

毒力因子（Virulence Factors）
相关程序以及数据库1（VFDB）
- 原理
- 数据的验证
- 数据分析平台
- 工具的使用（VFanalyzer）
相关程序及数据库2（Victors）
- 原理
- - 数据库中的内容
- 数据分析
- - Vaxign

毒力因子（Virulence Factors）

毒力因子也就是病原微生物产生的对于导致宿主疾病发生的一类分子（可以是蛋白，碳水化合物，脂质分子等）。毒力因子在疾病的发生过程中发挥着多种功能，包括向宿主迁移和集群，攻击宿主的防御机制，免疫抑制，从宿主细胞中获得养分，介导从宿主细胞中的进入和外出以及感知环境的变化。找出这种分子十分重要，并且这些分子可以用来进行疫苗的研发。表面定位的毒力因子比如粘附蛋白是一类出色的免疫靶点。文献中主要是叙述对于预测粘附蛋白的一些预测生物信息学方法。
发现毒力因子以及其免疫原性然后利用疫苗的手段能够达到有效的抗感染的效果。疫苗生物学家因此准备疫苗溶液用来中和和清除有害的毒力因子。在宿主和病原生物之间的相互作用过程中多种分子会发挥作用，其中的一部分发挥重要作用，包括：粘附蛋白，毒素，酶，多糖等等。粘附蛋白位于细胞的表面因此能够被免疫系统感知，所以很多免疫学家对其比较感兴趣。
粘附蛋白使得病原微生物能够吸附到宿主细胞，该步骤是感染过程中的主要起始步骤（因为细菌假如不能够有效地粘附在固定的位置，很容易被机体的的保护系统清除掉，比如粘膜，绒毛等）。尽管粘附蛋白有较大的序列多样性，但是其中的保守区域可以成为潜在的疫苗靶点。

相关程序以及数据库1（VFDB）

该数据库是我们国人自己开发的，支持的单位是中国医学科学院病原微生物所研发的，具体的网址http://www.mgc.ac.cn/VFs/。该数据库是NAR杂志的常客，更新频率也比较高。同时在我分析的数据无法正常下载的时候，发过去的咨询邮件也很快得到回复，好评。
为了方便科研工作者的毒力因子相关的研究，其收集了多种毒力因子的数据库（注意只有细菌类的毒力因子，病毒和真菌之类的并没有包含）。同时其还开发了名为VFanalyzer分析流程程序，该程序只能在线分析基因组的序列而不能下载到本地批量的分析，而且分析的时候上传会略慢，并且上传完之后还要记下自己的jobid(假如分析时提供了邮箱那么就不用了提供，将来分析完会受到一个来自网页的邮件，直接点击邮件中的地址即可)。
VFanalyzer工作流程：首先根据给定的基因组（我们要查询的，也可以是自己的基因片段，这里的基因组用来进行聚类，降低假阳性的作用，应该属于比较基因组学的范畴）与数据库中的基因组进行一个聚类，找出同源性较高的组。数据库中的基因组都已经进行分析过并且均已经进行分组。文章中提到这种分组的分析方式能够减少假阳性的出现。我认为分组的内在含义应该是只有同源性较高的组其中出现的毒力因子才更加有可能发挥作用，因为一个组中的基因组功能是相似的。直接利用blast从总的数据库找出相似性较高的蛋白序列也可以，但是从其他组中找到的序列可能只是部分相似，但是可能不发挥功能。这个适用于保守的分析，假如策略从一开始就是宁可错杀一千，绝不放过一个，那么直接blast也可以，需要后续自己的多轮筛选。

原理

由一个祖先进化而来的物种称为同源，同源的物种可能会保持着相同的功能。因此在多种基因组之间找出同源的组（orthologous groups）对于保守基因的功能注释是很有价值的。VFanalyzer仅使用完整的或者近乎完整的细菌基因组作为起始的数据集。对于要分析DNA的序列的时候，VFanalyzer将来会利用GLIMMER3对基因组进行原核基因的预测，之后再利用预测得出的基因进行下一步的分析。假如有蛋白序列的话，可以直接使用蛋白序列进行分析（在分析之前会让选择进行什么样的数据分析，假如数据类型不符的话会报错）。
获得蛋白序列之后，要找出同源的序列，该过程是利用OrthoMCL软件进行分析的。该软件能够识别OGs(Orthology Groups),分组完成后，那么query基因组中的基因和同源基因组中的基因进行比对，将其分为毒力因子相关基因或者非毒力因子相关基因。没有被分类的基因将会进行进一步的分析。
blast分析：对于未能记性标签的基因将会按照层次逐级进行分析，1.该种属的核心数据集（实验验证过的）。2.该种属的预测的VF数据集。3.其他种属的已知或者预测出来的VF.
整个过程将会使用一个严格的cutoff来筛选每一次分析的输出结果。只有在筛选标准之外的基因才会进行下一轮的筛选（也就是说上一步已经筛选出来的基因将不会参与下一轮的筛选）。
另外：文中提到，大部分细菌的VF通常都是种属特异的，但是物种之间的分析能够帮助找出该物种的新的VFs，但是面临着假阳性高的风险，因为细菌的致病基因的多样性，物种之间的预测分析结果需要认真的实验验证才可以得出结论。但是这个层级的blast方法将会大大减少假阳性的发生。
对于较高变异性的蛋白，序列相似性为基础的blast方法可能不大能够找出不同的同源体。作者使用HMMER3（基于隐马尔可夫模型）程序来找出同源的结构域。这将会是最后一轮筛选。

数据的验证

为了增加整体的特异性与敏感度，VFanalyzer包含了额外的研究后的处理（对于分析的基因组中的每一个基因的位置信息）。第一个处理是共线性检查（与参考基因组的gene cluster进行比对）。对于每一个成分的多同源拷贝，程序将会考虑基因组背景而不是序列的相似性来作为主要的排除标准。第二个处理是一个缺少对应的成分的情况（也就是未发现VF），这个时候适当的放宽序列相似性的要求，从而保证能够尽量找到序列变异性比较大的毒力因子，进而提升程序的敏感度。

数据分析平台

作者提到，其将该工具部署在一个52核心的cpu、512G内存的一个服务器上，但是由于分析步骤较多，时间可能在几分钟到十几分钟不等。但是我们提交完序列之后（一定要检查是否成功提交）可以记下job_id号码，将来可以再左下角的位置进行查询和下载。

工具的使用（VFanalyzer）

一个分析的示例：
1.进入目标网址：http://www.mgc.ac.cn/cgi-bin/VFs/v5/main.cgi?func=VFanalyzer
可以看到如下界面

网页的左侧是一些信息(左上)和功能模块（左下）。第一个VFs Basic information是聚类之后相应的物种类型，点击进去可以查看对应的聚类的物种的详细信息。第二个intra-genera comparison是指对一个聚类内的物种的VFs进行比较（选择物种，submit即可）。第三个是指不同的聚类之间的VFs的比较信息。
最下边则是一些功能模块：比如VFanalyzer(分析模块)，seach（查找，提供text search和blast search两种），download(下载模块，主要是下载数据库中的信息)。
在网页的右侧可以提交自己的数据然后进行分析
2.设置参数
最开始的部位有三个options，option1是利用他们数据库中的基因组进行分析，option2是利用NCBI中的基因进行分析，提供gene id、protein id，option3是利用我们自己的数据进行预测和分析。
在右侧的界面，选择option3。之后在select the genus of genome中选择我们的基因组所属的种属类别。这里也就是找出与我们自己的基因组同源的种属。之后再provide the strain name(提供一个物种信息)，这里自己命名即可。
随后在choose the type of upload file中选择自己的数据类型（基因组DNA、还是蛋白，以及文件的格式）。
之后在specify a representative genome中选择一个与我们提交的基因组最相似的基因组（假如不知道的话空着就行，系统会有默认的选择），这里的选择是属于第一步中确定的种属中的一个物种种类。
最后一个选项是选择一个基因组来进行比较，这里可以不选。
输入自己的邮箱，提交，等待，提交完成后会生成一个ID，在此之前不要关闭界面。

这里可以注意一下，看到很多测序分析公司会利用diamond或者blast的手段将基因组与从数据库下载下来的数据进行比较，我认为官网提供的工具会更加合理，并且基因组不多的情况下在官网分析也不是很慢。

相关程序及数据库2（Victors）

这篇文献是2019年发表的（现在是2020.5），相对来说是一个比较新的文章，另外不同的是它包含的物种种类比较多，除了细菌，还包括病毒和真菌的毒力因子预测。该数据库是由手工收集的数据，对数据的准确性来说比较有保证。在文章发表的时候Victors包含5296个VFs。其中4648个来自于51类细菌，179来自54个病毒，105来自13个寄生虫，364来自8个真菌种属。文献中给的网址仅能进行查询和下载，不能够进行数据的预测和分析。下面这个网址应该也是他们在文章发表后开发的http://www.violinet.org/vaxign2/dynamic，该网址能够实现个人的数据分析，但是分析的速度很慢（一个基因组20分钟以上）。

原理

大约60%的感染性的疾病都是zoonotic(人畜共患的)，可以从动物传染给人类。理解这种传染的机制能够帮助找出更加有效的治疗方法。另外，文献中叙述了PHI-base数据库http://www.phi-base.org/，其包括了宿主和病原的相互作用，它主要关注于植物病原，其也提供了一些能够导致人类疾病的病原（不知道其原理），它也针对这些病原提供了对应的参考文献。文中提到，VFDB提供了VFs的总体参考文献，但是没有提供数据的实验验证信息。另一个VF相关数据库为PATRIC,该数据库通过blast来搜索公共数据库中的基因组以及一些私有基因组中的VFs(blast的参考序列为VFDB中的序列以及victor中的序列)，PATRIC也手动的引入毒力因子并且提供注释和分析的服务。
Victors的定位就在于全面的，手工整理的一个关于人畜共患的病原VF.它更加侧重于数据的可靠性。VF的功能和特征通过生物信息学工具提取出来。此外，Victors能够让我们对于人类的host蛋白和实验验证过的VFs之间进行预测分析。
关于victors中的预测：
PI/MW预测利用bioperl进行
host-pathogen PPI预测利用Inparanoid程序进行
亚细胞定位，adhesin的可能性，VF保守结构域利用Vaxign进行
下图是其文献中提及的工作流程：

数据库中的内容

VF gene symbol的粗略信息：蛋白的名称，功能，COG类别，DNA/protein序列
手动注释信息，利用从文献中提取的信息手动进行注释
从VF中计算得到的结果

数据分析

由于该数据库都是调用其他的程序或者在线的网页，因此直接搜索或者安装对应的程序来进行分析就好了。

Vaxign

该数据库是2009年第一次发表，2012年进行了更新，是一个可以对VF进行结构域分析，亚细胞定位分析的在线分析工具。

进入分析界面
分析网址：http://www.violinet.org/vaxign2/dynamic，因为是我们自己私人的数据分析，因此利用dynamic格式的数据分析。
提交数据
在选择文件处选择我们的文件（在上方指定自己的数据的格式）
选择我们的数据来源种属（G+/G-/Virus等）
选择分析的内容
选择是否包含Vaxign-ML分析（一种机器学习预测疫苗靶点的程序）
选择是否利用Vxitop分析（MHCI/II的表位预测）
写下邮箱提交
下载数据
分析时间较长，需要过夜，第二天下载即可，可供选择的格式有csv,excel,pdf
网页还会提供相应的筛选功能。

参考文献：
1.Prediction of Virulence Factors Using Bioinformatics Approaches
2.VFDB 2019: a comparative pathogenomic platform with an interactive web interface
3.Victors: a web-based knowledge base of virulence factors in human and animal pathogens