Title:PHR-search: a search framework for protein remote homology detection based on the predicted protein hierarchical relationships

期刊：Briefings in Bioinformatics

中科院分区/影像因子：一区、6.89

发表时间：2022.1.13

服务器：PHR-search web server

数据集：PHR-search web server

一、摘要

蛋白质远程同源性检测是蛋白质结构和功能预测最基本的研究工具之一。大多数用于蛋白质远程同源性检测的搜索方法是基于蛋白质结构分类扩展(SCOPe)基准进行评估的，但是这些方法忽略了查询蛋白质和候选蛋白质之间的不同层次结构关系。为了进一步提高蛋白质远程同源性检测的预测性能，提出了一种基于预测蛋白质层次关系的搜索框架(PHR-search)。在PHR-search框架中，通过卷积神经网络提取隐马尔可夫模型(HMM)的局部和全局特征来获得超家族级预测信息，并根据范围的层次关系将其转换为折叠级和类级预测信息。基于这些预测的蛋白质层次关系，使用过滤策略和重排序策略来构建PHR-search的两级搜索。实验结果表明，PHR-search框架通过采用HHblits、JackHMMER、PSI-BLAST、DELTA-BLAST和PSI-BLASTexB五种基本搜索方法获得了最佳的性能。

二、方法与数据集

基准数据集：SCOPe2.06 有28010个序列组织成4874个家族和2006个超家族

独立数据集：4129个蛋白质序列

方法：

PHR搜索框架

PHR-search的框架如图3所示。该框架包含三个主要模块:

1)基于三种HMM轮廓表示，构造多类卷积神经网络(PHR-CNN)；

2)根据PHR-CNN在范围内的层次结构关系和预测结果，构建超家族、折叠和类层次的预测信息。基于PHR-CNN的预测信息，计算三类相似度得分，增强对非同源蛋白质的区分能力；

3)利用基于PHR的相似性特征构建过滤策略和重排序策略

PHR搜索流程图。

查询蛋白质的序列。

PHR-CNN流程图：用于捕获HMM简档的局部到全局信息的卷积神经网络体系结构。

基于预测的蛋白质等级关系的构建相似性得分。

(D)PL-搜索方法[10]用于检测PHR-搜索框架的同源蛋白质。

(E)PHR-search的过滤策略，以减少PHR-search的第一级搜索中的非同源蛋白质的数量。

(F)PHR-search的重新排序策略，用于提高PHR-search的二级搜索的排序质量。

第二种表示是HMM profile的ACC特征矩阵，它是通过参数LG为2的改进的ACC特征提取算法将HMM profile转换成20∫40的特征矩阵而构建的。在该矩阵中，每行代表标准氨基酸和其他标准氨基酸之间的AC特征和CC特征的关联。这个特征矩阵的构造算法如算法1所示。

1. 基于HMM模型的三种表示

第一种表示是HMM profile的ACC特征向量，它是通过参数LG为2的ACC特征提取算法将HMM profile转换成1*800的特征向量而构建的。HMM的ACC特征可以表示为：

第三种表示是包含氨基酸突变概率和状态转移概率的HMM矩阵，它也是由HHblits构造的。该HMM矩阵可以表示为:

其中L表示所有蛋白质的长度设置为400，用于输入PHR-CNN；φI(A)–φI(Y)是20个标准氨基酸的突变概率，接下来的10行是HMM配置文件中的状态转移概率。

2.卷积神经网络体系结构

在本节中，构建了一个卷积神经网络，用于捕获HMM简档的局部到全局信息，称为PHRCNN(图3B)。PHR-CNN有三个输入:具有状态转移概率的HMM矩阵、HMM的ACC特征矩阵HMM简档的ACC特征向量。对于具有状态转移概率的HMM矩阵，使用TextCNN来捕获蛋白质序列的氨基酸之间的局部特征。与普通卷积神经网络相比，TextCNN使用了三种不同的卷积核来增强捕捉HMM矩阵局部信息的能力。根据参数LG为2的ACC特征提取算法的窗口大小，将三类卷积核的大小分别设置为k1 : [3，30]、k2 : [4，30]和k3 : [5，30]。在通过卷积核提取HMM矩阵的局部信息之后，局部特征可以表示为[30]:

在使用三种类型的卷积核提取局部信息后，最大池层用于提取局部信息表示中最重要的特征。

为了将蛋白质序列分为不同的超家族，构建了三个致密层和一个脱落层。前两个致密层的激活函数设置为Relu，最后一层的激活函数设置为Softmax，用于超家族分类。为了防止过拟合问题，在最后一层之前增加了一个dropout层。

1）基于预测的蛋白质等级关系构建特征

为了获得超家族级、折叠级和类级的预测特征，PHR-CNN在超家族级的预测结果根据SCOPe基准的层次结构进行了转换。基于PHR-CNN的预测信息有四个预测特征(PHRbased features)。

2）基于预测的蛋白质等级关系的相似性分数

在该部分中，基于基于PHR的特征(基于PHR的相似性得分)，使用三种类型的相似性计算方法来计算七个相似性特征。第一类相似度计算方法是通过PHRCNN的预测结果来判断蛋白质序列对是否属于同一个超家族。

3） PHR-search的过滤策略和重排序策略

在PHR-search框架中，PL-search [10]方法用于提供检测结果，因为它提高了基本方法对远距离同源蛋白质的检测能力。为了提高检测结果的排序质量，使用过滤策略和重排序策略来构建PHR-search框架的两级搜索。

4）过滤策略

PHR-search的检测结果由PLsearch的双链和profile-link相似度提供，但双链中的非同源蛋白直接严重影响PHR-search的排序质量。为了解决双链中非同源蛋白的影响，采用基于PHR的相似性特征对检测结果进行过滤。滤波算法如算法2所示。

5）重新排序策略

过滤策略后，PHRR1(q，pi)中检测结果的排序质量通过过滤非同源蛋白得到了提高，但phr 2(q，pi)的排序质量并不好。为了提高PHRR2(q，pi)的排序质量，LambdaMART算法[35]被用作重新排序策略。基于序列相似度矩阵？S2L-search的2L，一个具有基于PHR的相似性特征的序列相似性矩阵被构建作为LambdaMART的输入。具有基于PHR的相似性特征的序列相似性矩阵表示为:

3.评估

在本研究中，具有相同蛋白质超家族的蛋白质序列对被认为具有正确的同源关系，而不具有相同蛋白质超家族的被认为是非同源蛋白质。具有相同蛋白质家族的蛋白质序列对具有近同源关系，而具有相同超家族但不同家族的蛋白质序列对具有远同源关系。使用排序质量和检测到的同源蛋白质的数量来评估PHR-search框架的性能。对于排名质量，使用ROC1和ROC50分数。对于同源蛋白的检测数量，使用真阳性(TP)数和覆盖率。覆盖率表示在基准数据集中所有同源蛋白质中检测到的同源蛋白质的比例。与TP数相比，覆盖率避免了蛋白质超家族间数量差异带来的不平衡问题的影响。

为了评估PHR-search框架的性能，使用了SCOPe2.06基准数据集上的五重交叉验证和SCOPe2.07独立数据集上的独立测试[39–41]。因为基于PHR的相似性特征和由学习和排序模型[35]重新排序的结果是从5重交叉验证的预测结果中获得的，所以训练和测试过程是完全独立的[25]。结果和讨论PHR-search框架提高了五种基本搜索方法的性能为了探索用于蛋白质远程检测的PHRsearch框架的性能提高，将该框架应用于五种重要的搜索方法，包括HHblits [14]、JackHMMER [16]、PSI-BLAST [7]、DELTA-BLAST [11]和PSI-BLASTexB [13]。此外，为了证明PHRsearch框架的优势，将其与三个相关框架进行了比较，包括PL-search [10]、SMI-BLAST [24]和S2L-PSIBLAST [25]。将PHR-search框架应用于这些基本搜索方法后，它们的性能在ROC1方面提高了3–7 %(表1)。在基于PHR的方法中，PHR-HHblits在排序质量和检测到的同源蛋白数量方面获得了最好的性能。这意味着更好的基本方法导致更高的PHR搜索性能。对于PSI-BLAST的两个改进版本(DELTA-BLAST和PSI-BLASTexB)，它们的性能通过PHR-search框架得到了进一步的改进。这意味着PHRsearch框架和这两个改进版本是互补的。与基于PL的方法、基于SMI的方法和基于S2L的方法相比，PHR-search框架具有更好的性能和通用性。从图4和表1可以看出:1)除了SMI-BLAST框架和S2L-PSIBLAST框架改进的四个基本方法外，PHRsearch框架也被应用于HHblits，并取得了最好的性能；2)与S2LDELTABLAST相比，PHR-DELTABLAST在ROC1方面的性能进一步提高了2%

4.非同源蛋白质混合到双链中时PHR-search和S2L-search的性能比较

当非同源蛋白质序列混合到基于二级结构的搜索框架的一级搜索中时，它们的排序质量受到一级搜索性能的限制。为了提高基于两级结构的搜索框架的性能，在第一级搜索中过滤更多的非同源蛋白质序列是非常重要的。对于PHR-search和S2L-search，它们的一级搜索是通过过滤PL-search的doublelink得到的[10]。因此，当非同源蛋白质混合到它们的双链中时，比较PHR-search和S2L-search的性能。从图7A和https://academic.oup.com/bib,在线提供的补充表S2可以看出:1)经过PHR-search和S2Lsearch的过滤策略后，含有混合非同源蛋白的第一级结果的数量明显减少；2) PHR-search比S2Lsearch具有更强的过滤能力。对于这些在一级结果中含有混合非同源蛋白的序列，通过PHR-search和S2L-search，它们的性能明显提高(图7 b–F)。当非同源蛋白质混合到它们的双链中时，PHR-search的性能优于S2L-search，表明PHR-search的过滤策略和重排序策略更好。

5.PHR搜索框架下的序列相似性特征分析

在PHR-search框架中，使用22个序列相似性特征来构建序列相似性矩阵，以提高其排序质量。Ranklib2.1.0的FeatureManager工具计算了这些序列相似性特征对于PHR-search框架的重要性。在这22个序列相似性特征中，有14个特征已被S2L-PSIBLAST框架使用[25]。在本研究中，为了进一步提高性能，构建了8个序列相似性特征:1) 7个相似性特征基于基于phr的相似性得分；2)另一个由PHR-search框架的过滤列表和PL-search [10]的二级Jaccard距离构造，称为PHR2LJaccard相似性特征。

三、结果

PHR-search的独立测试

四、结论

在本研究中，我们提出了一个基于预测的蛋白质层次关系的搜索框架，以提高蛋白质远程同源性检测的性能。该框架有效地利用了HMM图谱中超家族的信息和预测的蛋白质层次关系，以获得更准确的两级搜索结果。在SCOPe benchmark上的实验结果表明，PHR-search增强了区分非同源蛋白质的能力，从而提高了排序质量。此外，PHR-search在成功应用于五种不同的基本搜索方法时，表现出很强的通用性。实验结果表明，基于预测的蛋白质层次关系构建序列相似性特征是提高蛋白质远程同源性检测性能的有效途径。

PHR-search:一个基于预测蛋白质层次关系的蛋白质远程同源性检测搜索框相关推荐

Windows下一个可与其他数据集控件结合的通用的搜索框GUSIconEdit
当初在两年多前开始做现在这个项目时,我们最初决定花长时间来升级现有的游戏引擎,包括服务器和客户端,我负责了一部分的客户端的功能升级和配套工具集的开发和升级,我们这套引擎的工具集包含工具比较多,每个工具 ...
代码的同源性检测：基于c语言实现的对代码的同源性检测详细教程
完整代码:https://download.csdn.net/download/qq_38735017/87382389 本次课程设计为了巩固上学期在软件安全课程上所学的安全知识,包括堆栈溢出.整数溢 ...
基于c语言实现的对代码的同源性检测
完整代码:https://download.csdn.net/download/qq_38735017/87382389 本次课程设计为了巩固上学期在软件安全课程上所学的安全知识,包括堆栈溢出.整数溢 ...
elastic search,又一个基于lucene的nosql好项目
elastic search,又一个基于lucene的nosql好项目 http://summersmile1984.i-branding.me/2011/03/31/elastic-search%E ...
GPLinker：基于GlobalPointer的实体关系联合抽取
©PaperWeekly 原创 · 作者 | 苏剑林单位 | 追一科技研究方向 | NLP.神经网络两年前,在百度的"2019 语言与智能技术竞赛"(下称 LIC2019)中 ...
机器学习 | 一个基于机器学习的简单小实践：波斯顿房价预测分析
本文采用Kaggle上面的Boston HousePrice数据集展示了如何建立机器学习模型的通常过程,包括以下几个阶段: 数据获取数据清洗探索性数据分析特征工程模型建立模型集成标签变量( ...
论文解读《STALLION：一个基于堆叠的原核赖氨酸乙酰化位点预测的集成学习框架》
期刊:Briefings in Bioinformatics 分区:二区摘要蛋白质翻译后修饰(PTM)是一种重要的调节机制,在正常和疾病状态中都发挥着关键作用.赖氨酸残基上的乙酰化是由于其在细胞代 ...
libsvm java下载_一个基于LIBSVM（JAVA）的股票预测demo
[实例简介] 一个基于LIBSVM的股票价格预测程序,采用随机森林算法对样本进行训练和预测,使用的编程语言为JAVA. [实例截图] [核心代码] stock-master └── stock-mas ...
GPS-Uber：一个用于预测一般和e3特异性赖氨酸泛素化位点的混合学习框架
文章链接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab574/6509047 DOI:10.10 ...
DeepEye：一个基于深度学习的程序化交易识别与分类方法
DeepEye:一个基于深度学习的程序化交易识别与分类方法徐广斌,张伟上海证券交易所资本市场研究所,上海 200120 上海证券交易所产品创新中心,上海 200120 摘要:基于沪市A股交 ...

PHR-search:一个基于预测蛋白质层次关系的蛋白质远程同源性检测搜索框