~Title:AMYPred‑FRL is a novel approach for accurate prediction of amyloid proteins by using feature representation learning

期刊:Scientific Reports

分区:3区

影响因子:4.996

1 摘要

淀粉样蛋白具有形成不溶性原纤维聚集体的能力,该聚集体在许多组织中具有重要的致病作用。这种淀粉样变性病与常见疾病如二型糖尿病、阿尔茨海默病和帕金森病显著相关。淀粉样蛋白有很多种类型,有些蛋白在错误折叠状态下会形成淀粉样聚集体。很难识别这种淀粉样蛋白及其致病特性,但一种新的有效方法是通过开发有效的生物信息学工具。虽然已经提出了几种基于机器学习(ML)的模型用于淀粉样蛋白的计算机识别,但是它们的预测性能是有限的。在这项研究中,我们提出了Amy pred-FRL,一种新的元预测器,它使用特征表示学习方法来实现更准确的淀粉样蛋白识别。Amy pred-FRL将六种众所周知的最大似然算法(极端随机化树、极端梯度提升、k-最近邻、逻辑回归、随机森林和支持向量机)与十种不同的基于序列的特征描述符相结合,生成60种概率特征(PFs ),而不是由单一基于特征的方法开发的最先进的方法。为了提高预测性能,使用逻辑回归递归特征消除(LR-RFE)方法来寻找60 PFs的最佳m数。最后,使用meta-predictor方法,将20个选择的PFs输入到逻辑回归方法中,以创建最终的混合模型(Amy pred-FRL)。交叉验证和独立测试均显示,Amy pred FRL的预测性能优于其组成基线模型。在一项广泛的独立测试中,Amy pred-FRL分别比现有方法高出5.5%和16.1%,准确性和MCC分别为0.873和0.710。为了加快高通量预测,用户友好的Amy pred-FRL网络服务器可从http:// pmlab stack. pytho nanyw here. com/ AMYPr ed‑ FRL免费获得。

2 数据集

my数据集随机分为训练数据集和独立数据集。这产生了分别由(132个Amy和305个非Amy)和(33个Amy和77个非Amy)组成的训练和独立数据集。

3 方法

AMYPred-FRL开发的示意流程图。它包括数据集构建、特征提取、基线模型构建和最终的元模型开发。

3.1 特征提取

十种不同功能编码及其相应描述和尺寸的摘要.

10种特征编码:AAC、APAAC、CTDC、CTDD、CTDT、CTriad、DPC、DDE、GAAC和KSCTriatd

6种不同的机器学习算法:ET、KNN、LR、RF、SVM和XGBoost

4 结果

在本节中,我们通过执行十倍交叉验证和独立测试,调查和评估了使用十种不同的特征编码(AAC、APAAC、CTDC、CTDD、CTDT、CTriad、DPC、DDE、GAAC和KSCTriatd)和六种不同的ML算法(ET、KNN、LR、RF、SVM和XGB)训练的不同基线模型的预测性能。它们的交叉验证和独立测试结果分别在S3、S4和图2的补充表格中提供和可视化。从补充表中可以看出,S3、AAC、APAAC、CTDC、CTDD、CTDT、CTraid、DDE、DPC、GAAC和KSCTraid显示了(0.778、0.396)、(0.822、0.564)、(0.734、0.281)、(0.808、0.519)、(0.745、0.300)、(0.786、0.455)两个绩效指标(ACC、MCC)的平均交叉验证结果从这十种不同的特征编码中,注意到有四种有益的特征描述符用于AMY识别,包括APAAC、CTDD、KCTraid和CTraid,它们能够实现大于0.4的平均MCC值。特别地,APAAC、CTDD、KCTraid和CTraid特征描述符被用作LR、ET、RF和RF分类器的开发的输入,这些分类器被发现产生最高的交叉验证结果,如通过分别为(0.833,0.606)、(0.842,0.610)、(0.808,0.519)和(0.810,0.522)的两个性能度量(ACC,MCC)所评估的。

我们还研究了60个基线模型的预测性能,以确定AMY识别的最佳性能。从图2和S4 S3的补充表格中,几个重要的观察结果可以总结如下。首先,交叉验证MCC排名最高的十个基线模型如下:ET-CTDD、LR-APAAC、ET-APAAC、LR-DDE、RF-CTDD、SVM-DDE、XGB-APAAC、SVM-DPC、XGB-CTDD和RF-APAAC。值得注意的是,十个顶级基线模型中有七个是从APAAC和CTDD开发的,这再次证实了它们在AMY鉴定中的重要性。其次,十个顶级基线模型中的六个是使用基于树的集成算法(RF、ET和XGB)开发的。在十个排名靠前的基线模型中,基于RF、基于ET和基于XGB的分类器在0.815-0.842的范围内获得了良好的ACC,而基于LR的分类器获得了0.833的ACC,与这些基于树的分类器相当。第三,发现ET-CTDD是从交叉验证和独立性能(ACC,MCC)分别为(0.842,0.610)和(0.855,0.660)获得的最佳基线模型。

独立测试结果

6种算法的比较

5 结论

淀粉样蛋白的鉴定对于加速药物开发过程以及帮助理解它们的功能特性是至关重要的。很少有人提出淀粉样蛋白鉴定的计算方法。这些模型使用不同的方法来识别淀粉样蛋白,因此可以一起使用,但是似乎还没有开发出可以有效地整合不同模型以开发混合模型的计算方法,该混合模型可以实现相对于单个基于特征的方法的高模型性能。因此,在这项研究中,我们开发了AMYPred-FRL作为一种新的机器学习元预测器,通过使用FRL方法来准确识别淀粉样蛋白。特别是,AMYPred-FRL利用了10种不同的特征编码(AAC、APAAC、CTDC、CTDD、CTDT、CTriad、DPC、DDE、GAAC和KSCTriad ),这些特征编码是从三个不同的方面(组成信息、组成-转变-分布信息和物理化学性质)得出的,随后由六种著名的ML算法(ET、KNN、LR、RF、SVM和XGB)建模。一系列的对比实验表明,AMYPred-FRL可以获得比其组成基线模型和最先进的方法(RFA淀粉样蛋白和iAMY-SCM)更好的性能,正如在独立测试中评估的那样,从而突出了它的有效性和概括能力。

论文解读:《Amy pred-FRL是一种通过使用特征表示学习来精确预测淀粉样蛋白的新方法》相关推荐

  1. 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)

    最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...

  2. CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:PCT: Point cloud tra ...

  3. PCT: Point Cloud Transformer

    PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...

  4. FastFormers 论文解读:可以使Transformer 在CPU上的推理速度提高233倍

    自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...

  5. Point Cloud Transformer(PCT)代码实现

    Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...

  6. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  7. Point Cloud Transformer(PCT)阅读翻译

    PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...

  8. 论文阅读 PCT:Point Cloud Transformer

    论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...

  9. AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

    摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...

  10. 论文解读:《功能基因组学transformer模型的可解释性》

    论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...

最新文章

  1. PPP协议详解(转载)
  2. python经典题库和答案_吐血总结,Python经典面试题及答案
  3. 系统管理员必学的30个Linux实用命令
  4. 为什么不推荐正沿+lockup+负沿的scan chain?
  5. 写代码之前应该做的几件事
  6. Ocelot简易教程(二)之快速开始2
  7. ApacheCN Vue 译文集 20211115 更新
  8. 户外lisp导向牌如何安装_深圳医院导向标识牌制作按功能可分为哪些?
  9. 移动端APP扁平化UI设计解析
  10. dhcp获取i需要trunk_Cisco三层交换上给不同Vlan配置不同的DHCP
  11. WiseCloud成为全球首批Kubernetes官方认证平台产品-睿云智合
  12. 进程和线程的主要区别
  13. opencv Rect函数裁剪图片
  14. 计算机应用数值换算,单位换算计算器完整版
  15. python识别图像中的文字
  16. 4 基于pyecharts的python数据可视化——散点图和折线图的绘制
  17. jQuery漂浮横幅图片广告代码
  18. 计算机领域新技术的工作原理,七年级信息技术上册 第4课《计算机系统及其工作原理》教学案 新人教版...
  19. 【English】二、It作为代词,可以代指什么
  20. Release版本发行说明

热门文章

  1. 如何编写和精灵宝可梦一样的 app?
  2. 正版服务器,MC原版服务器搭建教程
  3. 解决Ubuntu apt安装时连接超时Connection timed out [IP: 2001:67c:1562::16 80]
  4. symbian与uiq开发教程[完整版]
  5. Python如何实现将四位数字组合成一个不重复的三位数,for循环暴力解法
  6. 靴子落地!门罗第二次算法升级已经确定
  7. 怎么给二年级小学生讲鸡兔同笼问题
  8. 基于stm32的两轮自平衡小车1(模块选型篇)
  9. 包载信使RNA(mRNA)的虫草多糖脂质体|冬虫夏草多糖脂质体包载小干扰RNA(siRNA)
  10. 淘宝系App图片为什么在北京电信网络加载这么慢?