文章目录

  • 论文基本情况
  • 一、论文创新点:
  • 二、方法
  • (一)、特征提取方法
  • (二)、XGBoost特征选择
  • (三)、叠迭分类器:
  • 三、数据
  • 四、实验结果
  • (一)参数的确定(m=9)
  • (二)、基分类器确定,元分类器比较

论文基本情况

  • 期刊:《Computers in Biology and Medicine》
  • 影响因子及中科院分区:IF: 3.434,中科院三区
  • 发表日期:2020年7月
  • 作者单位:青岛科技大学
  • 代码地址: https://github.com/QUST-AIBBDRC/StackPPI/
  • 原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0010482520302481

一、论文创新点:

  • 提出了一种新的预测蛋白质-蛋白质相互作用的方法——StackPPI
  • 融合PAAC、AD、AAC-PSSM、Bi-PSSM和CTD提取物理化学、进化和序列信息
  • 采用XGBoost特征选择方法消除冗余,保留最优特征子集
  • 首次利用RF、ET和LR构建了堆叠集成分类器。

二、方法

(一)、特征提取方法

  1. 伪氨基酸组成(PAAC)
  2. 自相关拓扑指数(AD:MoreanBroto, Moran, and Geary autocorrelation)
  3. ACC-PSSM和Bi-PSSM
  4. CTD(CTDC,CTDD,CTDT)
    详情见代码

(二)、XGBoost特征选择

XGBoost是一种梯度提升决策树,它使用正则化学习和缓存感知块结构树学习进行集成学习。损失函数如下:

通过增益来确定最优的分裂节点:

XGBoost的特征重要性评分越高,说明相应的特征越重要,越有效,我们根据特征重要性的降序排序得到排名靠前的特征来表征ppi,取前300个重要的特征。

(三)、叠迭分类器:

堆叠集成分类器算法进行两阶段学习;第一阶段使用一个多分类器系统,第二阶段使用一个元分类器,编码序列、进化和衍生的物理化学性质特征,代表蛋白质对,作为数字载体和类别标签提供到第一个阶段。这产生了被元分类器用作输入的概率数据,然后将蛋白质对标记为“相互作用”或“非相互作用”。

  • 两个RFs和两个极端随机化树作为基本分类器(数的数量为500,其他参数默认)。
  • 在堆叠集成分类器的第二层,使用LR算法]作为元分类器(所有的参数默认)
    算法步骤:

三、数据

训练集:

  • 幽门螺杆菌( Helicobacter pylori),正负样本各位1458
  • 酵母菌(Saccharomyces cerevisiae),正负样本各位5594

测试集:

  • Homo sapiens,相互作用对数量为1412
  • Mus. Musculus,相互作用对数量为313
  • Caenorhabditis elegans,相互作用对数量为4013
  • E. coli,相互作用对数量为6954

基因数据:

  • Wnt-related pathway:96个作用对
  • disease-specific:108个作用对

四、实验结果

(一)参数的确定(m=9)

(二)、基分类器确定,元分类器比较

利用XGBoost特征选择和堆叠集成分类器提高蛋白质-蛋白质相互作用预测精度相关推荐

  1. 利用边缘灰度变化建模,来提高圆环直径求取精度

    简 介: 利用对所获得的圆环边缘亮度平均变化曲线,利用Sigmoid函数进行建模逼近,可以对原来经由HoughCircle所获得的半径进行补偿.对于利用扫描仪所获得的图片进行实际处理,可以看到它可以获 ...

  2. 提高bp神经网络预测精度,bp神经网络收敛速度慢

    1.如何提高bp神经网络的预测精度啊 跟你的预测对象有很大关系. 1. 根据你的预测对象的特性选取合适的输入层.输出层和隐层神经元数目. 2. 选择合适的神经网络训练函数. 3. 保证足够的训练样本数 ...

  3. 集成学习算法的思想、通过集成学习提高整体泛化能力的前提条件、如何得到独立的分类器Bagging、Boosting、Stacking算法

    集成学习算法 Ensemble learning algorithm 目的:让机器学习的效果更好,单个的分类器如果表现的好,那么能不能通过使用多个分类器使得分类效果更好呢?或者如果单个分类器分类效果不 ...

  4. 论文解读《STALLION:一个基于堆叠的原核赖氨酸乙酰化位点预测的集成学习框架》

    期刊:Briefings in Bioinformatics 分区:二区 摘要 蛋白质翻译后修饰(PTM)是一种重要的调节机制,在正常和疾病状态中都发挥着关键作用.赖氨酸残基上的乙酰化是由于其在细胞代 ...

  5. 朴素Bayes组合-集成分类器

    源码和论文: Github源码 论文已经发表.请多多指教. Markdown手稿 基于朴素 Bayes 组合的集成分类器 摘要 朴素Bayes分类器是一种简单有效的机器学习工具.本文用朴素Bayes分 ...

  6. 集成时间序列模型提高预测精度

    使用Catboost从RNN.ARIMA和Prophet模型中提取信号进行预测 集成各种弱学习器可以提高预测精度,但是如果我们的模型已经很强大了,集成学习往往也能够起到锦上添花的作用.流行的机器学习库 ...

  7. ML之xgboost:利用xgboost算法对Boston(波士顿房价)数据集【特征列分段→独热编码】进行回归预测(房价预测)+预测新数据得分

    ML之xgboost:利用xgboost算法对Boston(波士顿房价)数据集[特征列分段→独热编码]进行回归预测(房价预测)+预测新数据得分 导读 对Boston(波士顿房价)数据集进行特征工程,分 ...

  8. bagging通过bootstrap构建集成分类器

    集成学习是将不同分类器组合成为一个元分类器,元分类器与其包含的当个分类器相比,元分类器具有更好的泛化性能. 一.bagging集成分类器 bagging没有使用相同的训练集拟合集成分类器中的单个成员分 ...

  9. 利用XGBoost、Information Value、SHAP寻找“小北极星“指标与分层处理

    利用XGBoost.Information Value.SHAP寻找"小北极星"指标与分层处理 前言 "小北极星"指标 Information Value(IV ...

最新文章

  1. 一个基于POI的通用excel导入导出工具类的简单实现及使用方法
  2. arcgis Manager 登陆时提示Incorrect login Information
  3. 问题 H: 方块填数(2012年蓝桥决赛第5题--dfs)
  4. 【theano-windows】学习笔记二——theano中的函数和共享参数
  5. 手把手教你如下在Linux下如何写一个C语言代码,编译并运行
  6. php json.parse,JSON.parse()与JSON.stringify()和eval()使用方法详解
  7. 您将在下一个项目中使用JSF吗?
  8. 格式化时间格式LocalDateTime转String日期
  9. vue修改代码同步页面_vue实现两个组件之间数据共享和修改操作
  10. 【Maven篇】---解决Maven线上部署java.lang.ClassNotFoundException和no main manifest attribute解决方法...
  11. 汽车电子_EMC测试_RE试验整改
  12. wdr7660虚拟服务器设置,TP-Link TL-WDR7660路由器密码设置
  13. 计算机专业助我成长作文600,梦想助我成长作文600字
  14. HTML函数多个条件并列,countifs多个并列条件(countifs同一列2个条件
  15. 读书的意义—献给第19个世界读书日
  16. VB.NET读取Excel数据在CAD上展图
  17. htmldd隐藏,如何在隐藏“dd”后隐藏“dd”
  18. 实战:618/双11大促备战全流程点点滴滴
  19. Node安装以及cnpm安装
  20. 基于指数平滑模型与ARIMA模型在苹果股价的预测应用

热门文章

  1. 黑马NLP实战 --- 新闻分类模型训练
  2. python的flask框架实现的小型二手商城
  3. timer控件自动停止问题
  4. AspectJ AOP的使用(@Before、@PointCut、@Around等)
  5. Oracle性能优化专题
  6. 大数据营销模型思路架构
  7. 月份, 星期的英语简写
  8. js文件中引入js的方法
  9. 常见电脑显示器分辨率及其比例
  10. 笔记本电脑怎么启用c语言,win7笔记本启动0xc000014c信息,如何解决的教程