利用XGBoost特征选择和堆叠集成分类器提高蛋白质-蛋白质相互作用预测精度
文章目录
- 论文基本情况
- 一、论文创新点:
- 二、方法
- (一)、特征提取方法
- (二)、XGBoost特征选择
- (三)、叠迭分类器:
- 三、数据
- 四、实验结果
- (一)参数的确定(m=9)
- (二)、基分类器确定,元分类器比较
论文基本情况
- 期刊:《Computers in Biology and Medicine》
- 影响因子及中科院分区:IF: 3.434,中科院三区
- 发表日期:2020年7月
- 作者单位:青岛科技大学
- 代码地址: https://github.com/QUST-AIBBDRC/StackPPI/
- 原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0010482520302481
一、论文创新点:
- 提出了一种新的预测蛋白质-蛋白质相互作用的方法——StackPPI
- 融合PAAC、AD、AAC-PSSM、Bi-PSSM和CTD提取物理化学、进化和序列信息
- 采用XGBoost特征选择方法消除冗余,保留最优特征子集
- 首次利用RF、ET和LR构建了堆叠集成分类器。
二、方法
(一)、特征提取方法
- 伪氨基酸组成(PAAC)
- 自相关拓扑指数(AD:MoreanBroto, Moran, and Geary autocorrelation)
- ACC-PSSM和Bi-PSSM
- CTD(CTDC,CTDD,CTDT)
详情见代码
(二)、XGBoost特征选择
XGBoost是一种梯度提升决策树,它使用正则化学习和缓存感知块结构树学习进行集成学习。损失函数如下:
通过增益来确定最优的分裂节点:
XGBoost的特征重要性评分越高,说明相应的特征越重要,越有效,我们根据特征重要性的降序排序得到排名靠前的特征来表征ppi,取前300个重要的特征。
(三)、叠迭分类器:
堆叠集成分类器算法进行两阶段学习;第一阶段使用一个多分类器系统,第二阶段使用一个元分类器,编码序列、进化和衍生的物理化学性质特征,代表蛋白质对,作为数字载体和类别标签提供到第一个阶段。这产生了被元分类器用作输入的概率数据,然后将蛋白质对标记为“相互作用”或“非相互作用”。
- 两个RFs和两个极端随机化树作为基本分类器(数的数量为500,其他参数默认)。
- 在堆叠集成分类器的第二层,使用LR算法]作为元分类器(所有的参数默认)
算法步骤:
三、数据
训练集:
- 幽门螺杆菌( Helicobacter pylori),正负样本各位1458
- 酵母菌(Saccharomyces cerevisiae),正负样本各位5594
测试集:
- Homo sapiens,相互作用对数量为1412
- Mus. Musculus,相互作用对数量为313
- Caenorhabditis elegans,相互作用对数量为4013
- E. coli,相互作用对数量为6954
基因数据:
- Wnt-related pathway:96个作用对
- disease-specific:108个作用对
四、实验结果
(一)参数的确定(m=9)
(二)、基分类器确定,元分类器比较
利用XGBoost特征选择和堆叠集成分类器提高蛋白质-蛋白质相互作用预测精度相关推荐
- 利用边缘灰度变化建模,来提高圆环直径求取精度
简 介: 利用对所获得的圆环边缘亮度平均变化曲线,利用Sigmoid函数进行建模逼近,可以对原来经由HoughCircle所获得的半径进行补偿.对于利用扫描仪所获得的图片进行实际处理,可以看到它可以获 ...
- 提高bp神经网络预测精度,bp神经网络收敛速度慢
1.如何提高bp神经网络的预测精度啊 跟你的预测对象有很大关系. 1. 根据你的预测对象的特性选取合适的输入层.输出层和隐层神经元数目. 2. 选择合适的神经网络训练函数. 3. 保证足够的训练样本数 ...
- 集成学习算法的思想、通过集成学习提高整体泛化能力的前提条件、如何得到独立的分类器Bagging、Boosting、Stacking算法
集成学习算法 Ensemble learning algorithm 目的:让机器学习的效果更好,单个的分类器如果表现的好,那么能不能通过使用多个分类器使得分类效果更好呢?或者如果单个分类器分类效果不 ...
- 论文解读《STALLION:一个基于堆叠的原核赖氨酸乙酰化位点预测的集成学习框架》
期刊:Briefings in Bioinformatics 分区:二区 摘要 蛋白质翻译后修饰(PTM)是一种重要的调节机制,在正常和疾病状态中都发挥着关键作用.赖氨酸残基上的乙酰化是由于其在细胞代 ...
- 朴素Bayes组合-集成分类器
源码和论文: Github源码 论文已经发表.请多多指教. Markdown手稿 基于朴素 Bayes 组合的集成分类器 摘要 朴素Bayes分类器是一种简单有效的机器学习工具.本文用朴素Bayes分 ...
- 集成时间序列模型提高预测精度
使用Catboost从RNN.ARIMA和Prophet模型中提取信号进行预测 集成各种弱学习器可以提高预测精度,但是如果我们的模型已经很强大了,集成学习往往也能够起到锦上添花的作用.流行的机器学习库 ...
- ML之xgboost:利用xgboost算法对Boston(波士顿房价)数据集【特征列分段→独热编码】进行回归预测(房价预测)+预测新数据得分
ML之xgboost:利用xgboost算法对Boston(波士顿房价)数据集[特征列分段→独热编码]进行回归预测(房价预测)+预测新数据得分 导读 对Boston(波士顿房价)数据集进行特征工程,分 ...
- bagging通过bootstrap构建集成分类器
集成学习是将不同分类器组合成为一个元分类器,元分类器与其包含的当个分类器相比,元分类器具有更好的泛化性能. 一.bagging集成分类器 bagging没有使用相同的训练集拟合集成分类器中的单个成员分 ...
- 利用XGBoost、Information Value、SHAP寻找“小北极星“指标与分层处理
利用XGBoost.Information Value.SHAP寻找"小北极星"指标与分层处理 前言 "小北极星"指标 Information Value(IV ...
最新文章
- 一个基于POI的通用excel导入导出工具类的简单实现及使用方法
- arcgis Manager 登陆时提示Incorrect login Information
- 问题 H: 方块填数(2012年蓝桥决赛第5题--dfs)
- 【theano-windows】学习笔记二——theano中的函数和共享参数
- 手把手教你如下在Linux下如何写一个C语言代码,编译并运行
- php json.parse,JSON.parse()与JSON.stringify()和eval()使用方法详解
- 您将在下一个项目中使用JSF吗?
- 格式化时间格式LocalDateTime转String日期
- vue修改代码同步页面_vue实现两个组件之间数据共享和修改操作
- 【Maven篇】---解决Maven线上部署java.lang.ClassNotFoundException和no main manifest attribute解决方法...
- 汽车电子_EMC测试_RE试验整改
- wdr7660虚拟服务器设置,TP-Link TL-WDR7660路由器密码设置
- 计算机专业助我成长作文600,梦想助我成长作文600字
- HTML函数多个条件并列,countifs多个并列条件(countifs同一列2个条件
- 读书的意义—献给第19个世界读书日
- VB.NET读取Excel数据在CAD上展图
- htmldd隐藏,如何在隐藏“dd”后隐藏“dd”
- 实战:618/双11大促备战全流程点点滴滴
- Node安装以及cnpm安装
- 基于指数平滑模型与ARIMA模型在苹果股价的预测应用