Predicting protein-peptide binding residues via interpretable deep learning

期刊:Bioinformatics
Web服务链接:https://server.wei-group.net/PepBCL/
Github代码:https://github.com/Ruheng-W/PepBCL
原文链接:链接

摘要

背景: 识别蛋白质-肽结合残基对理解蛋白质功能机制和探索药物发现至关重要,虽然已经开发了几种计算方法,但是它们在特征设计上高度依赖第三方工具或信息,容易导致计算效率低,预测性能不理想。
结果:
a)、作者提出了一种名为PepBCL的方法,该方法是基于Bert的对比学习框架, 从蛋白质序列出发来预测蛋白质-结合肽残基。具体而言,作者介绍以一种用于蛋白质特征表示的预训练模型,此外,设计了一个新的对比学习模块,用于优化不平衡数据集下的绑定残基特征表示。
b)、作者证明了模型的优越性能,此外,作者发现通过与传统特征相互整合,模型性能进一步提升,这突出了基于深度学习的蛋白质语言模型的灵活性和适应性。有趣的是,作者证明了与其他蛋白配体结合残基相比,局部序列区域的肽结合残基具有更具体的序列模式,这可能提供了功能差异。

数据

数据集a:包含1279条蛋白质-肽复合物,其中16749个绑定位点和290943个非绑定位点。 随机选取10%的复合物作为独立测试集,剩余作为训练集。其中,
独立测试集:125条蛋白质,1719个绑定位点,29151个非绑定位点。
训练集:1154条蛋白质,15030个绑定位点,261792个非绑定位点。

数据集b: 包含1279条蛋白质-肽复合物,其中16749个绑定位点,和290943个非绑定位点。为了训练,随机选取640条复合物用于训练,剩余部分用作独立测试。其中,
训练集:640条复合物,8259个绑定位点,和149103个非绑定位点。
独立测试集:剩余复合物,8490绑定位点,和141840非绑定位点。

方法


模型流程:序列首先进序列编码模块进行向量表征,紧接着通过Bert嵌入到高维,最后使用三层全连接层,使得预测输出。

序列编码模块:首先将氨基酸进行数值化处理,对于罕见的U,Z,O,B将统一替换成X。 在这部分,并没有将蛋白质序列进行填充,也就是序列长度并没有固定。其原因为,数据量不大,以及填充使得性能极度下降。然后通过查表方式嵌入至低维表示,这部分与Bert预训练模块联用,也就是说,嵌入模块的更新是和Bert预训练模型一块使用的,生成改进的初始嵌入。

Bert预训练模块
本篇文章中,作者使用ProtBert-BFD预训练模型,该模型是是在2021年在2.1亿条蛋白质序列上,使用MLM策略训练而得。

对比学习模块


模型总损失
总损失 = 样本交叉熵损失 + 对比损失

方法总结

a): 作者所提方法PepBCL是一种完全基于序列的预测方法,只使用蛋白质序列进行模型训练和预测。
b):引入了Bert
c): 引入了对比学习模块

实验板块

与现有方法对比


对比使用对比学习模块的差异


案例分析

随机选取了两种蛋白质,通过作者的模型与PepBind模型进行预测对比。

PepBCL对其他配体结合残基的鉴别能力

基于Bert的特征与传统特征实验对比

使用随机森林,对比序列特征、进化信息特征和结构特征这些传统特征与基于Bert的特征性能对比。

Bert注意力可视化

通过可解释的深度学习预测蛋白质-肽结合残基相关推荐

  1. DeepRMethylSite:一种基于深度学习的蛋白质精氨酸甲基化位点预测方法

    DeepRMethylSite:一种基于深度学习的蛋白质精氨酸甲基化位点预测方法 https://www.researchgate.net/publication/341890599_DeepRMet ...

  2. AI技术在气象领域应用方法:GFS数值模式的风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、深度学习预测浅水方程模式、LSTM方法预测ENSO、深度学习convLSTM

    查看原文>>>Python人工智能在气象中的应用 Python是功能强大.免费.开源,实现面向对象的编程语言,在数据处理.科学计算.数学建模.数据挖掘和数据可视化方面具备优异的性能, ...

  3. 【金融】【pytorch】使用深度学习预测期货收盘价涨跌——全连接神经网络模型构建与训练

    [金融][pytorch]使用深度学习预测期货收盘价涨跌--全连接神经网络模型构建与训练 模型构建与训练 模型构建与训练 def get_accuracy(SR,GT,threshold=0.5):S ...

  4. 【金融】【pytorch】使用深度学习预测期货收盘价涨跌——LSTM模型构建与训练

    [金融][pytorch]使用深度学习预测期货收盘价涨跌--LSTM模型构建与训练 LSTM 创建模型 模型训练 查看指标 LSTM 创建模型 指标函数参考<如何用keras/tf/pytorc ...

  5. 运用深度学习预测肺癌

    运用深度学习预测肺癌 原文:Forecasting Lung Cancer Diagnoses with Deep Learning 注:本文为The Data Science Bowl (DSB) ...

  6. 用深度学习预测世界杯胜率,有多大把握?

    四年一届的世界杯今天在战斗民族俄罗斯开幕! 迷足球的小伙伴们一定要开启通宵看球模式了 当然,除了看过程,结果想必也是球迷们关注的焦点 前有章鱼哥神算预测胜负,最近人工智能这么火,是不是也可以预测呢? ...

  7. FastRNABindR:快速准确预测蛋白质-RNA界面残基

    paper 单位:宾夕法尼亚州立大学 信息科学与技术学院 Abstract 广泛的生物学过程,包括基因表达的调节.蛋白质的合成以及许多病毒的复制和组装都是由RNA-蛋白质相互作用介导的.然而,蛋白质- ...

  8. 论文解读:《DeepSuccinylSite:基于深度学习的蛋白质琥珀酰化位点预测方法》

    论文解读:<DeepSuccinylSite:a deep learning based approach for protein succinylation site prediction&g ...

  9. 深度学习预测酶活性参数提升酶约束模型构建从头环境搭建

    前言 这项工作开发了一种用深度学习来预测酶活性参数的方法(DLKcat),主要采用了针对底物的图神经网络和针对蛋白质的卷积神经网络.通过从公开的数据库中获取和数据预处理,最终获得了超过一万六千条高质量 ...

最新文章

  1. Lintcode: Kth Smallest Number in Sorted Matrix
  2. 基本的SQL-SELECT语句
  3. 228. Summary Ranges
  4. 对永磁无刷电机的调速过程
  5. 数学建模学习笔记(十一)——预测模型
  6. android调用.Net WebService传递byte[]
  7. linux关闭mysql strict mode的方法介绍
  8. 学习笔记(1):uni-app实战社区交友类app开发-引入自定义图标库
  9. Facebook 又搞事,违反竞业协议被起诉,PyTorch 关键技术疑侵权
  10. HttpClient实现通过url下载文件
  11. 【GT】Assembler 源码解读及使用 !Cocos Creator!
  12. 指南|查询美国的关税清单
  13. 用Burg法估计AR模型的参数原理详解及matlab实现
  14. 联想小新Pro14 2023款和2022款区别
  15. python自动化接口_Python接口自动化——Web接口
  16. iOS开发 - 仿京东添加收货地址效果
  17. 驱动开发:运用VAD隐藏R3内存思路
  18. Redis缓存吊打面试官 25 问
  19. 试玩儿趣链的区块连平台
  20. MT2503D完整规格书,MT2503D daatsheet资料下载

热门文章

  1. 如何做到微信机器人不封号_微信怎么可以永不封号?有没有什么办法可以让微信永远不封号呢?...
  2. 获取微信公众号关注页面链接和历史文章链接
  3. 问题记录:BMap api is not loaded
  4. 倪光南院士:中国该对微软说“不”了
  5. thymeleaf 判断list是否为空 为null 是否有值
  6. cpython gil,CPython的线程与GIL
  7. 初识Java内存马检测
  8. Shell脚本 一键重启
  9. java按位异或运算_位运算(按位与、按位或、异或)
  10. 服务器网站卡住不动,网站打不开或网页只打开一半卡住不动?是dns的问题