作者:中南大学李敏团队

发表期刊:Bioinformatics

时间:2019.9.4

0 写在前面的疑惑

1)如果一个氨基酸的绝对溶剂可及性<1A2,则被定义为相互作用位点,否则不是。A2

具体怎么解释,查看资料只是说的长度单位。

2)不明白文中提出的RSA分数和极性以及蛋白质序列长度等信息的作用。

3)batch size 设置为64,一般这个根据什么设置?

4)蛋白质序列的长度设置为500,文章最后提到本模型擅长预测长长度蛋白质,根据文章Table 1,文章400多序列中,长度在500以上的只有14个,这是500算长算短?

1 动机

蛋白质-蛋白质相互作用(PPIs)在许多生物过程中起着重要作用。用于鉴定PPI位点的常规生物学实验既昂贵又耗时。因此,已经提出了许多计算方法来预测PPI位点。现有的计算方法通常使用局部上下文特征来预测PPI位点。实际上,蛋白质序列的全局特征对于PPI位点预测至关重要。

2 贡献

1)结合局部上下文和全局序列特征,提出了一种新的端到端深度学习框架DeepPPISP。

2)对于局部上下文特征,我们使用滑动窗口来捕捉目标氨基酸的邻居的特征,就像以前的研究一样;对于全局序列特征,采用文本卷积神经网络从整个蛋白质序列中提取特征。然后结合局部上下文和全局序列特征来预测PPI位点。

3 模型与算法

3.1 数据

1)实验的数据取自:

Dset_186是从PDB数据库中构建的,由186个蛋白质序列组成

Dset_72由72个蛋白质序列

PDBset_164由164个蛋白质序列组成

注:以上数据库分辨率< 3.0A2,序列同源性< 25%。虽然三个数据集中的这些蛋白质序列没有重复,但三个数据集来自不同的研究组。为了确保训练集和测试集来自相同的分布,作者将三个数据集集成为一个融合数据集。

(补:同源性的知识 https://jingyan.baidu.com/article/359911f5bfe45257fe030613.html)

2)训练集测试集占比

融合后的数据集分为训练集(约占随机选择的蛋白质序列的83.3%)和测试集(剩余的蛋白质序列),以达到充分利用这些蛋白质序列来训练深度学习模型的目的。

最终训练集中有350个蛋白质序列(独立验证集中有50个蛋白质),而测试集中有70个蛋白质序列。

此处需要说明,1)部分的蛋白质序列加起来是422,但是由于其中蛋白质二级结构的定义(DSSP)文件,所以最终得到的标注蛋白质序列只有420。

3.2 输入特征

1)特定位置评分矩阵(PSSM)中的进化信息已被证明在PPI位点预测中是有效的。每个氨基酸都被编码成一个含有20个元素的载体,代表20个氨基酸出现在这个位置的概率。

2)前八个维度表示每个氨基酸的二级结构状态,最后一个维度表示没有关于二级结构状态的信息—>9D

3)原蛋白序列能够准确地表示各氨基酸及其位置。大多数蛋白质由20种不同的氨基酸组成。因此,我们使用一个20D单热载体来编码蛋白质中的氨基酸类型。

综上得到了49D的特征向量。

3.3 评价标准

本研究使用了六个评估指标:准确性(ACC)、精确性、召回率、F-measure、特征曲线下的面积(AUC)、精确性-召回率曲线下的面积(auPR)和Matthews相关系数(MCC)  (7个?不太明白。文章正文没有比到AUC,但是在补充材料里有涉及ROC)

3.4 文章的其他参数

1)滑动窗口的长度被设置为7

2)蛋白质序列的长度设置为500

3)batch size 64

4)learning rate = 0.001

5)dropout rate = 0.2

6)FC1 = 1024;FC2 = 256

3.5 文章模型

4 实验结果

1)与其他算法的比较

尽管DeepPPISP的准确性和召回率分别低于ISIS和SPRINGS,但其他评估指标高于其他竞争方法。DeepPPISP获得的精度、F-measure和MCC要高于其他算法。

注:PPI位点预测是一个不平衡的学习问题,因此我们更加关注F-measure和MCC

2)全局序列特征的影响

通过结合局部文本特征和全局序列特征,可以获得比仅使用局部文本特征更好的性能(F-measure高约4%,MCC高9%),这体现了全局序列特征的优势。

此外还证明了全局序列特征向量长度与局部文本特征向量长度比例为2:1时性能最好。

3)滑动窗口长度的影响

采用不同长度的滑动窗(7、9、11、13、15)来观察DeepPPISP的性能。从Supplementary Table S7的结果可以看出,当滑动窗的长度为7(最佳F-measure和MCC)时,性能最好。

4)不同蛋白质长度的影响

研究了蛋白质长度是否对分类结果有影响。在我们的数据集中,蛋白质长度从39到869不等,62.1%的蛋白质长度是200个氨基酸。从补充图S6中可以看出,短长度蛋白的预测结果始终高于长长度蛋白的预测结果。说明本模型擅长预测短长度蛋白而不擅长预测长长度蛋白,这是DeepPPISP的主要局限性。

5 总结

本研究中,提出了一个深度学习框架DeepPPISP,用于预测残留水平的PPI位点。

DeepPPISP与其他现有方法的区别在于,它结合了从蛋白质序列中提取的局部和全局特征,利用深度神经网络来预测PPI位点。深度学习技术已经被证明可以捕获输入数据的有效特征。DeepPPISP使用TextCNN来捕获全局序列特征,这允许轻松建模一个目标氨基酸和整个蛋白质序列之间的关系。

结果表明,DeepPPISP改进了PPI位点预测,优于现有的竞争方法。此外,我们的结果表明,蛋白质序列的全局特征有助于改进对PPI位点的预测。

虽然DeepPPISP被证明比其他竞争方法有优势,但它也有一些局限性。第一个是速度慢。生成序列概况(PSSM和DSSP文件)和运行TextCNN获取模型中蛋白质序列的全局序列特征需要花费大量的时间。第二,DeepPPISP并不擅长预测长长度蛋白序列。

Protein-protein interaction site prediction through combining local and global features 文章梳理相关推荐

  1. 论文笔记:Protein-protein interaction site prediction through combining local and global features

    文章目录 一.论文基本情况 二.前言 三.数据 (一)训练集和测试集 (二)特征 四.方法 (一)局部特征 (二)全局特征 (三)文本卷积神经网络(TextCNN) 五.模型的应用域(AD) (二). ...

  2. DELG:Unifying Deep Local and Global Features for Image Search论文代码复现

    前言 之前在研究图像检索的过程中,在网上看了一些资料,发现许多方法的检索结果并不是非常适合我的数据集,于是在翻看论文的时候看到了*<Large-Scale Image Retrieval wit ...

  3. Structure-aware protein-protein interaction site prediction using deep graph convolutional network

    Briefings in Bioinformatics 论文解析 现状问题:These methods are mostly based on neighbored features in seque ...

  4. 2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom

    2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom ...

  5. SybilFuse:Combining Local Attributes with Global Structure to Perform Robust Sybil Detect(论文笔记)

    SybilFuse:Combining Local Attributes withGlobal Structure to Perform Robust Sybil Detection 1. 输入数据 ...

  6. [TPAMI-2023] Effective Local and Global Search for Fast Long-Term Tracking

    论文阅读 [TPAMI-2023] Effective Local and Global Search for Fast Long-Term Tracking 论文搜索(studyai.com) 搜索 ...

  7. StNet: Local and Global spatial-temporal modeling for action regcognition

    StNet: Local and Global spatial-temporal modeling for action regcognition 摘要:静态图像理解上取得了成功,高效的视频时序以及空 ...

  8. MikuMikuDance中对于Local和Global旋转方式的特殊处理

    我们的 萌梦动作编辑器对标的是国外的MikuMikuDance(以下简称MMD).这里我们在制作骨骼动画功能的时候,发现MikuMikuDance中对于不同骨骼中Local以及Global旋转方式的处 ...

  9. 67——Stepwise Feature Fusion: Local Guides Global

    [1] Wang J ,  Huang Q ,  Tang F , et al. Stepwise Feature Fusion: Local Guides Global[J]. MICCI, 202 ...

最新文章

  1. Flutter框架分析(五)-- 动画
  2. 极大似然估计_极大似然估计、极大后验估计和贝叶斯估计
  3. 什么?IP协议是什么你竟然不了解,那还不快快点进来!
  4. 业务赋能利器之外卖特征档案
  5. mysql8.0.15免安装版配置_Win10配置MySQL8.0.15免安装版教程
  6. 测试对于list的sort与sorted的效率
  7. OCRKit Pro for mac (OCR文字识别工具)
  8. js一键批量打印_JS 实现选中内容批量打印/导出
  9. 教你如何下载抖音视频的背景音乐?是音乐不是视频哦
  10. Roslyn 入门:使用 Roslyn 静态分析现有项目中的代码
  11. 【参赛作品22】华为openGauss数据库行存储源代码解析
  12. Math类常用方法大全
  13. vue3.0 ts版项目配置axios
  14. 你有多久没有看过星星
  15. 计算机类博士多少年,弗吉尼亚大学博士几年?
  16. Dapper - 论文 中文版 大规模分布式系统的跟踪系统
  17. 200 OK (from cache) 与 304 Not Modified
  18. 清华学生告诉你什么是清华!
  19. Android中LocalSocket(套接字)使用
  20. python3 aes解密

热门文章

  1. 3分钟掌握7个XD基础操作
  2. ROS系统学习5---OpenCV的使用
  3. [译] Kotlin Flow 官方 Guide 指南(2021-06-13)翻译
  4. rx590 黑苹果 无货_国考报名过审人数超85万,苹果iPhone 12开售排队
  5. 关于uniapp cheneckbox复选框不显示对号的问题
  6. 一起用Python做个上课点名器,好玩又实用!
  7. 蓝桥杯训练 日期计算
  8. 计算机中imb二进制数,计算机基础知识总述.doc
  9. rm -rf 删除文件 恢复
  10. 软件企业管理——无为而无不为