1. 研究背景

RNA与蛋白质之间的相互作用在转录后的调节中起重大作用,因此需对RNA-蛋白质(RBP)之间的结合进行预测,但是实验手段的应用难以广泛开展。结构生物学实验只能检测某一个特定RNA与蛋白间的相互作用,而不能提供统计意义上的结合偏好的信息。而assay的方法可以提供结合的亲和力,但是没有办法抓住具体的结构上的结合构象的差异和细节。基于计算的手段由于具有高通量高效率的优点,正受到越来越多的重视。传统的计算手段通过从蛋白质氨基酸序列抽取特征来训练机器学习模型,因此预测精度低,而且预测的分辨率也只能局限于某个氨基酸是否是RNA结合位点。

沙特阿卜杜拉国王科技大学(KAUST)高欣课题组(http://sfb.kaust.edu.sa)与香港科技大学黄旭辉课题组和南方科技大学陈炜课题组合作,提出一种基于深度学习的RNA-蛋白质结合偏好的预测方法。该方法基于特征向量,将蛋白质表面结构的局部理化特性编码为高维度的输入向量,使用ResNet提取特征,最后利用多层分类器预测出蛋白质表面各点与RNA各种组分的结合偏好。

2. 方法

2. 1 数据预处理

高欣课题组使用Protein Data Bank (PDB)作为数据集。PDB中的数据含有蛋白质表面的空间拓扑信息,但是由于有些数据来自同源蛋白质,存在着数据冗余的问题,其会带来偏置,降低模型的泛化能力。

为了解决这一问题,他们将PDB聚类(每个类中的条目至少有90%的RNA重合),然后从每个类中选取最好分辨的一个结构;如果一个结构中又有多个相同的蛋白质/RNA链,那么截取最好分辨的RNA留下。

2. 2 使用FEATURE获得特征向量

斯坦福大学Russ Altman研发的FEATRURE框架不仅考虑物理和结构特性,还考虑到了每个原子周围空间的径向分布。其能够保留更大范围的细节信息,从输入晶格的三维原子分布感知出蛋白质表面的物理化学特征并转化为特征向量。

2.3 多层分类

NucleicNet预测每个蛋白质表面晶格的局部物化特性是否适合与RNA结合,如果适合还将给出结合偏好。这是个多分类监督学习问题,预测每个晶格可能与磷酸(P)、核糖(R)、腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)结合或该晶格为非结合点(X)。

然而,正样本中R和P的数量比碱基AUCG的数量多得多,简单的调用深度学习模型训练面临着样本不平衡问题。这里采用多层分类来缓解这一问题:第一层,晶格被分类为4个类,即碱基,核酸,磷酸,非结合点,输出一个标准化四分类评分向量;如果第一层结果为碱基,则调用第二层,碱基被分类为A/U/C/G,同样输出一个标准化四分类评分向量,如图1所示。

图1 多层分类

2.4 训练阶段

由于ResNet具有处理梯度消失问题的能力且能够较快地收敛,选择其作为NucleicNet的基本架构。模型中有十六个Res模块、一个全连接层和一个作为四分类器的SoftMax层,其中每个Res模块由两个卷积层组成。模型中采用ReLu为激活函数,cross-entropy为损失函数,Adam为优化器。

2.5 获得序列标识图

对于每个被预测为最可能和碱基结合的晶格,对其得到的SoftMax向量计算信息量。信息量的计算公式如下:

舍弃P、R和X,对进行AUCG的概率归一化,乘以信息量即可得到序列标识图。如图2,生成三种经典RBP进行预测并生成序列标识图。

图3 上半部分预测(a)FBF2(b)hAgo2(c)Aa-RNase III三种蛋白质的RNA结合偏好,下半部分为生成的序列标识图

2.6 对RNA序列进行评分

NucleicNet对每个蛋白质表面结构的预测结果可以被总结为公式Q。其可以用来对任意一个输入RNA序列进行评分,用于评价其和蛋白质结合的能力。

3. 结果

3.1 模型评估

首先,对分类结果进行评估。作者们使用蛋白质数据库(PDB)作为数据集进行训练,实验采用交叉验证对模型进行评估,将数据的2/3作为训练集,1/3作为测试集。训练集中,RNA组分与蛋白质表面距离小于等于5埃的晶格为的作为正样本,其他为负样本。使用AUROC和F-1评分对模型进行评估,如表1。

表1 模型对每个分类的AUROC和F1-score结果

其次,对生成的序列标识图和Q评分进行评估。NucleicNet生成的结果与具有高准确率的实验手段RNAcompete(RNAC)生成的结果进行对比。用两种方法生成(a) PABPC1, (b) PCBP2, (c) PTBP1, (d) RBFOX1, (e) SNRPA, (f) SRSF2, (g) TARDBP, and (h) U2AF2八种蛋白质的标识序列,将其进行比较,可以看到二者生成的序列标识图大体一致。根据RNAC的Z-score分别生成最可能和最不可能与每种蛋白质结合的10个RNA序列。将这些序列用NucleicNet进行评分,发现NucleicNet能够很好地区分开由RNAC的Z评分得到的10个最高分和10个最低分序列,如图3所示。

图3 NucleicNet与RNAC对八种蛋白质生成的序列标识图和评分

3.2 与其他模型的对比

由于其他模型仅仅具有二分类(结合点和非结合点)功能,作者们只比较二分类能力。晶格内至少有一个蛋白质原子与一个RNA原子距离小于3.5埃(或5埃)时,该晶格作为正样本。选用距离蛋白质形心最近的30个晶格的进行MCC评分,如图4所示。

图4 在3.5埃和5埃两个尺度的蛋白质片段中,计算不同模型的MCC,其中NucleicNet表现最佳

4. 结论

高欣课题组提出一种基于深度学习的RNA-蛋白质结合偏好预测方法-NucleicNet。该方法基于特征向量,将蛋白质表面结构的局部理化特性编码为高维度的输入向量,使用ResNet提取特征,最后利用多层分类器预测出蛋白质表面各点与RNA组分的结合偏好。实验结果显示其能有效预测RNA结合位点和结合偏好,在MCC的指标下优于目前最先进的模型。除此之外,对于已知的RNA结合蛋白(RBP),NucleicNet可以生成所结合的RNA的序列标识图并评估不同RNA序列与其结合的能力;对于其他的蛋白,NucleicNet可以预测其与RNA结合的可能性及结合位点,从而识别未知的RBP。

参考资料

Lam, J.H., Li, Y., Zhu, L. et al. A deep learning framework to predict binding preference of RNA constituents on protein surface. Nat Commun 10, 4941 (2019) doi:10.1038/s41467-019-12920-0

Nat. Commun | 预测RNA-蛋白质结合偏好的深度学习框架相关推荐

  1. Bioinformatics | 预测药物-药物相互作用的多模态深度学习框架

    今天给大家介绍来自华中农业大学信息学院章文教授课题组在Bioinformatics上发表的一篇关于预测药物与药物相互作用事件的文章.作者提出了一个多模态深度学习框架- DDIMDL.它将不同的药物特征 ...

  2. Bioinformatics | 预测药物相互作用的多模式深度学习框架

    今天给大家介绍华中农业大学信息学院章文教授课题组发表在Bioinformatics的一篇文章" A multimodal deep learning framework for predic ...

  3. Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架

    本次报道的论文来自清华大学的曾坚阳老师团队发表在nature communications上的A deep-learning framework for multi-level peptide–pro ...

  4. Nat. Commun. | 序列到功能的深度学习框架加速工程核糖调节剂设计和优化

    今天给大家介绍由哈佛大学和剑桥大学的研究人员联合发表在Nature Communications的一篇文章.由于对设计规则的理解有限,设计全新的生物回路组件仍然是一项具有挑战性的工作,支点开关(Toe ...

  5. 一种基于子序列的亚细胞定位预测的深度学习框架(DeepLncLoc: a deep learning frame work for long non-coding RNA subcellular)

    一种基于长链非编码RNA子序列的亚细胞定位预测的深度学习框架 期刊:biorxiv 文章地址:https://www.biorxiv.org/content/10.1101/2021.03.13.43 ...

  6. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  7. DeepFunc:一种深度学习框架,可根据蛋白质序列和相互作用准确预测蛋白质功能

    摘要 蛋白质功能的诠释对于从分子水平理解生命具有重要作用.高通量测序产生了大量的原始蛋白质序列,只有大约1%的蛋白质序列被人工标注了功能.函数的实验性注释是昂贵的.耗时的,并且跟不上序列号的快速增长. ...

  8. 论文解读:《多层肽 - 蛋白质相互作用预测的深度学习框架》

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

  9. 论文解读:多层肽 - 蛋白质相互作用预测的深度学习框架

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

最新文章

  1. 【观点】“另类”设计模式
  2. 用xlg.tel来管理自己
  3. VS在windows进行网络开发UDP(一)
  4. go语言用html桌面,Go语言实现简单的一个静态WEB服务器
  5. 网易模板html,163企业邮箱HTML网站模板
  6. leetcode(1)485——最大连续 1 的个数(C++)
  7. android java 调用js,Android中Java和JavaScript交互实例
  8. LeetCode 102. 二叉树的层次遍历(BFS)
  9. 清华发布新版计算机学科推荐学术会议和期刊列表,与CCF有何不同?
  10. EOS cleos --skip-transaction-signatures 跳过签名
  11. Maigo的KM算法讲解
  12. HTTPS重定向到HTTP
  13. FYI | OHBM/Brain 会议投稿指北
  14. 中国双酚F树脂市场趋势报告、技术动态创新及市场预测
  15. Git 基本操作(入职亲体验)
  16. 通用搜索引擎的垂直化倾向
  17. linux下c通过虚拟地址映射读写文件
  18. PowerPC PPC460-S MMU(三 Access Control)
  19. 西克推出LBR/LFR长距离非接触物位/液位传感器
  20. 封闭式基金本周折价率(20061110)[ZT]

热门文章

  1. MySQL基础篇:数据操作语言DML
  2. 某央企程序员炫耀:央企研发岗才是性价比天花板!955,不卷不裁,6险2金,500元单身公寓!...
  3. 是时候捋一捋Java的深浅拷贝了
  4. Redis 的 8 大数据类型,写得非常好!
  5. 原来10张图就可以搞懂分布式链路追踪系统原理
  6. 2次转管理失败后,我对项目、团队、敏捷转型的新认知
  7. UML科普文,一篇文章掌握14种UML图
  8. 用一个创业故事串起操作系统原理(三)
  9. 程序员的技能树,决定了一生职业的高度
  10. 用了10多年的 Tomcat 居然有bug,这能忍?