本博文基于《Amalgamation of protein sequence, structure and textual information for improving protein-protein interaction identification》这篇文章进行讲解,该文章发表在2020的ACL上,作者是印度理工学院计算机科学与工程系的两个研究生,主要的工作是构建了一个PPI的数据集,包括文本,基因序列和蛋白结构这三种模态。另外,作者还构建了一个模型去处理这三种模态的数据,然后预测PPI。最后,作者通过大量实验证明自己构建模型的有效性。

一、任务背景

了解蛋白质间相互作用(PPI)对于理解不同的生物学过程如翻译,蛋白质功能,基因功能,代谢途径等等是至关重要的。PPI信息可帮助研究人员发现疾病的机制,并在设计治疗药物方面发挥重要作用。多年来,大量蛋白质-蛋白质相互作用信息已经以非结构化文本格式发表在科学文献中。而最近几年,生物医学出版物的数量呈指数增长。因此,研究者迫切需要开发一种智能信息提取系统来帮助生物学家管理和维护PPI数据库,这种迫切的需求促使生物医学自然语言处理(BioNLP)研究人员通过探索各种AI技术来自动提取PPI信息。与传统的基于单模态的模型相比,结合多种模态信息的深度学习模型显示出更好的结果,同时解决了各种NLP任务,例如情感识别,自然语言生成,图像字幕,机器翻译等。与基于单模态的方法相比,多模态技术为数据集提供了更全面的视角。
尽管多模态方法在解决传统的NLP任务中很受欢迎,但是BioNLP中缺少多模态数据集,特别是对于PPI识别任务,可用的PPI基准数据集仅包含不同蛋白质对的文本知识,这无助于得到蛋白质的分子特性。因此,除了文本信息,结合分子结构或潜在的基因组序列可以帮助理解蛋白质相互作用的机制。但是多模态架构的概念在BioNLP领域中并没有得到深入的研究。

二、主要内容

这篇文章的主要动机是生成用于PPI识别任务的多模态数据集。作者不局限于生物医学文献中存在的文本信息,还收集了文本中潜藏的多组学信息,包括蛋白质的结构信息(3D PDB结构)和基因核苷酸序列(FASTA序列)。作者主要在两个流行的基准PPI语料库(BioInfer和HRPD50)中,对原本的文本数据进行扩展,添加了3D蛋白质结构和基础基因组序列,生成了一个用于PPI的多模态数据集。此外,作者,还实现了一个新颖的深度多模态体系结构,能在新数据集上有效预测蛋白质的相互作用。

1 数据预处理

作者主要在两个基准PPI语料库(BioInfer和HRPD50)中进行多模态的扩展。如下图所示,作者拿出HRPD50的一个样本进行举例——Megalin and cubilin: multifunctional endocytic receptors Megalin and cubilin are two structurally different endocytic receptors that interact to serve such functionsMegalincubilin 是文本中存在的两个蛋白实体,将它们在文中的位置分别用Protein1Protein2替代,就可以变成6个文本句子,然后根据文献找出这两个蛋白质对应的结构和基因序列,然后人工标注这两个被替代的蛋白是否会相互作用。这样就形成了一些新的样本。BioInfer和HRPD50都是这样处理的。

当拓展完形成新的数据库时,作者统计了BioInfer和HRPD50中正负样本(蛋白对)的数量,如下图所示,可以看出来,新的数据集是不平衡的。

2 模型架构

该论文整体的模型架构如下图所示,接下来对其中每个模态用到的模型进行讲解。

2.1 从文本模态中提取特征


如上图所示,作者利用了BioBert提取文本的每个词的embedding,然后接了堆叠的BiLSTM进一步提取文本的特征,最后得到整个样本的向量表示。

2.2 从基因序列模态中提取特征


如上图所示,输入是蛋白质对应的基因序列,序列中的每个字符∈{A,T,C,G}∈\{A, T, C, G\}{A,T,C,G}。由于蛋白质分子的分子特性在很大程度上取决于核苷酸的序列,因此作者使用了胶囊网络来捕获核苷酸之间的空间信息。首先,作者将输入用one-hot向量表示,然后接了三层卷积层提取特征,将提取的特征输入到初级胶囊,得到的输出再输入次级胶囊,最后得到基因序列的表示。

2.3 从蛋白结构模态中提取特征


如上图所示,作者将3D结构表示为节点的特征向量集合和邻接矩阵,然后利用图神经网络GCNN来处理结构这些数据,最后将得到的两个蛋白的特征向量concat在一起,作为最后的输出向量。

2.4 基于attention的多模态融合


从上述的模型中分别得到了文本、序列、结构这三种模态的特征表示之后,作者用Transformer中的自注意力机制将它们整合在一起,得到最后用于分类的向量,如上式,其中iii表示第iii个样本,WWW表示该样本的模态对应的attention权重,而FFF表示特征向量。

三、实验分析

作者利用构建的新数据集和模型进行实验,并与多个模型进行对比,包括单模态、模态之间的不同组合以及最先进的方法。

1 对比单模态、模态之间的不同组合

作者将自己的模型进行消融实验,对比单模态、模态之间的不同组合对最终结果的影响,主要包括:
(1)单模态:单文本模态、单序列模块、单结构模态;
(2)双模态:文本+序列模态、文本+结构模态、序列+结构模态;
(3)多模态:文本+序列+结构模态(每个模态用不同于本文方法的模型处理,用的是BioBERT+BiLSTM+CNN,本文用的是BioBERT+BiLSTM+CNN+胶囊网络+GCNN)、文本+序列+结构模态(每个模态用相同于本文方法的模型处理,但是多模态融合不是用attention,而是简单地concat)。
实验的结果如下表所示,表中报告的结果说明了所提出的多模态方法优于其他baselines。

2 对比最先进的方法

在数据集BioInfer和HRPD50上,作者对比多个最先进的模型,如下表:

3 结果讨论

通过分析以上对比研究,可以推断出,作者提出的多模态方法的整体性能超过了其他baselines和现有方法。在baselines模型中,提议的多模态方法优于其单模态和双模态方法。在单模态架构中,结构模态优于其他两个模态,这表明结构模态比文本模态和序列模态更重要。序列模态由于其较大的长度而表现不佳(大多数序列的长度约为10000个核苷酸)。
在双模态的架构中,文本+结构模态的表现超过了其他双模态和单模态,同样,作者提出的多模态结构比双模态有所改进。另外,在多模态模型的对比中,作者提出的模型同样是有提高的,这表明。除了多模态的信息之外,底层的深度模型和多模态融合的技术对改善整体架构的性能都有重要的贡献。
针对BioInfer和HRPD50数据集,作者所提出的多模态体系结构都优于最先进的方法。另外,作者进行了Welch的t检验,以表明通过所提出的模型获得的改进具有统计意义。从上面的比较研究中可以明显看出,作者提出的多模态方法可以有效地识别蛋白质相互作用,并且可以通过不同的方式进一步加以改进。

4 误差分析

作者对分类错误的正样本和负样本进行深入分析之后,推断出下列可能产生错误的原因:
(1)包含大量蛋白质实体的样本会导致分类错误。在HRPD50和BioInfer实例中,最大蛋白质数量分别为26和24。这有很大的错误分类的机会。例如,“Mutations in Saccharomyces cerevisiae RFC5, DPB11, MEC1, DDC2, MEC3, PDS1, CHK1, PDS1, and DUN1 have increased the rate of genome rearrangements up to 200-fold whereas mutations in RAD9, RAD17, RAD24, BUB3, and MAD3 have little effect.”
(2)重复提及相同的蛋白质实体会增加噪音,从而导致上下文信息松散。例如,“Here we demonstrate … CLIP-170 and LIS1 Overexpression of CLIP-170 results … phospho-LIS1 … that CLIP-170 and LIS1 regulate … that LIS1 is a regulated adapter between CLIP-170 … MT dynamics”。
(3)对于序列模态,我们考虑蛋白质的基础FASTA序列。序列的长度从100到10000个核苷酸不等。由于基于深度学习的模型无法处理太长的核苷酸链,因此过大的蛋白质长度会导致分类错误。

四、文章贡献

该论文的主要贡献概括如下:
1、作者对两个已有的文本数据库进行手工标注,拓展成具有多模态信息的两个PPI数据库。
2、作者提出的多模态体系结构使用自注意机制来集成不同模态提取的特征。
3、作者第一次尝试将文本信息和多组学信息结合起来。
4、结果和比较研究证明了作者开发的多模态数据集以及提出的多模态体系结构的有效性。

五、结论和未来工作

在这项工作中,作者通过将蛋白质结构和序列与生物医学文献中现有的文本信息融合在一起,生成了两个多模态的PPI数据库。通过一些示例说明了从PPI语料库生成多模式数据集的过程。此外,作者提出了一种新颖的深度多模态体系结构,用于管理PPI的多模态方案。对于每种模态(文本,基因序列和蛋白质结构),作者开发了不同的深度学习模型来进行有效的特征提取。详细的比较分析证明,提出的多模式体系结构优于其他强大的baselines和现有的模型。
作者希望未来能够增强序列特征提取方法,以提高分类性能,因为从结果来看,它的准确性较低。此外,还有很多选择可以改进多模态融合来增强模型的整体性能。

PPI的多模态融合预测相关推荐

  1. 最新!3D目标检测论文汇总(多模态融合)

    作者丨柒柒@知乎 来源丨https://zhuanlan.zhihu.com/p/447555827 编辑丨3D视觉工坊 这篇文章主要是梳理一下近期3D Detection的进展,分类列举出一些我认为 ...

  2. 无监督学习多模态融合!腾讯优图联合厦门大学发布2021十大AI趋势

    腾讯优图实验室联合厦门大学人工智能研究院发布<2021 十大人工智能趋势>报告,对 3D 视觉技术.深度学习算法.人工智能内核芯片等众多领域的发展趋势进行了预测. 6 月 5 日,2021 ...

  3. AI:人工智能的多模态融合模型的简介、发展以及未来趋势

    AI:人工智能的多模态融合模型的简介.发展以及未来趋势 目录 人工智能的多模态融合模型的简介.发展以及未来趋势 多模态融合模型的简介 多模态融合模型的发展趋势 多模态常见应用分类 1.按照模态分类 2 ...

  4. Multimodal Fusion(多模态融合)

    Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题.我觉得那会很有趣. 多模态学习 为了使人工智能进一步加强对我们周边事物的理解,它需要具备解释多模态信号的 ...

  5. 多模态融合技术综述和应用

    文章目录 多模态技术基础 1,多模态融合架构(神经网络模型的基本结构形式) 1.1联合架构 1.2协同架构 1.3编解码架构(自监督) 2,多模态融合方法 2.1早期融合 2.2 晚期融合 2.3混合 ...

  6. 多模态深度学习综述总结 与 目标检测多模态融合领域论文推荐

    文章目录 一.多模态学习定义及应用 二.模态表示 2.1 单模态表示 2.1.1 语句模态表示 2.1.2 视觉模态表示 2.1.3 声音模态表示(略) 2.2 多模态表示 2.2.1 模态共作用语义 ...

  7. CVPR2020恶劣天气下的多模态融合Seeing Through Fog Without Seeing Fog

    文章目录 总结 Abstract Introduction 自适应深度融合 自适应多模态单镜头融合 熵引导融合 总结 Seeing Through Fog Without Seeing Fog:Dee ...

  8. 基于Transformer的车辆多模态轨迹预测方法

    1.引言 轨迹预测是自动驾驶领域关注的热点.对周围车辆轨迹的精确预测可以辅助自动驾驶车辆做出合理的决策规划,进而实现车辆在异构高动态复杂多变环境中安全驾驶.在车辆交互场景中,由于驾驶员意图与环境的不确 ...

  9. 无监督学习、多模态融合!腾讯优图联合厦大发布2021十大人工智能趋势

    转自:机器之心 腾讯优图实验室联合厦门大学人工智能研究院发布<2021 十大人工智能趋势>报告,对 3D 视觉技术.深度学习算法.人工智能内核芯片等众多领域的发展趋势进行了预测. 6 月 ...

最新文章

  1. 浅析网站地图设置对网站的作用有哪些?
  2. java弹出窗放textarea_java中窗体上有一个Button和一个TextArea当鼠标经过按钮上的某一点时在文本框中输出该点的坐标事件...
  3. Linux内核设计与实现学习笔记目录
  4. java 保留数字与中文_java 转中文数字
  5. 【编程之美】2.21 只考加法的面试题
  6. HandlerMappings
  7. 编写代码的软件用什么编写的_如何通过像编写代码一样克服对编写的恐惧
  8. 优秀!33岁博士,拟作为县长人选!
  9. javascrpt 继承
  10. 中国夹层玻璃板行业市场供需与战略研究报告
  11. [转载] python enumerate函数 实例_python中使用enumerate函数遍历元素实例
  12. KNN——机器学习实战_Python3
  13. Flutter之CupertinoSwitch和Switch开关组件的简单使用
  14. java NEW一个对象之后加入大括号
  15. 创建GitHub账号及使用
  16. windos系统如何获得超级管理员权限
  17. 蓝桥杯——PCF8591
  18. Word2007“由于文件许可权错误,Word无法完成保存操作”问题的解决方法
  19. MySQL8.0登录提示caching_sha2_password问题解决方法
  20. matlab:实现“必应”的图片搜索功能并将图片保存

热门文章

  1. 金融相关计算机面试题,银行及其他金融企业笔试和面试经验
  2. ZBrush如何布尔运算
  3. Good Luck in CET-4 Everybody!(博弈)
  4. Mixamo动画导入Unity中常见问题
  5. “恐怖”的阿里一面,我究竟想问什么
  6. openstack部署过程5
  7. error: The requested URL returned error: 401 Unauthorized while accessing
  8. (5/8 软件漏洞攻击利用技术)如何成为一名黑客(网络安全从业者)——网络攻击技术篇
  9. 《向着光亮那方》刘同 读书笔记
  10. Verilog语言要素(二)