PPI的多模态融合预测

本博文基于《Amalgamation of protein sequence, structure and textual information for improving protein-protein interaction identification》这篇文章进行讲解，该文章发表在2020的ACL上，作者是印度理工学院计算机科学与工程系的两个研究生，主要的工作是构建了一个PPI的数据集，包括文本，基因序列和蛋白结构这三种模态。另外，作者还构建了一个模型去处理这三种模态的数据，然后预测PPI。最后，作者通过大量实验证明自己构建模型的有效性。

一、任务背景

了解蛋白质间相互作用（PPI）对于理解不同的生物学过程如翻译，蛋白质功能，基因功能，代谢途径等等是至关重要的。PPI信息可帮助研究人员发现疾病的机制，并在设计治疗药物方面发挥重要作用。多年来，大量蛋白质-蛋白质相互作用信息已经以非结构化文本格式发表在科学文献中。而最近几年，生物医学出版物的数量呈指数增长。因此，研究者迫切需要开发一种智能信息提取系统来帮助生物学家管理和维护PPI数据库，这种迫切的需求促使生物医学自然语言处理（BioNLP）研究人员通过探索各种AI技术来自动提取PPI信息。与传统的基于单模态的模型相比，结合多种模态信息的深度学习模型显示出更好的结果，同时解决了各种NLP任务，例如情感识别，自然语言生成，图像字幕，机器翻译等。与基于单模态的方法相比，多模态技术为数据集提供了更全面的视角。
尽管多模态方法在解决传统的NLP任务中很受欢迎，但是BioNLP中缺少多模态数据集，特别是对于PPI识别任务，可用的PPI基准数据集仅包含不同蛋白质对的文本知识，这无助于得到蛋白质的分子特性。因此，除了文本信息，结合分子结构或潜在的基因组序列可以帮助理解蛋白质相互作用的机制。但是多模态架构的概念在BioNLP领域中并没有得到深入的研究。

二、主要内容

这篇文章的主要动机是生成用于PPI识别任务的多模态数据集。作者不局限于生物医学文献中存在的文本信息，还收集了文本中潜藏的多组学信息，包括蛋白质的结构信息（3D PDB结构）和基因核苷酸序列（FASTA序列）。作者主要在两个流行的基准PPI语料库（BioInfer和HRPD50）中，对原本的文本数据进行扩展，添加了3D蛋白质结构和基础基因组序列，生成了一个用于PPI的多模态数据集。此外，作者，还实现了一个新颖的深度多模态体系结构，能在新数据集上有效预测蛋白质的相互作用。

1 数据预处理

作者主要在两个基准PPI语料库（BioInfer和HRPD50）中进行多模态的扩展。如下图所示，作者拿出HRPD50的一个样本进行举例——Megalin and cubilin: multifunctional endocytic receptors Megalin and cubilin are two structurally different endocytic receptors that interact to serve such functions，Megalin 和 cubilin 是文本中存在的两个蛋白实体，将它们在文中的位置分别用Protein1和Protein2替代，就可以变成6个文本句子，然后根据文献找出这两个蛋白质对应的结构和基因序列，然后人工标注这两个被替代的蛋白是否会相互作用。这样就形成了一些新的样本。BioInfer和HRPD50都是这样处理的。

当拓展完形成新的数据库时，作者统计了BioInfer和HRPD50中正负样本（蛋白对）的数量，如下图所示，可以看出来，新的数据集是不平衡的。

2 模型架构

该论文整体的模型架构如下图所示，接下来对其中每个模态用到的模型进行讲解。

2.1 从文本模态中提取特征

如上图所示，作者利用了BioBert提取文本的每个词的embedding，然后接了堆叠的BiLSTM进一步提取文本的特征，最后得到整个样本的向量表示。

2.2 从基因序列模态中提取特征

如上图所示，输入是蛋白质对应的基因序列，序列中的每个字符 ${A, T, C, G\}$ 。由于蛋白质分子的分子特性在很大程度上取决于核苷酸的序列，因此作者使用了胶囊网络来捕获核苷酸之间的空间信息。首先，作者将输入用one-hot向量表示，然后接了三层卷积层提取特征，将提取的特征输入到初级胶囊，得到的输出再输入次级胶囊，最后得到基因序列的表示。

2.3 从蛋白结构模态中提取特征

如上图所示，作者将3D结构表示为节点的特征向量集合和邻接矩阵，然后利用图神经网络GCNN来处理结构这些数据，最后将得到的两个蛋白的特征向量concat在一起，作为最后的输出向量。

2.4 基于attention的多模态融合

从上述的模型中分别得到了文本、序列、结构这三种模态的特征表示之后，作者用Transformer中的自注意力机制将它们整合在一起，得到最后用于分类的向量，如上式，其中 $i$ 表示第 $i$ 个样本， $W$ 表示该样本的模态对应的attention权重，而 $F$ 表示特征向量。

三、实验分析

作者利用构建的新数据集和模型进行实验，并与多个模型进行对比，包括单模态、模态之间的不同组合以及最先进的方法。

1 对比单模态、模态之间的不同组合

作者将自己的模型进行消融实验，对比单模态、模态之间的不同组合对最终结果的影响，主要包括：
（1）单模态：单文本模态、单序列模块、单结构模态；
（2）双模态：文本+序列模态、文本+结构模态、序列+结构模态；
（3）多模态：文本+序列+结构模态（每个模态用不同于本文方法的模型处理，用的是BioBERT+BiLSTM+CNN，本文用的是BioBERT+BiLSTM+CNN+胶囊网络+GCNN）、文本+序列+结构模态（每个模态用相同于本文方法的模型处理，但是多模态融合不是用attention，而是简单地concat）。
实验的结果如下表所示，表中报告的结果说明了所提出的多模态方法优于其他baselines。

2 对比最先进的方法

在数据集BioInfer和HRPD50上，作者对比多个最先进的模型，如下表：

3 结果讨论

通过分析以上对比研究，可以推断出，作者提出的多模态方法的整体性能超过了其他baselines和现有方法。在baselines模型中，提议的多模态方法优于其单模态和双模态方法。在单模态架构中，结构模态优于其他两个模态，这表明结构模态比文本模态和序列模态更重要。序列模态由于其较大的长度而表现不佳（大多数序列的长度约为10000个核苷酸）。
在双模态的架构中，文本+结构模态的表现超过了其他双模态和单模态，同样，作者提出的多模态结构比双模态有所改进。另外，在多模态模型的对比中，作者提出的模型同样是有提高的，这表明。除了多模态的信息之外，底层的深度模型和多模态融合的技术对改善整体架构的性能都有重要的贡献。
针对BioInfer和HRPD50数据集，作者所提出的多模态体系结构都优于最先进的方法。另外，作者进行了Welch的t检验，以表明通过所提出的模型获得的改进具有统计意义。从上面的比较研究中可以明显看出，作者提出的多模态方法可以有效地识别蛋白质相互作用，并且可以通过不同的方式进一步加以改进。

4 误差分析

作者对分类错误的正样本和负样本进行深入分析之后，推断出下列可能产生错误的原因：
（1）包含大量蛋白质实体的样本会导致分类错误。在HRPD50和BioInfer实例中，最大蛋白质数量分别为26和24。这有很大的错误分类的机会。例如，“Mutations in Saccharomyces cerevisiae RFC5, DPB11, MEC1, DDC2, MEC3, PDS1, CHK1, PDS1, and DUN1 have increased the rate of genome rearrangements up to 200-fold whereas mutations in RAD9, RAD17, RAD24, BUB3, and MAD3 have little effect.”
（2）重复提及相同的蛋白质实体会增加噪音，从而导致上下文信息松散。例如，“Here we demonstrate … CLIP-170 and LIS1 Overexpression of CLIP-170 results … phospho-LIS1 … that CLIP-170 and LIS1 regulate … that LIS1 is a regulated adapter between CLIP-170 … MT dynamics”。
（3）对于序列模态，我们考虑蛋白质的基础FASTA序列。序列的长度从100到10000个核苷酸不等。由于基于深度学习的模型无法处理太长的核苷酸链，因此过大的蛋白质长度会导致分类错误。

四、文章贡献

该论文的主要贡献概括如下：
1、作者对两个已有的文本数据库进行手工标注，拓展成具有多模态信息的两个PPI数据库。
2、作者提出的多模态体系结构使用自注意机制来集成不同模态提取的特征。
3、作者第一次尝试将文本信息和多组学信息结合起来。
4、结果和比较研究证明了作者开发的多模态数据集以及提出的多模态体系结构的有效性。

五、结论和未来工作

在这项工作中，作者通过将蛋白质结构和序列与生物医学文献中现有的文本信息融合在一起，生成了两个多模态的PPI数据库。通过一些示例说明了从PPI语料库生成多模式数据集的过程。此外，作者提出了一种新颖的深度多模态体系结构，用于管理PPI的多模态方案。对于每种模态（文本，基因序列和蛋白质结构），作者开发了不同的深度学习模型来进行有效的特征提取。详细的比较分析证明，提出的多模式体系结构优于其他强大的baselines和现有的模型。
作者希望未来能够增强序列特征提取方法，以提高分类性能，因为从结果来看，它的准确性较低。此外，还有很多选择可以改进多模态融合来增强模型的整体性能。