文章目录

Abstract
1 Introduction
3 Data-driven motivation for Decagon approach
4 Graph convolutional Decagon approach
- 4.1 Graph convolutional encoder
- 4.2 Tensor factorization decoder
- 4.3 Decagon model training
5 Experimental setup
6 Results
- 6.1 Prediction of polypharmacy side effects
- 6.2 Investigation of Decagon’s novel predictions
- 6.3 Exploration of Decagon’s side effect embeddings
7 Related work
- 7.1 Drug combination modeling
- 7.2 Neural networks on graphs
8 Conclusion

Abstract

Motivation:
通常使用药物组合（称为多药）来治疗患有复杂疾病或并存疾病的患者。但是，多药的主要后果是对患者产生不利副作用的风险要高得多。多药副作用是由于药物之间的相互作用而产生的，如果与另一种药物合用，一种药物的活性可能会有利地或不利地发生变化。药物相互作用的知识通常是有限的，因为这些复杂的关系很少见，并且通常在相对较小的临床测试中就没有观察到，因此发现多药副作用仍然是一项重要的挑战，对患者的死亡率和发病率具有重大影响。
Results:
在这里，我们介绍了Decagon，一种用于建模多药副作用的方法。该方法构建了蛋白质-蛋白质相互作用，药物-蛋白质靶相互作用和多药副作用(药物-药物)的多峰图，多药副作用表示为药物-药物相互作用，其中每种副作用都是不同类型的边。 Decagon是专门为处理具有大量边类型的这种多峰图而开发的。我们的方法开发了一种新的图卷积神经网络，用于多模态网络中的多关系链接预测。与仅限于预测简单药物-药物相互作用值的方法不同，Decagon可以预测给定药物组合在临床上通过其表现出的确切副作用（如果有）。 Decagon可以准确预测多药的副作用，其性能比基线高出69％。我们发现它会自动学习患者中多药同时出现的副作用表示。此外，Decagon可以很好地模拟具有强大分子基础的多药副作用，而在主要是非分子的副作用方面，由于可以跨边的类型有效共享模型参数，因此可以实现良好的性能。Decagon开启了使用大量药物基因组学和患者群体数据来标记和确定多药副作用的机会，以便通过正式药理学研究进行后续分析。

1 Introduction

大多数人类疾病是由对任何一种药物的活性都有抵抗力的复杂生物过程引起的 (Jia et al., 2009; Han et al.,2017)。对抗疾病的一种有前途的策略是多药疗法，这是一种组合疗法，涉及同时使用多种药物，也称为药物组合(Bansal et al., 2014)。药物组合由多种药物组成，每种药物通常已在患者群体中用作单一有效药物。由于药物组合中的药物可以调节不同蛋白质的活性，因此药物组合可以通过克服潜在生物学过程中的冗余来提高治疗效果(Sun et al., 2015)。例如，最近显示了Venetoclax和Idasanutlin的药物组合在治疗急性髓细胞性白血病方面具有优异的抗白血病作用(Pan et al., 2017)。在这里，这两种药物互为作用：Venetoclax抑制抗凋亡的Bcl-2家族蛋白，而Idasanutlin激活p53途径，因此，这两种药物的组合通过同时靶向互补机制来提高生存率(Pan et al., 2017)。

虽然使用多种药物可能是治疗许多疾病的良好实践，但对患者而言，多药的主要后果是由于药物相互作用引起的副作用风险要高得多。多药副作用很难手动识别，因为它们很少见，几乎不可能测试所有可能的药物对，而且通常在相对较小的临床测试中未观察到副作用 (Bansal et al., 2014; Tatonetti et al.,2012)。此外，在医疗保健系统中，多药业被认为是一个日益严重的问题，影响了近15％的美国人口(Kantor et al., 2015)，在美国，每年花费在治疗多药业副作用上的费用超过1770亿美元(Ernst and Grizzle, 2001)。

可以进行体外实验和临床试验来鉴定药物相互作用(Li et al., 2016; Ryall and Tan, 2015)，但是对药物相互作用候选物进行系统的组合筛选仍然具有挑战性且昂贵(Bansal et al., 2014)。因此，研究人员试图从科学文献和电子病历中收集药物之间的相互作用 (Percha et al., 2012; Vilar et al., 2017)，并通过网络建模，分子靶标分析(Chen et al., 2016a; Huang et al., 2014b; Lewis et al., 2015; Sun et al.,2015; Takeda et al., 2017)，基于统计关联的模型和半监督学习来发现它们(Chen et al., 2016b; Huang et al., 2014a; Shi et al., 2017; Zhao et al., 2011) (请参见第7节中的相关工作)。尽管这些方法对于推导在细胞水平上描述药物相互作用的广泛规则很有用，但它们不能直接指导药物组合治疗的策略。特别是，这些方法通过代表相互作用总体概率/强度的得分来表征药物-药物相互作用，但不能预测副作用的确切类型。更准确地说，对于药物 $i$ 和 $j$ ，这些方法预测它们的组合是否会在没有相互作用的情况下超出预期之外的加性反应(additive response)，并产生超出预期的夸张的反应(exaggerated response) $S_{i j}$ ，而与确切的副作用类型或副作用数量无关。也就是说，他们的目标是回答一个问题： $Sij≠{}S_{i j} \neq\{\}$ (论文中不等号上面有个?, 不知道怎么弄出来)，其中 $S_{i j}$ 是所有多药房副作用的集合，这些副作用专门归因于药物对 $i$ 和 $j$ ，而不是单独归因于任何一种药物。但是，回答药物对 $i$ 和 $j$ 是否会与 $r$ ( $\in S_{i j}$ )型给定的副作用相互作用更为重要和有用。尽管确定精确的多药副作用对于改善患者护理(patient care)至关重要，但这仍然是一项艰巨的任务，尚没有通过预测模型进行研究。

3 Data-driven motivation for Decagon approach

在这里，我们对双层多峰图的结构（图1）进行了三项观察，这些观察对Decagon模型的设计具有重要意义。

首先，我们观察到药物组合中某些副作用发生的频率范围很广。我们发现，已知> 53％的多药副作用是在<3％的已记录药物组合中发生的（例如 cerebral artery embolism, lung abscess, sarcoma and collagen disorder）。相反，更频繁的副作用（例如vomiting, weight gain, nausea and anaemia）出现更高的一个数量级。由于每种副作用与之相关的药物对数量变化很大，因此只有有限数量的药物对可用于独立训练模型以预测不同的副作用类型。结果，多药副作用预测成为一项具有挑战性的任务，尤其是在预测罕见的副作用时。因此，重要的是开发一种端到端的方法，以使模型能够共享信息并同时从所有副作用中学习。

其次，我们观察到在co-prescribed药物对（即药物组合）中，多药房副作用不会彼此独立出现，这表明对多种副作用进行联合建模可以帮助完成预测任务。为了量化副作用之间的同时出现，我们统计了给定副作用与其他副作用同时出现的药物组合的数量，然后对随机同时出现的空模型使用置换测试。如表1中针对高血压和恶心的示例所示，我们发现，在 $α\alpha$ = 0.05的药物组合中它们与副作用恶心/高血压同时出现而言，大多数最常见的副作用要么明显偏高，要么代表性偏低。该观察结果表明，可能存在共享的副作用病理生理机制，类似于疾病合并症中所观察到的机制（(Lee et al., 2008）。例如，我们发现高血压与焦虑症同时出现的发生率很高，但发烧的发生率要低于随机机会所指示的发生率（表1）。这些关系贯穿副作用数据集。我们得出的结论是，预测模型应利用副作用之间的依赖性，并能够重用所学习到的有关一种副作用的分子基础的信息，以更好地了解另一种副作用的分子基础。

第三，我们探讨了药物对靶向的蛋白质与副作用发生之间的关系。令 $T_{i}$ 代表与药物i相关的一组靶蛋白，然后我们计算给定药物对（i，j）的靶蛋白之间的Jaccard相似性。我们观察到以下几点：

药物组合的68％以上具有共同零种靶蛋白，这表明它是用蛋白质 - 蛋白质相互作用的信息重要“连接”由不同的药物靶向不同的蛋白质。这表明使用蛋白质间相互作用信息来“连接”不同药物靶向的不同蛋白质非常重要。
P-value = 5e - 120, 2-sample Kolmogorov-Smirnov(KS)检验显示，随机药物对在靶向蛋白质中的重叠程度要比co-prescribed drugs（(Fig. 2，浅灰色）小。
我们发现这种趋势在不同的副作用中观察不到。例如，与目标蛋白共享的药物组合中的high blood pressure比rib fracture更明显（(Fig. 2，紫色）。每次2-sample KS试验，出现超过150种副作用的组合与其他真正的药物组合有显着差异（在Bonferroni校正后， $α\alpha$ = 0.05），表明这些副作用具有很强的分子基础。基于此发现，我们得出结论，对于模型而言，考虑蛋白质之间如何相互作用以及能够对（间接）相互作用的较长链进行建模非常重要。

4 Graph convolutional Decagon approach

我们将多药副作用建模作为编码药物，蛋白质和副作用关系的多峰图上的多关系链接预测问题(图1)。更精确地，这些关系由具有 $N$ 个节点(例如蛋白质, 药物) $vi∈Vv_{i} \in \mathcal{V}$ 和标记的边(关系) $(vi,r,vj)\left(v_{i}, r, v_{j}\right)$ 的图 $G=(V,R)G=(\mathcal{V}, \mathcal{R})$ 表示，其中 $r$ 是边类型(关系类型):

两种蛋白质之间的物理结合
药物和蛋白质之间的靶(target)关系
两种药物之间特定类型的副作用

如第2节所述，我们考虑了964种药物之间的不同关系类型(即副作用)。

此外，我们允许以附加节点特征( additional node feature)的形式包含辅助信息。不同的节点（药物，蛋白质）可以具有不同数量的节点特征，这由分配给图中每个节点的实值特征向量(real-valued feature vectors) $X1,X2,…,XN\mathbf{X}_{1}, \mathbf{X}_{2}, \dots, \mathbf{X}_{N}$ 给出。

多药副作用预测任务:多药副作用预测任务考虑了识别药物对和副作用之间关联的问题。重要的是，这些关联仅限于不能单独归因于任何一种药物的关联。使用图形G，任务是预测药物节点之间的标记边。给定一个药物对 $(vi,vj)\left(v_{i}, v_{j}\right)$ ，我们的目标是确定类型 $r$ 的边 $eij=(vi,r,vj)e_{i j}=\left(v_{i}, r, v_{j}\right)$ 属于 $R$ 的可能性，这就意味着药物 $v_{i}$ 和 $v_{j}$ [即,药物组合的使用 $(vi,vj)\left(v_{i}, v_{j}\right)$ ]同时使用与人类患者群体(human patient population)中多药副作用 $r$ 有关。

为此，我们开发了直接在图 $G$ 上运行的非线性多层卷积图神经网络模型Decagon。Decagon具有两个主要组件：

编码器 : 在 $G$ 上运行并为 $G$ 中的节点生成嵌入的图卷积网络(图3A; 第4.1节)。
解码器 : 使用这些嵌入的张量分解模型来建模多药副作用(图3B; 第4.2节)。

我们通过描述Decagon（我们的多药副作用建模方法）进行说明。

4.1 Graph convolutional encoder

我们首先描述图编码器模型，该模型以图 $G$ 和附加节点特征向量(附加节点特征向量) $xi\mathbf{x}_{i}$ 为输入，并为图中的每个节点（药物，蛋白质）产生一个节点 $d$ 维嵌入 $zi∈Rd\mathbf{z}_{i} \in \mathbb{R}^{d}$ 。

我们提出了一种编码器模型，该模型可以有效利用图中各个区域之间的信息共享，并为每种关系类型分配单独的处理通道。这个想法是Decagon学习如何在整个图上转换和传播由节点特征向量捕获的信息。每个节点的网络邻域都定义了不同的神经网络信息传播体系结构，但是这些体系结构随后共享定义了如何共享和传播信息的功能/参数。我们学习卷积运算符，它们在图的不同部分和不同的关系类型之间传播和转换信息。该模型的灵感来自最近一类直接在图上运行的卷积神经网络(Defferrard et al., 2016; Kipf and Welling, 2016)。对于给定的节点，Decagon对其邻居的特征向量执行变换/聚合操作。然后，对这些操作的连续应用将有效地将信息卷积（即, 节点的嵌入取决于距离 $K$ 最多不超过 $K$ 步的所有节点）在第 $K$ 阶邻域中，其中 $K$ 是神经网络模型中卷积层的连续操作数。

在每一层中，Decagon在考虑边缘的类型（关系）的同时，在图的边缘之间传播潜在节点特征信息(Schlichtkrull et al., 2017)。此神经网络模型的单层采用以下形式：
$hi(k+1)=ϕ(∑r∑j∈NricrijWr(k)hj(k)+crihi(k))\mathbf{h}_{i}^{(k+1)}=\phi\left(\sum_{r} \sum_{j \in \mathcal{N}_{r}^{i}} c_{r}^{i j} \mathbf{W}_{r}^{(k)} \mathbf{h}_{j}^{(k)}+c_{r}^{i} \mathbf{h}_{i}^{(k)}\right)$ 其中h是神经网络第 $k$ 层中节点 $v_{i}$ 的隐藏状态，其中 $d^{(k)}$ 是该层表示的维数， $r$ 是关系类型，矩阵 $Wr(k)\mathbf{W}_{r}^{(k)}$ 是关系类型特定的参数矩阵。 $ϕ\phi$ 表示非线性元素激活函数[即, 线性校正单元(a rectified linear unit)]，它转换要在神经模型层中使用的表示形式， $c_{r}^{i j}$ 和 $c_{r}^{i}$ 是归一化常数，我们选择为对称 $crij=1/∣Nri∥Nrj∣c_{r}^{i j}=1 / \sqrt{|} \mathcal{N}_{r}^{i} \| \mathcal{N}_{r}^{j} |$

Nri∥Nrj∣和

cri=1/∣Nri∣c_{r}^{i}=1 /\left|\mathcal{N}_{r}^{i}\right|

其中

Nri\mathcal{N}_{r}^{i}

表示关系

r

下节点

v_{i}

的邻居集合。重要地注意，等式(1)中的和仅在给定节点

i

的邻居

Nri\mathcal{N}_{r}^{i}

的范围内，因此每个节点的计算架构（即神经网络）是不同的。图3A显示了图1中节点

C

的每层卷积更新方程式(1)的示例。并且，图3C然后说明了不同的节点具有不同的神经网络结构(因为每个节点的网络邻域都不同)。

通过将这些层(图3A)的多个(即 $K$ )与适当的激活功能链接在一起，可以构建更深层次的模型。为了到达节点vi的最终嵌入 $zi∈Rd\mathbf{z}_{i} \in \mathbb{R}^{d}$ ，我们将其表示计算为： $zi=hi(K)\mathbf{z}_{i}=\mathbf{h}_{i}^{(K)}$ 。然后，整个编码器采用以下形式。我们按照等式（1）堆叠K层，以便上一层的输出成为下一层的输入。第一层的输入是节点特征向量 $hi(0)=xi\mathbf{h}_{i}^{(0)}=\mathbf{x}_{i}$ ，或者如果图中没有任何特征，则为图中的每个节点提供唯一的one-hot向量。

4.2 Tensor factorization decoder

到目前为止，我们介绍了Decagon的编码器。编码器将每个节点 $vi∈Vv_{i} \in \mathcal{V}$ 映射到一个嵌入的实值向量表示 $zi∈Rd\mathbf{z}_{i} \in \mathbb{R}^{d}$ ，其中d是节点表示的维数。我们先描述Decagon的解码器组件。

解码器的目标是通过依赖于学习到的节点嵌入并通过不同地对待每个标签（边缘类型）来重建 $G$ 中的标记边。具体而言，解码器通过函数 $g(vi,r,vj)g\left(v_{i}, r, v_{j}\right)$ 评分 $(vi,r,vj)\left( v_{i},r,v_{j}\right)$ -三元组，该函数 $g$ 的目标是分配一个得分 $g$ ，该得分 $g$ 表示药物 $v_{i}$ 和 $v_{j}$ 通过关系/副作用类型r交互的可能性(图3B)。通过使用Decagon编码器(第4.1节) $zi\mathbf{z}_{i}$ 和 $zj\mathbf{z}_{j}$ 返回的节点 $i$ 和 $j$ 的嵌入，解码器通过分解操作预测候选边 $(vi,r,vj)\left(v_{i}, r, v_{j}\right)$ ：
$g\left(v_{i}, r, v_{j}\right)=\left\{\begin{array}{cl}{\mathbf{z}_{i}^{T} \mathbf{D}_{r} \mathbf{R} \mathbf{D}_{r} \mathbf{z}_{j}} & {\text { if } v_{i} \text { and } v_{j} \text { are drugs }} \\ {\mathbf{z}_{i}^{T} \mathbf{M}_{r} \mathbf{z}_{j}} & {\text { if } v_{i} \text { and } v_{j} \text { are both proteins, or }} \\ {} & {v_{i} \text { and } v_{j} \text { are a protein and a drug }}\end{array}\right.$ 然后应用sigmoid型函数 $σ\sigma$ 计算边 $(vi,r,vj)\left(v_{i}, r, v_{j}\right)$ 的可能性：
$prij=p((vi,r,vi)∈R)=σ(g(vi,r,vi))p_{r}^{i j}=p\left(\left(v_{i}, r, v_{i}\right) \in \mathcal{R}\right)=\sigma\left(g\left(v_{i}, r, v_{i}\right)\right)$ 接下来，我们通过区分以下两种情况来说明Decagon的解码器：

当 $v_{i}$ 和 $v_{j}$ 是药物节点时，公式(2)中的解码器 $g$ 假设药物-药物相互作用的全局(global)模型（即 $R\mathbf{R}$ ），其在多药副作用中的变化和重要性由副作用有特的对角因子(即 $Dr\mathbf{D}_{r}$ )所描述。在此， $R$ 是形状为 $\times d$ 的可训练参数矩阵，R模拟了跨所有可能的多药副作用的全局药物相互作用。另外，在Decagon中，代表不同多药副作用的每个关系 $r$ 与 $\times d的$ 对角矩阵 $Dr\mathbf{D}_{r}$ 相关联，该矩阵模拟(modeling) $zi\mathbf{z}_{i}$ 中每个维度对副作用 $r$ 的重要性。在另一种观点中，该解码器可以被认为是三向张量(three-way tensor)的张量分解，其中两种模式由药物相同地形成，而第三种模式则保持药物组合的多药副作用。但是，Decagon的一个显着特征是对编码器的依赖。传统的张量分解使用直接在训练中优化的节点表示，而我们以端到端的方式计算它们，其中节点嵌入与张量分解一起被优化。
当 $v_{i}$ 和 $v_{j}$ 不都是药物节点时，等式(2)中的解码器g采用双线性形式对节点嵌入中的边进行解码。更确切地说，在那种情况下，解码函数 $g$ 与形状为 $\times d$ 的可训练参数矩阵 $Mr\mathbf{M}_{r}$ 关联，该模型对 $zi\mathbf{z}_{i}$ 和 $zj\mathbf{z}_{j}$ 中每两个维度之间的交互进行建模。然后，使用双线性形式（等式2）计算预测的边的概率，然后应用sigmoid型函数（等式3）。

由于以下两个原因，基于等式(2)中的节点类型使用不同的边的解码器至关重要:

首先，Decagon解码器可以看作是不同关系类型之间有效参数共享的一种形式。特别是，涉及药物对的关系类型使用相同的全局药物-药物相互作用模型（即矩阵R），其中包含适用于所有与药物相关的关系类型的模式。我们期望这种解码参数化可以减轻罕见副作用上的过度拟合，因为参数在罕见[例如，脊髓炎或鼻息肉(myringitis or nasal polyps)]和频繁[例如，低血压或贫血(hypotension or anaemia)]副作用之间共享。
其次，我们希望一个高分 $g(vi,r,vj)g\left(v_{i}, r, v_{j}\right)$ 表示药物组合 $(vi,vj)\left(v_{i}, v_{j}\right)$ 与不能单独归因于 $v_{i}$ 或 $v_{j}$ 的副作用r之间的关联。因此，要捕获多药的组合，至关重要的是，Decagon允许通过R在 $i$ 和 $j$ 的嵌入中任意两个维度之间进行非零交互(non-zero interaction)。

两者合计，Decagon模型的可训练参数为：

关系类型特定的神经网络权重矩阵 $Wr\mathbf{W}_{r}$
关系类型特定的参数矩阵 $Mr\mathbf{M}_{r}$
全局副作用参数矩阵 $R$
副作用特定的对角参数矩阵 $Dr\mathbf{D}_{r}$

因此，Decagon编码器和解码器形成了用于多峰图中的多关系链接预测的端到端可训练模型（图3）。接下来，我们将描述如何训练Decagon方法。特别是，我们解释了如何使用端到端学习技术来训练神经网络权重和交互参数矩阵。

4.3 Decagon model training

在模型训练期间，我们使用交叉熵损失(cross-entropy loss)来优化模型参数：
$Jr(i,j)=−log⁡Prij−En∼prijlog⁡(1−Prin)J_{r}\left( i,j\right) = -\log P^{ij}_{r} - E_{n\sim p_{r}ij}\log ( 1-P^{in}_{r})$

促进模型为观察到的边 $(vi,r,vj)\left( v_{i},r,v_{j}\right)$ 分配比随机非边更高的概率。与以前的研究一样(Mikolov et al., 2013; Trouillon et al., 2016)，我们通过负采样来估计模型。对于图中的每种药物-药物的边 $(vi,r,vj)\left(v_{i},r,v_{j}\right)$ (即阳性示例)，我们通过随机选择节点 $v_{n}$ 来抽样随机的边 $(vi,r,vn)\left( v_{i},r,v_{n}\right)$ (即阴性示例)。这是通过将边 $(vi,r,vj)\left( v_{i},r,v_{j}\right)$ 中的节点 $v_{j}$ 替换为根据抽样分布 $P_{r}$ (Mikolovet al., 2013)随机选择的节点 $v_{n}$ 来实现的。考虑所有的边，Decagon中的最终损失函数为：
$J=∑(vi,r,vj)∈RJr(i,j)J=\sum_{\left(v_{i}, r, v_{j}\right) \in \mathcal{R}} J_{r}(i, j)$
最近的结果表明，通过端到端学习通常可以显着改善对图结构数据的建模(Defferrardet al., 2016; Gilmer et al., 2017)，因此，我们采用端到端优化方法，对所有可训练参数共同进行优化，并通过Decagon的编码器和解码器传播损失函数梯度(loss function gradients)。

为了优化模型，我们使用Adam优化器以0.001的学习率对模型进行最多100个epoch的训练（训练迭代），并以2的窗口大小提前停止训练；即，如果验证损失在两个时间内都没有减少，我们将停止训练连续的epoch。我们使用Glorot和Bengio（2010）中描述的初始化来初始化权重，并相应地标准化节点特征向量。为了使模型能够很好地泛化到未观察到的边，我们对隐藏层单元应用了regular dropout（公式1）。在实践中，我们使用有效的稀疏矩阵乘法（其复杂度与G的边数成线性关系）来实现Decagon模型。

我们通过对方程（5）中损失函数的贡献进行采样来使用小批(mini-batching)处理。也就是说，我们处理多个训练小批处理，每个训练小批处理都是通过从等式（5）中的边沿总和中仅采样固定数量的贡献而获得的，从而产生了一批动态的计算图（图3C）。通过仅考虑对损失函数的固定数量的贡献，我们可以删除当前小批中未出现的各个数据点。这是一种有效的正则化方法，并减少了训练模型所需的内存，这是必需的，以便我们可以将完整的模型装入GPU内存（所有数据和代码均在项目网站上发布）。

5 Experimental setup

我们认为，预测多药副作用是解决多关系链接预测任务的问题。在此，每个药物对通过一组所有关系类型（即所有副作用类型，请参见第2节和图1）中的零个，一个或多个关系类型（即副作用类型）进行连接。

对于每种多药副作用类型，我们将与该副作用相关的药物对分为训练，验证和测试集，以确保验证和测试集各包含10％的药物对。对于每种副作用类型，我们使用80％的药物对训练模型，并使用10％的药物对选择模型参数。然后，任务是预测与每种副作用类型相关的药物对。请注意，我们非常谨慎，因为折叠之间存在信息泄漏，并且交叉验证是公平的。

我们应用Decagon，它针对每种药物对和每种副作用类型计算给定药物对与给定副作用相关的概率。另外，我们以药物节点 $i$ 的附加特征 $xi\mathbf{x}_{i}$ 的形式将副作用（即个别药物的副作用）（第2节）整合到模型中。为了避免评估中出现任何圆度和信息泄漏，我们确保：

我们预测的副作用是真正的多药副作用（即，给定的多药副作用仅与该药对相关，而与该药对中的任何单个药物无关）
副作用中没有我们预测的副作用类型。例如，恶心(nausea)是一种多药副作用，因此我们删除了所有恶心作为个别药物的副作用的情况。我们注意到这是一种保守的方法，它使我们能够可靠地估计预测性能。

我们尚不知道开发任何其他方法来预测药物对的副作用。因此，我们针对以下多关系链接预测方法评估了Decagon的性能：

RESCAL tensor decomposition (Nickel et al., 2011):
DEDICOM tensor decomposition (Papalexakis et al., 2017):
DeepWalk neural embeddings (Perozzi et al., 2014; Zong et al.,2017):
Concatenated drug features:

使用验证集对候选参数值进行网格搜索来确定每种方法的参数设置（例如，对于梯度增强树，使用的树数从10到100不等）。如果方法不是多关系链接预测方法，则针对每种副作用类型，我们分别在验证集上选择性能最佳的参数。具体而言，Decagon使用2层神经体系结构，其中 $d$ (1) = 64，每层 $d$ (2) = 32个隐藏单元，所有实验中的dropout rate为0.1，最小批量(minibatch)为512。

使用受试者工作特征下的面积 (AUROC)，准确召回率曲线下的面积 (AUPRC)和50的平均精度(AP@50)分别计算每种副作用类型的性能。较高的值始终表示性能更好。

6 Results

Decagon在多峰图和高度多关系的环境中运行。这种灵活性使Decagon特别适合预测药物对的副作用，这将在下面讨论。

6.1 Prediction of polypharmacy side effects

这些发现与结果相吻合，即通过端到端学习，特别是使用图形自动编码器，通常可以显着改善预测 (Hamilton et al., 2017a, b; Kipf and Welling, 2016)。特别是，张量分解(tensor decomposition)和神经嵌入基线(neural embedding baseline )方法使我们能够量化由于嵌入（例如Decagon的编码器）而导致的性能提升的百分比，以及由于多任务学习（即Decagon的解码器）而导致的性能提升的百分比。

为了更好地了解Decagon的性能，我们按副作用类型对表2中的汇总统计数据进行了分层。手动检查结果并与领域专家进行讨论，揭示了表3中表现最佳的副作用的共同属性。我们观察到，Decagon模型具有明显的分子基础，因此副作用特别好。该观察结果符合我们的预期，因为Decagon的多峰图（图1）主要包含药物基因组信息。我们还观察到，性能最差的副作用往往是常见的副作用和/或具有潜在的重要环境和行为成分的非分子起源（表3）。Decagon在这些副作用上的竞争表现可以通过在不同类型的副作用之间有效共享模型参数来解释。

6.2 Investigation of Decagon’s novel predictions

接下来，我们对新匹配进行基于文献的评估。我们的目标是评估新颖的Decagon关于副作用与药物对之间关系的预测的质量。为此，我们要求Decagon对数据集中的每种药物对和每种副作用类型进行预测。然后，我们使用这些预测来构建（药物 $i$ ，副作用类型 $r$ ，药物 $j$ ）三元组的排名列表，其中，三元组通过预测的概率得分 $p_{r}^{i j}$ 进行排名（公式3）。然后，我们从排名列表中排除药物对与副作用之间的所有已知关联，然后调查列表中排名最高的10个预测。为了防止调查偏见的风险，我们不允许在分析的不同阶段之间发生任何串扰。然后，我们搜索生物医学文献，以查看是否可以找到这些新颖预测的佐证证据。

表4显示了Decagon的预测以及支持这些预测的文献证据。我们能够从10个排名最高的预测副作用中找到5个的文献证据。也就是说，对于这些排名最高的预测，我们的方法都可以正确识别药物对以及副作用类型。该结果是惊人的，因为预测是特定的，并且通过药物对和副作用关联的随机选择很难找到支持证据。我们注意到，引用的文献明确调查了预期的药物对和预期的副作用之间的相互作用。例如，Decagon表示使用阿托伐他汀(Atorvastatin)和氨氯地平可(Amlodipine)导致肌肉发炎(muscle inflammation)(表4，排名第8的最高预测)。实际上，最近的报道(e.g. Banakh et al., 2017)发现，由于阿托伐他汀(Atorvastatin)与氨氯地平(Amlodipine)的药物相互作用可能导致肌肉组织损伤。Decagon还标记了乙胺嘧啶(Pyrimethamine)(一种单独使用可有效治疗疟疾(malaria)的抗微生物药)与一种肾素抑制剂阿里斯基伦(Aliskiren)之间的潜在联系，阿里斯基伦(Aliskiren)的临床试验在发现肾脏并发症后被终止(Parving et al., 2012)，则表明会罹患癌症的风险增加（排名第一的预测）。此处的分析证明了Decagon的预言可能有助于翻译科学和发现新型（非）有效药物组合。

6.3 Exploration of Decagon’s side effect embeddings

最后，我们有兴趣了解Decagon是否满足第3节中提出的设计目标。特别是，我们通过探索性数据分析（第3节中的第二个观察结果）测试了Decagon是否可以捕获不同副作用类型的相互依赖性。为此，我们采用对角矩阵 $Dr\mathbf{D}_{r}$ ，该矩阵专门模拟了Decagon的多关系链接预测中每种副作用类型 $r$ 相互作用的重要性（第4.2节）。我们从每个 $Dr\mathbf{D}_{r}$ 中提取对角线，并将其用作副作用 $r$ 的矢量表示。我们使用t-SNE将这些向量表示嵌入到2D空间中(Maaten and Hinton, 2008)，然后在图4中进行可视化。

图4揭示了副作用表示中的聚类结构。查看该图，我们观察到在2D空间中紧密嵌入在一起的副作用往往会在药物组合中同时发生。该观察结果表明，Decagon推断出在许多药物组合中共同出现的副作用 $r_{1}$ 和 $r_{2}$ 相似的矩阵 $D_{r1}$ 和 $D_{r2}$ 。例如，经常与子宫息肉副(uterine polyp)作用一起出现的前三个副作用是：

7 Related work

我们回顾了有关药物组合的计算预测以及有关图结构数据的神经网络的相关研究。

7.1 Drug combination modeling

计算药理学的方法旨在发现药物与分子靶之间的联系，预测潜在的不良药物反应并发现现有药物的新用途。(Campillos et al., 2008;Hodos et al., 2016; Li et al., 2016). 与这些方法主要考虑的个别药物和单一药物疗法（即单一疗法）相比，我们考虑药物组合（即多药）。这很重要，因为多药是对抗复杂疾病的有用策略 (Han et al., 2017; Jia et al., 2009), 对医疗保健系统具有重要意义(Ernst and Grizzle, 2001)。

传统上，已经通过实验筛选出一组预先定义的所有可能的药物组合来确定有效的药物组合(Chen et al., 2016b)。鉴于药物数量众多，药物成对组合的实验筛选在成本和时间方面构成了巨大的挑战。例如，给定n种药物，有 $n (n - 1) / 2$ 个成对药物组合和许多更高阶的组合。为了解决候选药物组合的组合爆炸问题，开发了计算方法来识别可能相互作用的药物对，即产生超出或超出在没有相互作用时预期的加和反应之外的过度反应的药物对 (Ryall and Tan, 2015)。该领域先前的研究集中在通过协同作用和拮抗作用的概念来定义药物相互作用(Lewis et al., 2015; Loewe, 1953)，定量测量剂量效应曲线(Bansal et al., 2014;Takeda et al., 2017) ，并根据测量细胞活力的实验确定给定的药物对是否相互作用(Chen et al., 2016a, b; Huang et al., 2014a, b; Shi et al., 2017; Sun et al., 2015; Zitnik and Zupan, 2016)。所有这些方法都将药物-药物相互作用预测为标量值，该标量值表示给定药物对相互作用的总体概率/强度。与之形成鲜明对比的是，我们在这里的研究更进一步，确定了给定药物对在患者群体中临床表现的精确度（如果有的话）。特别是，我们对不能归因于任何一种药物而由于药物相互作用（即多药副作用）产生的临床表现进行建模。先前的研究着重于生成代表细胞活力或实验药物筛选中密切相关的结果的逐点交互作用估计，但我们首次预测，当患者将多种药物合在一起时，如果有的话，多药副作用可能会发生，为临床翻译提供了更直接的途径。

尽管目前的药物相互作用预测方法不能直接用于此处研究的问题，但我们简要概述了这些方法所使用的方法。药物相互作用预测方法可分为基于分类的方法和基于相似性的方法。基于分类的方法将药物相互作用的预测视为二分类问题(Chen et al., 2016b; Cheng and Zhao,2014; Huang et al., 2014a; Shi et al., 2017; Zitnik and Zupan, 2016)。这些方法使用已知的相互作用药物对作为阳性实例，将其他药物对用作阴性实例，并训练分类模型，例如朴素贝叶斯(naive Bayes)，逻辑回归(logistic regression)和支持向量机(support vector machine)。相反，基于相似性的方法假设相似的药物可能具有相似的相互作用模式(Gottlieb et al., 2012; Huang et al., 2014b; Li et al., 2016, 2017; Sun et al., 2015; Vilar et al., 2012; Zitnik and Zupan, 2015)。这些方法使用了针对药物化学亚结构，相互作用谱指纹，药物副作用，副作用和分子靶连通性定义的不同种类的药物-药物相似性度量。这些方法通过聚类或标签传播来汇总相似性度量，以识别潜在的药物相互作用 (Ferdousi et al., 2017; Zhang et al.,2015, 2017)。但是，所有这些方法均会产生药物相互作用，并且无法预测确切的多药副作用，这是我们此处研究的目标。

7.2 Neural networks on graphs

我们的模型扩展了图神经网络领域的现有工作(Defferrard et al., 2016; Gilmer et al., 2017; Hamilton et al.,2017a, b; Kipf and Welling, 2016; Schlichtkrull et al., 2017)。图神经网络通过将通常应用于图像数据集的卷积运算概念推广到可以对任意图进行运算的运算，从而可以学习图结构。这些神经网络也可以看作是一种嵌入方法，可以将有关每个节点邻域的高维信息提取为密集的矢量嵌入，而无需进行人工特征工程。特别地，图卷积网络(Defferrard et al., 2016; Hamilton et al., 2017a; Kipf and Welling, 2016) 和消息传递神经网络(Gilmer et al., 2017)是相关的研究领域，允许逐层学习图中的节点嵌入。

尽管图卷积网络在社交网络和知识图中的重要预测问题上实现了最先进的性能，但它们尚未用于计算生物学中的问题。我们的模型通过合并对多种边类型的支持来扩展图卷积网络，每种类型代表不同的副作用，并通过为具有大量边类型的多峰图提供有效的权重共享形式。

8 Conclusion

我们介绍了Decagon，一种预测药物对副作用的方法。 Decagon是一种通用的图卷积神经网络，设计用于在大型多峰图上运行，在该图中，节点可以通过大量不同的关系类型进行连接。我们首次使用Decagon推断可以识别成对药物副作用的预测模型。Decagon预测了副作用与共同处方药对（即药物组合）之间的关联，识别不能归因于任何一种药物的副作用。图卷积模型在多药副作用预测任务上实现了极好的准确性，使我们能够整合了分子和患者群体数据(molecular and patient population data)的近一千种不同的副作用类型，并提供有关药物相互作用的临床表现的见解。

有一些未来研究的方向。我们的方法将分子蛋白质-蛋白质和药物-靶网络与人群水平患者的副作用数据结合在一起。其他生物医学信息来源，例如药物的剂量浓度水平，可能与建模药物对的副作用有关，我们希望研究将它们整合到模型中的效用。由于Decagon的图卷积模型是在任何多模式网络中进行多关系链接预测的通用方法，因此将其应用于其他领域和问题将很有趣，例如，发现patient outcomes与comorbid diseases之间的关联，或确定突变表型(mutant phenotypes)和基因-基因相互作用之间的依赖性。

「论文翻译」Modeling polypharmacy side effects with graph convolutional networks相关推荐

AI医药论文解读：Modeling Polypharmacy Side Effects with Graph Convolutional Networks
论文题目 Modeling Polypharmacy Side Effects with Graph Convolutional Networks 中文使用图卷积网络对多药副作用进行建模论文出自 ...
【论文解读 ICLR 2020 | DropEdge】TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION
论文题目:DROPEDGE: TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION 论文来源:ICLR 2020 论文链接 ...
「论文翻译」SATIN: A Secure and Trustworthy Asynchronous Introspection on Multi-Core ARM Processors阅读翻译与笔记
SATIN : 多核ARM处理器上的一种安全可信的异步自省理论这篇论文是在以此可靠系统和网络(Dependable Systems and Networks DSN) 会议上发表的背景现有技术 ...
「论文翻译」Graph convolutional networks for computational drug development and discovery
briefings in Bioinformatics 2019 (B类) 文章目录 Abstract Introduction Principles of graph convolution App ...
「论文翻译」Predicting Drug-Target Interactions Using Weisfeiler-Lehman Neural Network
IEEE EMBS International Conference on Biomedical & Health Informatics ICBHI 2019(应该是B类) 文章目录 Abs ...
「论文翻译」Predicting gene-disease associations via graph embedding and graph convolutional networks
BIBM 2019(B类) 文章目录 Abstract 1. Introduction 2. Methods A. Datasets B. Graph Representation C. Graph ...
【论文解读 ESWC 2018 | R-GCN】Modeling Relational Data with Graph Convolutional Networks
论文题目:Modeling Relational Data with Graph Convolutional Networks 论文来源:ESWC 2018 论文链接:https://arxiv.or ...
论文笔记：ESWC 2018 Modeling Relational Data with Graph Convolutional Networks
前言论文链接:https://arxiv.org/pdf/1703.06103.pdf github:https://github.com/kkteru/r-gcn 本文提出了一种将图卷积操作应用与 ...
论文阅读笔记: Modeling Relational Data with Graph Convolutional Networks
arXiv:1703.06103v4 文章目录 1.Introduction 2.神经关系建模(Neural relational modeling) 2.1 关系图卷积网络(Relational g ...

「论文翻译」Modeling polypharmacy side effects with graph convolutional networks