背景概述与方法概述

背景概述

关于生物医学实体（biomedical entities，比如 drugs 与 targets）之间关系的知识广泛分布在3000多万篇研究文章中，并一直在生物医学科学的发展中发挥着重要作用。在这项工作中，作者提出了一个新框架BERE，用于自动提取大规模文献库中的生物医学关系。BERE使用混合编码网络从语义和句法两个方面更好地表示每个句子，并使用特征聚合网络在考虑所有相关语句后进行预测。实验证明，BERE在生物医学关系提取方面表现良好，并可以发现现有数据库中没有发现的关系，从而指导和推进生物知识的发现。

知识库（来源于生物医药学中的语料库）在生物医学的发展中起着重要的作用。大多数结构化数据库，比如DrugBank，CTD，SIDER，BioGRID，都是从人类专家大量的科学文章中整理出来的。生物医药的信息抽取（infromation extraction）目标是从大量非结构化文本中提取有意义的事实。在此之后，提取的数据可以被输入到下游任务，从而促进生物知识的发现过程。

生物医学研究人员最关心的信息一般分为三类：

生物医学实体，在NLP中，生物医学实体识别对应命名体识别任务，属于语义分析的应用，进一步，将识别结果链接到知识图谱中的实体，这被称为实体链接；
关系Relation（实体之间的交互或关联），关系提取对应NLP中的关系抽取Relation Extraction；
事件（至少与一个实体相关的重要事实或发现），事件提取对应NLP中的事件抽取任务Event Extraction，事件在文本中由触发词Trigger定义。

以上三个应用任务均属于NLP中的信息抽取任务

在该篇论文的工作中，作者主要关注第二类信息：句子中描述的实体之间的生物医学关系，比如药物药物相互作用（DDI），药物靶标相互作用（DTI）。DDI的预测为预防药物不良反应（adverse drug reactions，ADRs）提供了有效途径。DTI的预测是药物重新定位的关键步骤，目的是寻找现有药物的新靶点（novel targets of existing drugs）。而基于机器学习的DDI和DTI模型均建立在结构化的关系数据上，随着NLP的发展，自动生物医学关系提取技术（BioRE）已经被用于加速关系信息的提取，以获得结构化的关系信息。

BioRE的任务通常被表述为在关系注释文本的监督下，从一组句子（bag of sentences）中对大量实体之间的关系进行分类。然而，收集这种带标签的文本很费力，因此提出远距离监督（distant supervised），即所有涉及到同一对实体的句子都用知识库中已标注的关系进行标记，从而扩展数据集。

基于神经网络的模型通常使用CNN，RNN学习句子的语义表示，但却忽略了句子的句法特征。相比之下，考虑句子成分解析树（将单词组织成嵌套短语的一种组成结构）的递归神经网络RvNN能取得更好的预测效果。但是基于递归神经网络的策略存在关键缺点：依赖外部解析器解析句子，变化的树结构与小批量训练不兼容。近年来，自注意力机制在图像识别（智能感知）和机器翻译（智能认知）领域取得了瞩目的表现，主要在于捕捉远程依赖（long-range dependencies）方面的优势。

方法概述 Overview of BERE

基于上述工作，作者提出一种新的机器学习框架BERE，用于从大规模生物医学文献库中自动提取生物医学实体之间的关系。BERE利用自动树学习和自注意力机制充分挖掘句子内部的语义和句法（树结构负责），以及单词之间的短期和长期依赖关系（注意力机制负责）。BERE采用远距离监督方法，减少了人工注释的成本，通过对单句注释的DDI数据集和远距离监督的DTI数据集的测试，证明了论文所提出的BERE在生物医学关系提取方面的优势。

BERE架构如图a所示。给一对在一组句子中共同提到的实体组合（Entity1，Entity2），BERE首先将句子的单词embedding（word embedding）和词性embedding（part-of-speech，POS embedding）连接，表示句子中的每个单词（也称为单词向量，word vector）。然后，每个词向量被输入自注意力层，以捕获远程依赖关系，通过残差连接将其添加回原始词向量。

BERE使用双向GRU编码每个单词的局部上下文特征，随后接一个 Gumbel Tree-GRU，用greedy-based策略在所有可行方案（红色边标记）中找到最优组合方案（绿色边标记）。图b给出了 Gumbel Tree-GRU中的一个操作示例。Gumbel Tree-GRU用于自动挖掘解析树，严格意义上，该解析树为短语结构句法树。

在第 $t$ 步，句子被表示为4个向量的序列（分别表示为"Entity1"、“correlation”、“with"和"Entity2”），下一步，所有相邻向量通过一个共享的Tree-GRU单元进行组合，得到三个候选向量，然后通过一个评分函数进行打分。在步骤 $t + 1$ 中，选择得分最高的候选向量（即"correlation with"）。其他向量直接从步骤 $t$ 复制（即"Entity1"和"Entity2"）。当所有的单词组成一个向量时，最终得到的向量基本上是整个句子的特征表示。为了捕捉目标实体之间的关联，BERE进一步将实体的上下文特征嵌入到句子表示中。最后，BERE使用基于注意力的句子聚合方案计算句子组（bag of sentences），输入分类器获得Entity1和Entity2的关系。

结果与讨论

在单句注释的DDI数据集上测试

作者在单句注释的DDI数据集（DDI’13 dataset）上进行了广泛的测试，将BERE的性能与其他六种最先进的DDI关系提取方法的性能进行比较。训练了每个模型，将句子中提到的一对药物之间的关系分类为5种DDI类型：

{"NA": 0,"advise": 1,"effect": 2,"mechanism": 3,"int": 4
}

并使用 F1 score 评估性能： $2 P R / (P + R)$ ，其中， $P$ 表示 precision， $R$ 表示 recall。

为了实现批量计算，对每个句子进行填充和裁剪，将每个句子的长度固定为60个单词，这比数据集中85%的句子都长，目的是为了取得效率与准确性之间的平衡。在输入表示之后与分类器之前应用Dropout缓解过拟合。Table1显示了DDI提取的性能（关系识别的准确率），BERE优于所有的baseline，与RvNN相比，BERE不需要外部的解析工具构造解析树，能够端到端（不依赖人工设计的特征或外部工具）地学习解析句子。

在远程监督的DTI数据集上进行测试

为了更好验证BERE在远程监督数据集上的有效性，我们在一个远程监督DTI数据集上，将BERE与其他具有代表性的基于远程监督的RE方法进行比较，其中每个药物-靶标关系都由一组语句支持。在所有的beseline中，PCNN-AVE和PCNN-ATT采用相似的基于CNN的方式对句子编码，但采用了不同的句子聚合策略（前者为平均策略，后者引入注意力策略）。类似的，BiGRU-ATT和BiGRU-2ATT都基于双向GRU，但是BiGRU-2ATT使用了额外空间下的注意力。作者训练每个模型，用于分类药物-靶标之间的关系（6个类型），使用precision-recall曲线衡量各个模型的表现，并计算precision-recall的面积AUPRC以及F1 score。

上图a是BERE和其他先进方法之间的precision-recall比较。图b是BERE构建的解析树示例，对于句子：“Irinotecan toxicity correlates with UGT1A1 activity”，Irinotecan是一种药物，UGT1A1是靶标；对于句子：“Moexipril is a new, long-acting angiotensin-converting enzyme inhibitor”，moexipril是一种药物，angiotensin-converting enzyme是靶标。图b证明了BERE可以像人类一样解析句子。

Discussion

在这项工作中，作者提出了BERE，一个新的机器学习框架，可以自动实现从非结构化的生物医学文献中抽取关系。BERE通过内部的Gumbel Tree-GRU分析句子（构建句法分析中的短语结构句法树），利用BiGRU和自注意力机制捕捉短期和长期依赖关系，将实体的局部上下文特征融入句子编码中，可以从语义和句法两方面充分利用句子信息。虽然这种混合特征表示方法可能会给模型带来更多的复杂性，但所产生的开销主要是训练时间的增加。一旦BERE得到良好的训练，就可以使用它从广泛分布的文本中快速提取对应关系。

总之，BERE对现有的单句注释DDI数据集，远程监督DTI数据集进行测试，实验表现证明BERE在生物医学文本的关系提取中具有很大优势。

从大规模文献库中实现生物医学关系抽取相关推荐

Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架
今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章.在文中,作者提出了一种从大规模文献库中自动提取生物医学关系 ...
nlp中的实体关系抽取方法总结
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要35分钟跟随小博主,每天进步一丢丢来自:知乎地址:https://zhuanlan.zhihu.com/p/77868938 作者:Jay ...
NLP中的关系抽取方法归纳
文章目录前言命名实体识别任务 Softmax和CRF 指针网络 span排列关系分类任务半监督学习方法基于远程监督的优化多示例学习强化学习预训练监督学习方法联合抽取共享参数的联合 ...
基于主体掩码的实体关系抽取方法
点击上方蓝字关注我们基于主体掩码的实体关系抽取方法郑慎鹏1, 陈晓军1, 向阳1, 沈汝超2 1 同济大学电子与信息工程学院,上海 201804 2 上海国际港务(集团)股份有限公司,上海 200 ...
深度学习实体关系抽取研究综述笔记
鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述.软件学报,2019,30(6): 1793−1818. http://www.jos.org.cn/1000-982 ...
达摩院文档级关系抽取新数据集和五元组抽取新任务
©PaperWeekly 原创 · 作者 | 邴立东.谭清宇等单位 | Alibaba DAMO, NUS, SUTD 关系抽取(RE)是 NLP 的核心任务之一,是构建知识库.事件抽取等下游应用的 ...
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
作者丨罗凌学校丨大连理工大学博士生研究方向丨深度学习,文本分类,实体识别联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器 ...
论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习
本文转载自公众号:PaperWeekly. 作者丨罗凌学校丨大连理工大学博士生研究方向丨深度学习,文本分类,实体识别联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然 ...
[论文阅读笔记52]深度学习实体关系抽取研究综述
来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

从大规模文献库中实现生物医学关系抽取

目录