[ACL 2021] Explicitly Capturing Relations between Entity Mentions via Graph Neural Networks for Domain-specific Named Entity Recognition
运用图神经网络进行命名实体识别
原文链接:https://par.nsf.gov/biblio/10287109


摘要

对一般领域的命名实体识别(NER)进行了很好的研究,最近的系统在识别普通实体类型方面达到了人类水平的表现。然而,对于那些往往具有复杂语境和行话实体类型的专业领域来说,NER的性能仍然是中等的。为了应对这些挑战,我们建议在全局核心推理关系和局部依赖关系的基础上明确连接实体提及,以建立更好的实体提及表示。在我们的实验中,我们通过图神经网络将实体提及关系纳入其中,并表明我们的系统在两个不同领域的数据集上明显地提高了NER的性能。我们进一步表明,即使只有少量的标记数据可用,我们提出的轻量级系统也能有效地将NER性能提升到一个更高的水平,这对于特定领域的NER来说是可取的。

1 引言

对一般领域的命名实体识别(NER)进行了很好的研究,最近的系统在识别少数常见的命名实体类型(如人和组织)方面取得了接近人类水平的性能,主要受益于神经网络模型的使用(Ma和Hovy,2016;Yang和Zhang,2018)和预训练的语言模型(LM)(Akbik等人,2018;Devlin等人,2019)。然而,对于专业领域来说,其性能仍然适中,这些领域往往具有多样化和复杂的背景,以及更丰富的语义相关实体类型(例如,生物医学领域的细胞、组织、器官等)。考虑到这些挑战,我们假设意识到同一实体以及语义相关实体的重复出现将导致特定领域的更好的NER性能。
       因此,我们建议明确地将文档中具有核心关系或紧密语义关系的实体提法连接起来,以更好地学习实体提法的表征。确切地说,如图1所示,我们首先将同一实体的重复提及连接起来,即使它们相隔数句。例如,被命名的实体 "肿瘤血管 "同时出现在标题和S6句子中,但其语境却完全不同。连接文档中重复提到的内容可以整合上下文线索,并能对其实体类型进行一致的预测。

其次,我们还根据句子层面的依存关系将实体提及连接起来,以有效识别语义上相关的实体。例如,句子S3中的两个实体,即多组织结构类型的 "骨髓 "和细胞类型的 “内皮祖细胞”,在依赖树中分别是谓词 "包含 "的主语和宾语。如果系统能够可靠地预测一个实体的类型,我们就可以更容易地推断另一个实体的类型,因为我们知道它们在依赖树上是密切相关的。
       我们通过使用图谱神经网络(GNNs)纳入这两种关系,具体而言,我们使用图谱注意力网络(GATs)(Velickovic等人,2018),该网络已被证明对一系列任务有效(Sui等人,2019;Linmei等人,2019)。经验结果表明,我们的轻量级方法可以为序列标签模型学习更好的词表征,并在两个数据集上进一步提高NER的性能,即来自生物医学领域的AnatEM(Pyysalo和Ananiadou,2014)数据集和来自行星科学领域的火星(Wagstaff等人,2018)数据集,比基于强大的LMs基线。此外,考虑到缺乏注释对特定领域NER的挑战,我们绘制了学习曲线,并表明在有限的注释可用时,利用实体提及之间的关系可以有效和持续地提高NER的性能。

2 相关工作

NER研究由来已久,最近的方法(Yang and Zhang, 2018; Jiang et al., 2019; Jie and Lu, 2019; Li et al., 2020)使用BiLSTM-CNN-CRF(Ma and Hovy, 2016)等神经网络模型和BERT(Devlin et al., 2019)和FLAIR(Akbik et al., 2018)等语境嵌入,将一般领域的NER性能提高到人类水平。然而,由于有限的注释和处理复杂的特定领域语境的挑战,特定领域的NER性能仍然是中等的。
       我们旨在通过考虑实体提及之间的核心推理关系和语义关系来进一步提高NER的性能。这与通常认为NER是在核心推理解析或实体关系提取之前进行的上游任务的方式相反。这个想法与最近在多个信息提取任务之间进行联合推理的工作一致(Miwa和Bansal,2016;Li等人,2017;Bekoulis等人,2018;Luan等人,2019;Sui等人,2020;Yuan等人,2020),包括NER、核心推理和关系提取,通过挖掘提取之间的依赖关系。然而,联合推理方法需要对所有目标任务进行注释,并旨在提高所有任务的性能,而我们的轻量级方法旨在提高基本的NER任务的性能,不需要额外的注释(通常对特定领域不可用)。
       我们的方法也与最近几种鼓励实体提及之间的标签依赖性的NER的神经方法有关。Pooled FLAIR模型(Akbik等人,2019)提出了一个全局池化机制来学习单词表征。Dai等人(2019)使用一个带有正则器的核心参考层来协调词的表征。与我们的工作密切相关的是,Qian等人(2019)使用图神经网络来捕捉同一单词的重复,但在一个更密集的图中,包括相邻单词之间的边缘,并且是为了完全覆盖低层编码层。记忆网络(Gui等人,2020;Luo等人,2020)也被用来存储和完善基础模型的预测,考虑到单词的重复或共同出现。此外,依赖关系通常被用来连接实体进行关系提取(Zhang等人,2018;Bunescu和Mooney,2005),但我们的目的是通过将一个实体与句子中其他密切相关的实体联系起来,更好地推断其类型。

3 模型结构

我们的实体关系图(EnRelG)系统主要包含5层,如图2所示:嵌入层、编码层、GNNs层、融合层和解码层。

3.1 嵌入层

我们选择BERT-base LM作为我们的嵌入层。对于特定领域的数据集,我们在生物医学领域使用BioBERT(Lee等人,2020),在行星科学领域使用SciBERT(Beltagy等人,2019)。具体来说,对于一个有n个单词的输入文档 D=[w1,w2,...,wn]D=[w_1, w_2, ..., w_n]D=[w1​,w2​,...,wn​],BERT模型将输出一个上下文单词嵌入矩阵 E=[w1,w2,...,wn]∈Rn×d1E=[w_1, w_2, ..., w_n]∈R^{n×d_1}E=[w1​,w2​,...,wn​]∈Rn×d1​,每个单词有一个 d1d_1d1​ 维向量。

3.2 编码层

为了捕捉连续的上下文信息,我们使用BiLSTM层对BERT模型的词嵌入进行编码。我们将前向和后向的LSTM隐藏状态连接起来作为编码的表示,然后得到嵌入矩阵 Elstm=BiLSTM(E)∈Rn×d2E^{lstm} = BiLSTM(E) ∈ R^{n×d_2}Elstm=BiLSTM(E)∈Rn×d2​,每个词有一个 d2d_2d2​ 维的向量。

3.3 图神经网络层

对于GNNs层,我们首先介绍如何利用实体之间的全局核心推理关系(coreference graph,C-graph)和局部依赖关系(dependency graph,D-graph)建立实体关系图,然后描述GNNs模型如何将其纳入词的表示。
       推理关系图。对于每个文档,我们根据核心推理关系建立一个图 GC=(V,AC)G^C=(V, A^C)GC=(V,AC),其中 VVV 是表示文档中所有单词的节点集合,ACA^CAC 是相邻矩阵。具体来说,我们使用 3 种句法核心推理线索来近似实体核心推理关系,如图1:
       (1)精确匹配,如果两个名词相同,则连接在一起,例如,标题和 S6 中的 “肿瘤血管”;
       (2)词法匹配,如果两个名词有相同的词法,则连接在一起,例如。S3和S6中的 "progenitors "和 “progenitor”;
       (3)缩略语匹配,缩略语词与所有全称表达词相连,如S6中的 "VEGF "和 “血管内皮生长因子”。
       对于每个连接的节点对 (i,j)(i,j)(i,j),我们设置 Ai,jC=1A^C_{i, j} = 1Ai,jC​=1。我们还为每个节点添加一个自我连接(Ai,iC=1A^C_{i, i} = 1Ai,iC​=1),以保持词的原始语义信息。
       依赖关系图。我们根据句子层面的依赖关系,为每个文档建立一个依赖关系图 GD=(V,AD)G^D=(V,A^D)GD=(V,AD)。我们首先使用 scispaCy2scispaCy^2scispaCy2 工具对每个句子进行解析,然后在依赖树中连接以下词对:
       (1)主语头词和宾语头词及其谓语,我们把它们连接起来,以加强主语和宾语的实体之间的相互作用。例如,"marrow (骨髓)"和 "progenitors(祖先) "与S3中的谓语 “contains(包含)”。(2)复合词&头词,我们把复合词和它们的头词联系起来,因为它们经常同时存在于一个实体中。例如,S3中的 "骨 "和 “髓”。和以前一样,我们为每个连接对(i,j)(i, j)(i,j)设置 Ai,jD=1A^D_{i,j} = 1Ai,jD​=1,同时为每个节点添加自我连接(Ai,iD=1A^D_{i,i} = 1Ai,iD​=1)。
       然后,我们用基于 GNN 的实体关系图更新编码后的词嵌入,特别是 GATs。由于节点代表文档中的词,我们将编码层中的图中的节点表示初始化为 Elstm=[w1lstm,w2lstm,...,wnlstm]E^{lstm} = [w^{lstm}_1, w_2^{lstm}, ..., w_n^{lstm}]Elstm=[w1lstm​,w2lstm​,...,wnlstm​]。图注意力机制通过聚合其邻居的表示和其相应的归一化关注分数,将节点 wilstmw_i^{lstm}wilstm​ 的初始表示更新为 wignnw_i^{gnn}wignn​。

如公式(1),我们有 K 个关注头,并把它们串联起来(||)作为最终的表示。对于头 k,我们用 WkW^kWk 对所有的相邻节点(NiN_iNi​,从相邻矩阵 AAA 中得到)进行加权,然后用注意力得分 αijkα^k_{ij}αijk​ 进行汇总。 σ是激活函数LeakyReLU。注意力得分 αijkα^k_{ij}αijk​ 的获得方法如下(aTa^TaT 是一个权重向量)。

对于两个关系图中的每一个,我们都使用一个独立的图注意层。两个GAT 的输出词表示被表示为:GC=[w1gnn(C),w2gnn(C),...,wngnn(C)]∈Rn×d3G^C = [w_1^{gnn(C)},w_2^{gnn(C)}, ..., w_n^{gnn(C)}] ∈ R^{n × d_3}GC=[w1gnn(C)​,w2gnn(C)​,...,wngnn(C)​]∈Rn×d3​ 和 GD=[w1gnn(D),w2gnn(D),...,wngnn(D)]∈Rn×d3G^D = [w_1^{gnn(D)},w_2^{gnn(D)}, ..., w_n^{gnn(D)}] ∈ R^{n × d_3}GD=[w1gnn(D)​,w2gnn(D)​,...,wngnn(D)​]∈Rn×d3​ ,每个词的维度为 d3d_3d3​。

3.4 融合层

与Sui等人(2019)类似,我们也使用融合层来混合编码的词嵌入和GNNs更新的词嵌入。我们首先使用线性变换将这些嵌入投射到相同的隐藏空间,然后将它们相加,如 F=WNElstm+WCGC+WDGDF = W_NE^{lstm} + W_CG^C + W_DG^DF=WN​Elstm+WC​GC+WD​GD,其中 WNW_NWN​ , WCW_CWC​, WDW_DWD​ 是可训练的权重。然后,我们将有一个特征矩阵 F∈Rn×d4F∈R^{n×d_4}F∈Rn×d4​,用于混合 nnn 个词的顺序语境信息和全局实体关系。

3.5 解码层

最后,一个条件随机场(CRF)(Lafferty等人,2001)层被用来将丰富的嵌入 F=[f1,f2,...,fn]F=[f_1, f_2, ..., f_n]F=[f1​,f2​,...,fn​] 解码为一串标签 y={y1,y2,...,yn}y=\{y_1, y_2, ..., y_n\}y={y1​,y2​,...,yn​}。在训练短语中,我们通过最小化相对于金标签的负对数可能性损失来优化整个模型。

4 实验

我们在两个特定领域的数据集上测试我们的模型:来自生物医学领域的AnatEM(Pyysalo和Ananiadou,2014)和来自行星科学领域的Mars(Wagstaff等人,2018)。AnatEM在1212个文档中注释了12种类型的实体,有13701次实体提及;Mars有117个较长的文档,有4458次实体提及,包含3种类型。

4.1 基线模型

NCRF++(Yang and Zhang, 2018)是一个开源的神经序列标签工具包。我们使用BiLSTM-CNN-CRF结构作为基线。
       FLAIR(Akbik等人,2018)是一个基于BiLSTM的字符级预训练LM,它已经被用于许多NER系统(Jiang等人,2019;Wang等人,2019)。我们使用它的嵌入与BiLSTM-CRF架构作为基线。
       Pooled FLAIR(Akbik等人,2019年)是FLAIR模型的扩展版本,具有全局记忆和同一单词的池化机制,这有助于一致预测核心词的实体提及。我们也用它的嵌入与BiLSTM-CRF架构作为基线。
       Tuning Bio/SciBERT 我们还使用具有BiLSTM-CRF架构的Bio/SciBERT作为AnatEM/Mars数据集的基线,与我们的系统相比,它没有GNNs层或融合层。

4.2 结果

为了缓解随机湍流,我们使用不同的随机种子对所有系统进行了五次训练,并使用相同的脚本5评估它们在测试集上的平均性能,如表1所示。

我们可以看到,在所有的系统中,我们的系统在全局实体核心推理和局部依赖关系方面的表现最好。与AnatEM上的BioBERT相比,它的平均F1得分提高了0.88分(84.41%对83.53%),与Mars上的SciBERT相比,提高了0.62分(90.57%对89.95%)。此外,核心推理和依赖关系都有助于提高NER的性能。具体来说,我们的模型与核心推理或依赖关系图在AnatEM数据集上的F1得分提高了0.64分或0.7分,在Mars数据集上提高了0.32分或0.34分。

4.3 学习曲线

特定领域NER系统的一个主要限制是缺乏注释,因此,最好地利用标记数据是至关重要的。学习曲线(图3)显示,即使只有极少量的标注数据(训练数据的四分之一),利用实体提及之间的关系可以有效地将NER的性能提升到一个更高的水平,这在AnatEM数据集和Mars数据集上都是如此。

4.4 计算成本的分析

尽管微调预训练的LMs提高了许多NLP任务的性能,但一个限制是训练时间的增加。因此,在预训练的LMs基础上建立高效的计算模型是非常重要的。如图4所示,我们带有GNNs层的模型并没有增加微调BERT模型的时间成本。带或不带GNNs层的方法的训练时间是相似的。

4.5 依赖关系图中的边缘选择

为了构建句子层面的依存关系图,我们只选择了两类依存关系:主语、宾语和它们的谓语之间(关键边)以及复合修饰语和它的头部词之间。如表2所示,我们也尝试将所有的修饰语与它们的头词连接起来,发现这样做产生的性能略差,原因可能是除化合物之外的许多修饰语本身不是实体。此外,包括所有的依存关系边缘也比使用这两种选定的依存关系产生更差的性能,可能是由于同样的原因,依存关系树中的许多节点不是实体提及的部分,许多依存关系并不直接有助于捕捉实体之间的关系。

5 结论

在这项工作中,我们明确地捕获了实体提法之间的全局核心推理和局部依赖关系,并使用图神经网来纳入这些关系以改善特定领域的NER任务。在两个数据集上的实验结果显示了这种轻型方法的有效性。我们还发现,实体关系的选择对系统的性能很重要。未来的工作可能会考虑使用GNNs来纳入外部知识以提高性能。


如有错误,请及时联系我,谢谢

【论文分享】通过图神经网络明确捕捉实体提及的关系,用于特定领域的命名实体识别相关推荐

  1. [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  2. 【论文翻译】SHINE 一个用于特定领域实体与异构信息网络链接的通用框架

    SHINE 一个用于特定领域实体与异构信息网络链接的通用框架 摘要 由多种类型的互联对象组成的异构信息网络正变得越来越流行,例如社交媒体网络和书目网络.在异构信息网络中,将从非结构化文本中检测到的命名 ...

  3. KDD 2020 开源论文 | GPT-GNN:图神经网络的生成式预训练

    论文标题:GPT-GNN: Generative Pre-Training of Graph Neural Networks 论文链接:https://arxiv.org/abs/2006.15437 ...

  4. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  5. 业界分享 | 百度图神经网络实践

    作者 | 黄正杰 来源 | DataFunTalk 图是一个复杂世界的通用语言,社交网络中人与人之间的连接.蛋白质分子.推荐系统中用户与物品之间的连接等等,都可以使用图来表达.图神经网络将神经网络运用 ...

  6. ICLR'22上的47页“神仙论文” | 子图聚合图神经网络

    论文地址:https://arxiv.org/pdf/2110.02910.pdf 欢迎关注小编知乎:戴鸽 一篇全文47页的ICLR文章,真的看不完.作者提出了一种新的等变子图聚合网络(ESAN)来改 ...

  7. 论文阅读|基于图神经网络的配电网故障定位方法

    来源:北京交通大学硕士学位论文,2022 摘要 电网拓扑形态多样,重构场景频繁,,传统故障定位方法的单一阈值设定无法满足要求,基于人工智能的配电网故障定位技术具有很大的应用潜力,但仍存在着拓扑关联性差 ...

  8. 论文 | 导航 | 2022年亚利桑那州立大学硕士论文《图神经网络与优势Actor-Critic强化学习算法用于多智能体导航》

    原创 Manaswini A 图科学实验室Graph Science Lab 2022-06-11 08:00 发表于台湾 图神经网络 (GNN) 是一种神经网络架构,它对由对象及其关系组成的数据进行 ...

  9. 论文浅尝 | 图神经网络的对抗攻击和防御相关文献集

    本文转载自公众号:专知. 作者:Wei Jin. 导读:本资源整理了关于图形数据或GNN(图形神经网络)上的对抗攻击和防御的论文链接.并对其进行分类. 目录 Survey Papers Attack ...

最新文章

  1. CUDA程序优化技巧
  2. 【渝粤教育】国家开放大学2018年春季 3781-22T燃气燃烧技术与设备 参考试题
  3. Win10 OpenCV3.3.0+VS2013配置大坑,OpenCV解决方案编译报错“找不到python36_d.lib”错误...
  4. 在Windows 7解决GAC错误
  5. 技本功丨甲方大人来了之运维数据分析平台搭建实战
  6. (转)编码剖析Spring装配基本属性的原理
  7. android 分析so崩溃,分析libunity.so Release崩溃
  8. centos7 二进制安装mysql,Centos7 二进制安装mysql5.7
  9. Linux用户管理命令详解,useradd、passwd
  10. [论文阅读] BCNet: Bidirectional collaboration network for edge-guided salient object detection
  11. 获取android型号代码,Android应用开发之Android获取手机品牌、手机型号、手机唯一序列号的代码教程...
  12. Ubuntu环境下导入tensorflow弹出FutureWarning: Passing (type, 1)的解决办法
  13. C# 实现程序只启动一次(多次运行激活第一个实例,使其获得焦点,并在最前端显示)...
  14. vivado 开发教程(二) 使用IP集成器
  15. itx机箱尺寸_讲解 ATX M-ATX ITX 各种主板尺寸
  16. Pikachu-敏感信息泄露
  17. JavaScript验证邮箱格式是否正确
  18. 20172307 / 20172311 结对编程项目-四则运算 第三周总结
  19. 曾仕强《领导的沟通艺术》
  20. lisp语言cond和if套用_LISP语言入门(CLISP)

热门文章

  1. 在c语言中大写字母加32,求问个c语言问题:如图,为什么+32后可以大小写转换...
  2. 剑网三的哪个服务器是最新的,横向对比剑网3怀旧服有多良心?这三点区别你要知道!...
  3. MySQL备份和恢复具体实施
  4. 【生成函数】五边形数定理与整数划分问题详解
  5. JavaScript基础: DOM中操作属性以及自定义属性
  6. Dev-C++5.11游戏创作之迷你世界3
  7. 一键创建kafka集群
  8. HTML5 IndexedDB本地存储介绍
  9. 520教你用Jsoup爬哲理励志鸡汤文
  10. 找对方法,事半功倍!有目标抓重点!