Improving Entity Linking by Modeling Latent Relations between Mentions

论文地址:https://aclanthology.org/P18-1148/

代码地址:https://github.com/lephong/mulrel-nel

Abstract

实体链接(EL)系统经常利用文档中提及之间的关系(如共指关系)来决定链接决策是否兼容。与以往依靠监督系统或启发式预测这些关系的方法不同,作者在神经 EL 模型中将关系视为隐变量。在端到端地训练EL 模型时,作者在没有任何监督信息的情况下引入提及之间的关系。作者提出的 multi-relational 模型的训练也收敛得更快,这表明引入的结构偏差有助于解释训练数据中的规律性。

1 Introduce

给文档中所有的提及指派相应的实体,受到文档语义的影响,例如上面的例子中,如果 World Cup

被认为是 FIFA_World_Cup,那么第二个 England 相比于篮球队,更应该选择指派为足球队。

在以往的研究中,实体链接的全局一致性的基本假设一般定义为:“来自同一个领域的实体的兼容性更好”。这在经验上取得了一定的成功,但是在这样的假设下,上面的文档中出现的所有 England 都会倾向于映射到同一个实体。

针对上面的问题,作者提出了新的假设:“提及之间的关系可以在没有(或很少)领域知识的情况下被归纳出来” 。所以作者将提及之间的关系编码为隐变量,并以此提升 EL 模型表现。与其他基于表示学习的研究相同(如 Ganea and Hofmann, 2017),模型也学习 mention、context、relation 的嵌入表示。

作者提出的 multi-relational 模型,相比于“关系不可知”的模型取得了很大的进步,同时模型的训练收敛时间相比于认为“关系不可知”的模型短了10倍。这也许说明引入的结构偏差有助于解释训练数据中的规律,使优化任务更容易。

作者将编码成隐变量的关系称为 “诱导关系” ,作者发现一部分 “诱导关系” 与共指关系密切相关,另一些则编码提及之间的语义相关性。

2 Background and Related work

一般的实体链接方法分为两类:局部模型&全局模型

局部模型
ei∗=arg⁡max⁡ei∈CiΨ(ei,ci)e_i^* = \arg\max_{e_i \in C_i}\Psi(e_i, c_i) ei∗​=argei​∈Ci​max​Ψ(ei​,ci​)
链接决策只依赖于提及的上下文,不考虑其他链接。

全局模型
E∗=arg⁡max⁡E∈C1×...×Cn∑i=1nΨ(ei,ci)+Φ(E,D)E^* = \arg\max_{E \in C_1 \times ... \times C_n}\sum_{i=1}^{n}\Psi(e_i, c_i)+\Phi(E,D) E∗=argE∈C1​×...×Cn​max​i=1∑n​Ψ(ei​,ci​)+Φ(E,D)
全局模型考虑链接实体之间的一致性。其中(2)式的第二项表示链接决策的一致性,当它选择最简单的形式时,式子变成:
E∗=arg⁡max⁡E∈C1×…×Cn∑i=1nΨ(ei,ci)+∑i≠jΦ(ei,ej,D)E^{*}=\underset{E \in C_{1} \times \ldots \times C_{n}}{\arg \max } \sum_{i=1}^{n} \Psi\left(e_{i}, c_{i}\right)+\sum_{i \neq j}\Phi(e_i, e_j, D) E∗=E∈C1​×…×Cn​argmax​i=1∑n​Ψ(ei​,ci​)+i​=j∑​Φ(ei​,ej​,D)
(3)式的求解是NP-hard的问题,可以使用循环置信传播(LBP)等方法进行近似求解

如何定义局部得分函数 Ψ\PsiΨ 和成对得分函数 Φ\PhiΦ ,作者参考了 2017 年 Ganea 和 Hofmann 的基于表示学习的方法,如下所示:
Ψ(ei,ci)=eiTBf(ci)Φ(ei,ej,D)=1n−1eiTRej\Psi(e_i, c_i) = e_i^T \bold B f(c_i)\\ \Phi(e_i, e_j, D) = \frac{1}{n-1}e_i^T\bold Re_j Ψ(ei​,ci​)=eiT​Bf(ci​)Φ(ei​,ej​,D)=n−11​eiT​Rej​
其中 ei,eje_i, e_jei​,ej​ 都是实体嵌入,函数 f(ci)f(c_i)f(ci​) 将注意机制应用于 cic_ici​ 中的上下文词,以获得上下文的特征表示,B,R\bold B, \bold RB,R 都是对角矩阵。目前成对一致性的全局项是不能体现实体之间的关系和顺序的,作者认为成对一致性应该考虑到以关系嵌入作为表示形式的提及之间的关系信息。

3 Multi-relational models

作者一共提出了三种形式分别为:general、rel-norm、ment-norm,下面分别对这三种模型进行说明。

3.1 General form

作者假设存在 KKK 个隐关系,每个关系 kkk 被赋予给每个提及对 (mi,mj)(m_i, m_j)(mi​,mj​), 还给出相应的非负数的置信度 αijk\alpha_{ijk}αijk​ ,则成对得分表示为特定关系得分的加权求和:
Φ(ei,ej,D)=∑k=1KαijkΦk(ei,ej,D)\Phi(e_i, e_j, D) = \sum_{k=1}^K\alpha_{ijk}\Phi_k(e_i, e_j, D) Φ(ei​,ej​,D)=k=1∑K​αijk​Φk​(ei​,ej​,D)
其中 Φk(ei,ej,D)\Phi_k(e_i, e_j, D)Φk​(ei​,ej​,D) 作者表示如下,其中 Rk\bold R_kRk​ 是一个对角矩阵,表示关系 k
Φk(ei,ej,D)=eiTRkej\Phi_k(e_i, e_j, D) = e_i^T \bold R_k e_j Φk​(ei​,ej​,D)=eiT​Rk​ej​
权重 αijk\alpha_{ijk}αijk​ 表示为归一化分数,其中 Dk\bold D_kDk​ 是一个对角矩阵,ZijkZ_{ijk}Zijk​ 是归一化因子,f()f()f()函数将 (mi,ci)(m_i, c_i)(mi​,ci​) 映射为向量
αijk=1Zijkexp⁡{fT(mi,ci)DkfT(mj,cj)d}\alpha_{ijk} = \frac{1}{Z_{ijk}} \exp \{\frac{f^T(m_i, c_i)\bold D_k f^T(m_j, c_j)}{\sqrt{d}}\} αijk​=Zijk​1​exp{d​fT(mi​,ci​)Dk​fT(mj​,cj​)​}
Note

  1. 作者选择单层神经网络作为 fff 函数(LSTM 出现严重过拟合,效果较差)。
  2. 因为 αijk\alpha_{ijk}αijk​ 有索引 jjj 和 kkk 因此可以选择,按照关系(k)(k)(k)进行归一化,或者按照提及(j)(j)(j)进行归一化,归一化因子不同是这三种形式的主要区别。

3.2 Rel-norm: Relation-wise normalization

对于每个提及对,按照一定的概率 αijk\alpha_{ijk}αijk​ 从关系池中选出相应的关系,并依赖关系嵌入计算相似性得分。从这个理解角度上来说,选择关系的概率应该具有归一性,即 αijk\alpha_{ijk}αijk​ 在关系 k 上应该是归一化的:
Zijk=∑k′=1Kexp⁡{fT(mi,ci)Dk′fT(mj,cj)d}∑k=1Kαijk=1Φ(ei,ej,D)=eiT(∑k=1KαijkRk)ejZ_{ijk} = \sum_{k^\prime = 1}^{K} \exp \{\frac{f^T(m_i, c_i)\bold D_{k^\prime} f^T(m_j, c_j)}{\sqrt{d}}\} \\ \sum_{k=1}^{K} \alpha_{ijk} = 1 \\ \Phi(e_i, e_j, D) = e_i^T (\sum_{k=1}^{K}\alpha_{ijk}\bold R_k) e_j Zijk​=k′=1∑K​exp{d​fT(mi​,ci​)Dk′​fT(mj​,cj​)​}k=1∑K​αijk​=1Φ(ei​,ej​,D)=eiT​(k=1∑K​αijk​Rk​)ej​
实际上,可以不依赖关系嵌入矩阵 Rk\bold R_kRk​ 的线性组合,而是直接预测特定于上下文的关系嵌入Rij=diag{g(mi,ci,mj,cj)}R_{ij}=diag \{g(m_i,c_i,m_j,c_j)\}Rij​=diag{g(mi​,ci​,mj​,cj​)},其中 ggg 是一个神经网络。然而在初步实验中,作者发现这会导致过拟合结果变差。因此,作者选择了使用固定数量的关系作为约束模型和改进泛化的方法。

3.3 Ment-norm: Mention-wise normalization

ment-norm 中的 αijk\alpha_{ijk}αijk​ 可以理解为:对于某种关系 kkk,提及 mim_imi​ 寻找与其满足该关系的 提及,其中 mjm_jmj​ 和 mim_imi​ 在关系 kkk 上的匹配程度即为 αijk\alpha_{ijk}αijk​ 。因此,αijk\alpha_{ijk}αijk​ 需要在除 mim_imi​ 外的所有提及上归一化,即在 jjj 上进行归一化:
Zijk=∑j′=1,j′≠inexp⁡{fT(mi,ci)DkfT(mj,cj)d}∑j=1,j≠inαijk=1Φ(ei,ej,D)=∑k=1KαijkeiTRkejZ_{ijk} = \sum_{j^\prime = 1,j^\prime\neq i}^{n} \exp \{\frac{f^T(m_i, c_i)\bold D_k f^T(m_j, c_j)}{\sqrt{d}}\} \\ \sum_{j = 1,j \neq i}^{n} \alpha_{ijk} = 1 \\ \Phi(e_i, e_j, D) = \sum_{k=1}^K\alpha_{ijk}e_i^T\bold R_k e_j Zijk​=j′=1,j′​=i∑n​exp{d​fT(mi​,ci​)Dk​fT(mj​,cj​)​}j=1,j​=i∑n​αijk​=1Φ(ei​,ej​,D)=k=1∑K​αijk​eiT​Rk​ej​
可以发现,当 αijk\alpha_{ijk}αijk​ 为均匀分布,即 αijk=1n−1\alpha_{ijk} = \frac{1}{n-1}αijk​=n−11​ 时,如果 K=1K=1K=1 ,Ment-norm 的多关系模型就退化成了 2017年 Ganea 和 Hofmann 的模型。

分析当采取 ment-norm 的设置时,对于一对提及(mi,mj)(m_i, m_j)(mi​,mj​)可能会存在以下两种与 rel-norm 不同的情况:

  1. αijk\alpha_{ijk}αijk​ 对于所有的 kkk 都比较小,这表示 mim_imi​和 mjm_jmj​ 之间不存在任何关系
  2. αijk\alpha_{ijk}αijk​ 对于一个或多个 kkk 都比较大,这表示 mim_imi​ 和 mjm_jmj​ 之间预测为存在一个或多个关系

ment-norm 符合注意力机制的特点,对于每个提及 mim_imi​ 和每个 kkk,可以将 αijk\alpha_{ijk}αijk​ 解释为在文档中的提及集合中选择一个提及 mjm_jmj​ 的概率。因为有 KKK 个关系,所有每个提及 最多有 KKK 个提及要关注,对应于多头注意力中的每个头。

Mention padding

ment-norm 存在一个问题,无论这 KKK 种关系是否都存在,都要找出对应的提及,这是因为归一化条件 ∑j=1,j≠inαijk=1\sum_{j = 1,j \neq i}^{n} \alpha_{ijk} = 1∑j=1,j​=in​αijk​=1 , 为了解决这个问题,作者提出在每个文章中添加一个链接到 padding 实体 epade_{pad}epad​ 的 padding 提及 mpadm_{pad}mpad​,通过这种方式,模型可以通过使用 mpadm_{pad}mpad​ 来吸收概率,从而降低跟其他提及的无关关系的概率值。

3.4 Implementation

作者定义了条件随机场 CRF 如下:
q(E∣D)∝exp⁡{∑i=1nΨ(ei,ci)+∑i≠jΦ(ei,ej,D)}q^i(ei∣D)≈max⁡e1,...,ei−1,ei+1,...,enq(E∣D)q(E|D) \propto \exp \{\sum_{i=1}^{n} \Psi(e_i, c_i) + \sum_{i \neq j} \Phi(e_i, e_j, D)\} \\ \hat q_i(e_i|D)\approx \max_{e_1, ..., e_{i-1}, e_{i+1},...,e_n}q(E|D) q(E∣D)∝exp{i=1∑n​Ψ(ei​,ci​)+i​=j∑​Φ(ei​,ej​,D)}q^​i​(ei​∣D)≈e1​,...,ei−1​,ei+1​,...,en​max​q(E∣D)
对于每个提及 mim_imi​,它的最终得分通过下式给出:
ρi(e)=g(q^i(e∣D),p^(e∣mi))\rho_i(e)=g(\hat q_i(e|D), \hat p(e|m_i)) ρi​(e)=g(q^​i​(e∣D),p^​(e∣mi​))
其中,p^(e∣mi)\hat p(e|m_i)p^​(e∣mi​) 表示为先验概率通过统计计数得到,g(∗)g(*)g(∗) 是一个两层的神经网络。

最小化下面的 ranking loss
L(θ)=∑D∈D∑mi∈D∑e∈Cih(mi,e)h(mi,e)=max⁡(0,γ−ρi(ei∗)+ρi(e))L(\theta) = \sum_{D \in \mathcal{D}}\sum_{m_i \in D}\sum_{e\in C_i} h(m_i, e) \\ h(m_i, e) = \max (0, \gamma-\rho_i(e_i^*) + \rho_i(e)) L(θ)=D∈D∑​mi​∈D∑​e∈Ci​∑​h(mi​,e)h(mi​,e)=max(0,γ−ρi​(ei∗​)+ρi​(e))
其中 θ\thetaθ 是模型参数,D\mathcal{D}D 是训练集,ei∗e_i^*ei∗​ 是 ground-truth,使用 Adam 作为优化器。
为了鼓励模型探索更多不同的关系,作者在上面的损失中加入以下正则项:
λ1∑i,jdist(Ri,Rj)+λ2∑i,jdist(Di,Dj)\lambda_1\sum_{i,j}dist(\bold R_i, \bold R_j) + \lambda_2\sum_{i,j}dist(\bold D_i, \bold D_j) λ1​i,j∑​dist(Ri​,Rj​)+λ2​i,j∑​dist(Di​,Dj​)
在实验中,作者将 λ1,λ2\lambda_1, \lambda_2λ1​,λ2​ 都取为 −10−7-10^{-7}−10−7;distdistdist 如下:
KaTeX parse error: Undefined control sequence: \Arrowvert at position 15: dist(x, y) = \̲A̲r̲r̲o̲w̲v̲e̲r̲t̲ ̲\frac{x}{\| x \…
这两个正则项使得最终的关系嵌入不会全都很像,保证了关系的多样性。

4 Experiments

候选实体生成:现根据先验概率选择了 30 个候选实体,保留先验最高的四个候选,再从剩下的里面选出三个 eT(∑w∈diw)\bold e^T(\sum_{w \in d_i}\bold w)eT(∑w∈di​​w) 得分最高的候选,其中 did_idi​ 选提及附近的 50 个词,求他们的嵌入表示的和,在点积求相似度。

5 Conclusion and Future work

作者展示了在实体链接中使用关系的好处。作者提出的模型认为关系是潜在可变的,因此不需要任何额外的监督。表示学习用于学习关系嵌入,避免了特征工程的需要。
在未来工作中,作者希望使用句法和话语结构(例如,提及之间的句法依赖路径)来鼓励模型发现更丰富的关系集合等。

Improving Entity Linking by Modeling Latent Relations between Mentions相关推荐

  1. Neural Entity Linking 方法与进展

    一.实体链接的定义.意义和基本任务 在命名实体识别(Named Entity Recognition)任务中,我们通常把一段token序列认定为一个实体,但严格来说这并不准确,这应该被称为一个提及(M ...

  2. 实体链接(Entity Linking)、依存句法分析、成分句法树、词袋模型、文本向量空间模型(TF-IDF)、

    实体链接(Entity Linking).依存句法分析.成分句法树.词袋模型.文本向量空间模型(TF-IDF) 目录

  3. 医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking

    一.动机 论文:https://arxiv.org/abs/2012.08844 代码:https://github.com/tigerchen52/Biomedical-Entity-Linking ...

  4. 论文笔记 Medical Entity Linking using Triplet Network

    一.动机 实体链接(Entity Linking)或者标准化(Normalization)的目标是将文本中发现的mention链接到知识库中的标准实体.在医疗领域,疾病词的实体链接难度在于缩写.同义词 ...

  5. Combining Word and Entity Embeddings for Entity Linking

    Combining Word and Entity Embeddings for Entity Linking 论文地址:https://perso.limsi.fr/bg/fichiers/2017 ...

  6. Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记

    Entity Linking with a Knowledge Base:Issues, Techniques, and Solutions笔记 阅读文献笔记 1 引言 1.1 动机 1. 网络数据的 ...

  7. 知识图谱实体链接是什么?一份“由浅入深”的综述

    作者 | 尼古拉·瓦砾 来源 | Paperweekly(ID:paperweekly) [导读]这个世界充斥着无数的结构化数据(wiki)和非结构化数据(web),然而,如何将两者有效地集成仍然是个 ...

  8. 小米知识图谱团队斩获CCKS 2020实体链指比赛冠军

    "CCKS 2020:面向中文短文本的实体链指任务"是由中国中文信息学会语言与知识计算专业委员会主办,该比赛主要面向中文短文本的实体链指,简称 EL(Entity Linking) ...

  9. 知识图谱实体链接:一份“由浅入深”的综述

    这个世界充斥着无数的结构化数据(wiki)和非结构化数据(web),然而,如何将两者有效地集成仍然是个非常困难的问题. 作者丨Nicolas 单位丨追一科技AI Lab研究员 研究方向丨信息抽取.机器 ...

最新文章

  1. 这个安全平台结合Spring Security逆天了,我准备研究一下
  2. Linux下gcov和lcov代码覆盖率分析(C/C++覆盖率在NGINX测试中的应用)
  3. 想学习linux服务器、做运维、部署项目的同学看这,linux部署
  4. Spring Boot使用Redis进行消息的发布订阅
  5. datagrid只传入了一部分的数据 未显示全_软件开发面试之数据库事务篇
  6. 扩展 junit 框架_JUnit 5扩展模型的生命周期
  7. STL学习笔记-set的基本原理以及插入、遍历
  8. easyui layout 收缩的bug
  9. c#制作的简单的画图板
  10. DMG Canvas for mac(DMG打包工具)
  11. YOLOv2论文笔记
  12. 使用docx4j生成数据库字典文档
  13. deepstream多路rtsp流,避免相互影响
  14. 小车yolo机械臂(四)python ros 和darknet_ros 使用launch文件启动脚本
  15. maya的颤动怎么做_为什么maya视窗跳动闪烁
  16. Android 360开源全面插件化框架RePlugin 实战
  17. List of file signatures
  18. Microsoft OLE DB Provider for ODBC Drivers 错误 '80004005'解决方案
  19. 为什么低代码治好了CIO们的 “精神内耗” ?
  20. 《Oracle内核技术解密》读书笔记(一)

热门文章

  1. php输出1到100的质数,怎么用PHP写出1到100的质数
  2. 对称加密——AES算法使用
  3. idea如何配置或者创建mybatis的xml文件 idea如何配置或者创建mybatis的配置文件
  4. 基于TCP的网络对战象棋--python
  5. 环宇成功签约世界级海外文旅夜游项目,探索夜游新模式!
  6. 让微信二维码扫描你的APK
  7. 小程序微信支付开发流程记录
  8. 攻防世界pwn新手区整理
  9. python opencv 常用增强 dct变换+侵蚀+扩张+索贝尔算子+直方图均衡化+光照平衡+
  10. 微信小程序 java多商家多用户网上商城购物系统#计算机毕业设计