Motivition

作者的出发点有几个:

  1. 尽管BERT这种预训练模型取得了state-of-art的成绩。但是、因为他们没有包含真实世界的实体,所以导致这些模型也很难覆盖真实世界的知识
    没有实体没有知识怎么办呢?Knowledge bases、知识库有。
  2. 知识库不仅拥有丰富的高质量、人类产生的知识,而且他们包含与原始文本中互补的信息,还能够编码事实性的知识。所以用知识库可以解决因不频繁出现但是常识的mention或者长距离依赖造成的难以学习选择偏好的问题

一些解释

  1. 实体(Entity):知识库中完整定义的,唯一存在的条目,每一个实体都可以看作是指代它的名词短语或代词构成的集合
    例:(巴拉克-奥巴马={美国总统,奥巴马,第44任美国总统,他})。
  2. 指称(mention):实体在自然语言文本中的别名或另一种指代形式。
    例:美国总统(名词词组)、奥巴马(命名实体)、第44任美国总统、他(代词)等。
  3. 选择偏好(Selectional Preference):动词的倾向性。谓语(Predicate)对其论元(Argument)是有一定选择倾向性的,不是什么词语都可以通过简单排列组合进行搭配的。[百度百科]

KnowBert

KAR

关键思想

关键思想:在输入文本中显式建模实体跨度(Entity spans),并使用实体链接器(Entity Linker)从KB中检测mention、检索相关的实体嵌入(Entity embeddings),以形成知识增强的实体跨度表示形式。然后使用word-to-entity attention将单词的表示重新上下文化,以携带全部的实体信息。

优点

  1. 不针对特定任务,可以fine-tune
  2. 轻量,增加了少量的参数和运行时间
  3. 便于融合其他KB

方法

1、他人工作:从KB中检测mention、检索相关的实体嵌入(Entity embeddings)

输入:文本
输出:候选实体列表 C C C与之对应的先验概率
例: Prince sang Purple Rain, she …
[Prince] sang [Purple [Rain]],[she]…


检测mention的方法是2017年的共指消解文章中提及的方法,这里就不展开介绍了,作者也是拿来直接用。2017年的文章做了这两个事情,1、mention检测。2、共指消解。举个例子,输入文本Prince sang Purple Rain, she …,通过mention检测可以获得[Prince] sang [Purple [Rain]],[she],这几个mention,然而这句话当中,Prince和she共同指代同一个实体,那在传统的embedding方式中这个Prince和she的编码可能不太一致,共指消解的目的就是消除这样的不一致。
至于检索相关的实体,作者使用的是基于规则的方式,也是前人的工作。
Entity embeddings呢,对于不同的数据库作者的做法不完全一致,作者使用三类数据库中的知识,对于图结构的数据库,作者使用了2019年知识图谱embedding的最新工作获得实体嵌入,对于仅有实体元数据的数据库,作者在实验部分介绍到他们使用doc2vec的方式直接从Wikipedia描述中学习Wikipedia页面标题的300维嵌入。两种融合在一起的数据库作者也介绍了他们使用的方法。
总之,在本文中,输入一段文本,作者可以检测其中的mention,检索获得对应的Entity Embedding列表,同时也获得实体对应的先验概率。这些是不参与训练的。

KAR


KAR插入在BERT层间, H i H_i Hi是整个KAR的输入,是BERT的层间的隐状态。

  1. 第一步为了与Entity Embedding维度一致,对 H i H_i Hi做了一个线性投影,得到了 H i p r o j e c t H_i^{project} Hiproject
  2. 第二步作者使用之前提到过的共指消解的方法,检测到Prince、Purple Rain和Rain这三个mention,并进行了消解,得到了消解后的编码 S S S。这个 S S S是mention跨度的表示。
  3. 第三步,作者通过一个多头self attention,使得mention可以获得全局信息,进而影响到后续的链接决策中,这一步得到了 S e S^e Se
  4. 第四步,也就是之前提到的Entity Linker,作者希望通过训练得到一个可以将mention正确连接到对应实体embedding的连接器。首先、他将每个mention对应的候选实体列表中的实体embedding依次打分。打分的方式是这个公式

    如果我们有ground truth,也就是这个mention所应该真正对应的实体,那么我们就可以对连接器进行训练。
    Loss使用的是这两个当中的之一:


    都是希望groundtruth对应的打分应该高。Max-margin loss还希望除了groundtruth的其他打分应该比较低。
    在回到我们的第四步,作者将mention对应的打分列表作为了权重,加权实体embedding求和和得到了 e m e^m em
  5. 第五步就是将 s m e s_m^e smee ~ m \widetilde{e}^m e m做一个相加,得到 s ′ m e {s'}_m^e sme。整体上就是 S ′ e {S'}^e Se,这也就是将知识加入到了实体跨度的表示当中。
  6. 第六步类似transformer的解码过程,Attention中的Q是 H i p r o j e c t H_i^{project} Hiproject、K,V是 S ′ e {S'}^e Se

训练过程

实验

  • KnowBert+Wiki。知识库来源与CrossWikis和YAGO dictionary,实体embedding方式是使用doc2vec直接从Wikipedia描述中学习Wikipedia页面标题的300维嵌入,在这个模型中,作者没用到知识库中的图结构,他说早期的实验证明,在这个知识库中,图结构没用。
  • KnowBert+WordNet,知识库来源于WordNet中的同义词和词根,embedding方式是TuckER,2019年比较新的知识图谱embeding方式,通过图结构获得同义词和词根的200维表示,然后对于每个同义词的释义,通过一个sentence embedding的方式获得2048维的表示,拼接在一起再线性变化到200维。

论文笔记《Knowledge Enhanced Contextual Word Representations》相关推荐

  1. 论文笔记之Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...

  2. 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...

  3. 论文笔记Understanding and Diagnosing Visual Tracking Systems

    最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...

  4. 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...

  5. 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)

    追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...

  6. ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...

  7. Understanding and Diagnosing Visual Tracking Systems

    文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...

  8. CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...

  9. ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...

  10. CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

最新文章

  1. es6学习笔记-module_v1.0_byKL
  2. 2020前三季度各省市人均收入来了!看看你的家乡排第几?
  3. 在vue中没有数据的渲染方法
  4. CentOS下mysql数据库常用命令总结
  5. ae制h5文字动画_AE文字拉伸动画如何制作
  6. 台积电5nm来了!谁会是第一个吃螃蟹的人
  7. jquery's json url
  8. 2.5、调用后置处理器
  9. mysql 触发器条件判断偶尔失效_mysql┃多个角度说明sql优化,让你吊打面试官!...
  10. jmeter java性能_使用JMeter进行性能测试(Java请求)
  11. maven中使用MySQL
  12. ogg怎么转换成mp3格式?
  13. MFC基于对话框使用dll进行多语言切换
  14. 魔兽世界3.35+mysql_最新魔兽世界3.35兔子王版本商业一键启动服务端+启动教程
  15. ai水墨晕染效果_AI可能是一位优秀的西方画家,但它在中国水墨画中表现良好吗?...
  16. 【paper-note4】Reconfiguring the Imaging Pipeline for Computer Vision
  17. c语言西华大学陈晓亮,计算机与软件工程学院
  18. [Android]混淆Android代码
  19. TR-069协议简介
  20. excel数据转换成对应公式

热门文章

  1. linux设置密码报错automa,opensuse linux环境下ibm_websphere和ibm_db2安装以及DB2数据迁移操...
  2. 现货白银多头积累不足
  3. 东方Project题目 1975 红魔馆爆炸了
  4. 《OpenSSL3.0学习之二十 提供程序-kdf》
  5. [附源码]SSM计算机毕业设计智慧农产品朔源系统JAVA
  6. 台式计算机风扇,台式电脑风扇声音大怎么办_台式风扇噪音大怎么解决
  7. python毕业设计之django+vue流浪宠物动物救助领养网站
  8. 直播带货平台开发如何实现抗丢包技术
  9. 在c51语言中当while语句中条件,在C51语言中,当while语句中的条件为时,结束循环...
  10. 代谢组学以冬虫夏草多糖的益生机制为例研究和发现关键肠道菌群