论文笔记《Knowledge Enhanced Contextual Word Representations》
Motivition
作者的出发点有几个:
- 尽管BERT这种预训练模型取得了state-of-art的成绩。但是、因为他们没有包含真实世界的实体,所以导致这些模型也很难覆盖真实世界的知识。
没有实体没有知识怎么办呢?Knowledge bases、知识库有。 - 知识库不仅拥有丰富的高质量、人类产生的知识,而且他们包含与原始文本中互补的信息,还能够编码事实性的知识。所以用知识库可以解决因不频繁出现但是常识的mention或者长距离依赖造成的难以学习选择偏好的问题
一些解释
- 实体(Entity):知识库中完整定义的,唯一存在的条目,每一个实体都可以看作是指代它的名词短语或代词构成的集合
例:(巴拉克-奥巴马={美国总统,奥巴马,第44任美国总统,他})。 - 指称(mention):实体在自然语言文本中的别名或另一种指代形式。
例:美国总统(名词词组)、奥巴马(命名实体)、第44任美国总统、他(代词)等。 - 选择偏好(Selectional Preference):动词的倾向性。谓语(Predicate)对其论元(Argument)是有一定选择倾向性的,不是什么词语都可以通过简单排列组合进行搭配的。[百度百科]
KnowBert
KAR
关键思想
关键思想:在输入文本中显式建模实体跨度(Entity spans),并使用实体链接器(Entity Linker)从KB中检测mention、检索相关的实体嵌入(Entity embeddings),以形成知识增强的实体跨度表示形式。然后使用word-to-entity attention将单词的表示重新上下文化,以携带全部的实体信息。
优点
- 不针对特定任务,可以fine-tune
- 轻量,增加了少量的参数和运行时间
- 便于融合其他KB
方法
1、他人工作:从KB中检测mention、检索相关的实体嵌入(Entity embeddings)
输入:文本
输出:候选实体列表 C C C与之对应的先验概率
例: Prince sang Purple Rain, she …
[Prince] sang [Purple [Rain]],[she]…
检测mention的方法是2017年的共指消解文章中提及的方法,这里就不展开介绍了,作者也是拿来直接用。2017年的文章做了这两个事情,1、mention检测。2、共指消解。举个例子,输入文本Prince sang Purple Rain, she …,通过mention检测可以获得[Prince] sang [Purple [Rain]],[she],这几个mention,然而这句话当中,Prince和she共同指代同一个实体,那在传统的embedding方式中这个Prince和she的编码可能不太一致,共指消解的目的就是消除这样的不一致。
至于检索相关的实体,作者使用的是基于规则的方式,也是前人的工作。
Entity embeddings呢,对于不同的数据库作者的做法不完全一致,作者使用三类数据库中的知识,对于图结构的数据库,作者使用了2019年知识图谱embedding的最新工作获得实体嵌入,对于仅有实体元数据的数据库,作者在实验部分介绍到他们使用doc2vec的方式直接从Wikipedia描述中学习Wikipedia页面标题的300维嵌入。两种融合在一起的数据库作者也介绍了他们使用的方法。
总之,在本文中,输入一段文本,作者可以检测其中的mention,检索获得对应的Entity Embedding列表,同时也获得实体对应的先验概率。这些是不参与训练的。
KAR
KAR插入在BERT层间, H i H_i Hi是整个KAR的输入,是BERT的层间的隐状态。
- 第一步为了与Entity Embedding维度一致,对 H i H_i Hi做了一个线性投影,得到了 H i p r o j e c t H_i^{project} Hiproject
- 第二步作者使用之前提到过的共指消解的方法,检测到Prince、Purple Rain和Rain这三个mention,并进行了消解,得到了消解后的编码 S S S。这个 S S S是mention跨度的表示。
- 第三步,作者通过一个多头self attention,使得mention可以获得全局信息,进而影响到后续的链接决策中,这一步得到了 S e S^e Se。
- 第四步,也就是之前提到的Entity Linker,作者希望通过训练得到一个可以将mention正确连接到对应实体embedding的连接器。首先、他将每个mention对应的候选实体列表中的实体embedding依次打分。打分的方式是这个公式
如果我们有ground truth,也就是这个mention所应该真正对应的实体,那么我们就可以对连接器进行训练。
Loss使用的是这两个当中的之一:
都是希望groundtruth对应的打分应该高。Max-margin loss还希望除了groundtruth的其他打分应该比较低。
在回到我们的第四步,作者将mention对应的打分列表作为了权重,加权实体embedding求和和得到了 e m e^m em。 - 第五步就是将 s m e s_m^e sme和 e ~ m \widetilde{e}^m em做一个相加,得到 s ′ m e {s'}_m^e s′me。整体上就是 S ′ e {S'}^e S′e,这也就是将知识加入到了实体跨度的表示当中。
- 第六步类似transformer的解码过程,Attention中的Q是 H i p r o j e c t H_i^{project} Hiproject、K,V是 S ′ e {S'}^e S′e。
训练过程
实验
- KnowBert+Wiki。知识库来源与CrossWikis和YAGO dictionary,实体embedding方式是使用doc2vec直接从Wikipedia描述中学习Wikipedia页面标题的300维嵌入,在这个模型中,作者没用到知识库中的图结构,他说早期的实验证明,在这个知识库中,图结构没用。
- KnowBert+WordNet,知识库来源于WordNet中的同义词和词根,embedding方式是TuckER,2019年比较新的知识图谱embeding方式,通过图结构获得同义词和词根的200维表示,然后对于每个同义词的释义,通过一个sentence embedding的方式获得2048维的表示,拼接在一起再线性变化到200维。
论文笔记《Knowledge Enhanced Contextual Word Representations》相关推荐
- 论文笔记之Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...
- 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...
- 论文笔记Understanding and Diagnosing Visual Tracking Systems
最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...
- 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
- 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)
追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...
- ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...
- Understanding and Diagnosing Visual Tracking Systems
文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...
- CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...
- ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...
- CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...
最新文章
- es6学习笔记-module_v1.0_byKL
- 2020前三季度各省市人均收入来了!看看你的家乡排第几?
- 在vue中没有数据的渲染方法
- CentOS下mysql数据库常用命令总结
- ae制h5文字动画_AE文字拉伸动画如何制作
- 台积电5nm来了!谁会是第一个吃螃蟹的人
- jquery's json url
- 2.5、调用后置处理器
- mysql 触发器条件判断偶尔失效_mysql┃多个角度说明sql优化,让你吊打面试官!...
- jmeter java性能_使用JMeter进行性能测试(Java请求)
- maven中使用MySQL
- ogg怎么转换成mp3格式?
- MFC基于对话框使用dll进行多语言切换
- 魔兽世界3.35+mysql_最新魔兽世界3.35兔子王版本商业一键启动服务端+启动教程
- ai水墨晕染效果_AI可能是一位优秀的西方画家,但它在中国水墨画中表现良好吗?...
- 【paper-note4】Reconfiguring the Imaging Pipeline for Computer Vision
- c语言西华大学陈晓亮,计算机与软件工程学院
- [Android]混淆Android代码
- TR-069协议简介
- excel数据转换成对应公式
热门文章
- linux设置密码报错automa,opensuse linux环境下ibm_websphere和ibm_db2安装以及DB2数据迁移操...
- 现货白银多头积累不足
- 东方Project题目 1975 红魔馆爆炸了
- 《OpenSSL3.0学习之二十 提供程序-kdf》
- [附源码]SSM计算机毕业设计智慧农产品朔源系统JAVA
- 台式计算机风扇,台式电脑风扇声音大怎么办_台式风扇噪音大怎么解决
- python毕业设计之django+vue流浪宠物动物救助领养网站
- 直播带货平台开发如何实现抗丢包技术
- 在c51语言中当while语句中条件,在C51语言中,当while语句中的条件为时,结束循环...
- 代谢组学以冬虫夏草多糖的益生机制为例研究和发现关键肠道菌群