Citation: Ji,G., Liu, K., He, S., & Zhao, J. (2017). Distant Supervision for RelationExtraction with Sentence-Level Attention and Entity Descriptions. Ai,3060–3066.


动机

关系抽取的远程监督方法通过知识库与非结构化文本对其的方式,自动标注数据,解决人工标注的问题。但是,现有方法存在无法选择有效的句子、缺少实体知识的缺陷。无法选择有效的句子是指模型无法判断关系实例对应的句子集(bag)中哪个句子是与关系相关的,在建模时能会将不是表达某种关系的句子当做表达这种关系的句子,或者将表达某种关系的句子当做不表达这种关系的句子,从而引入噪声数据;缺少实体知识是指,例如下面的例句种,如果不知道 NevadaLas Vegas 是两座城市,则很难判断他们知识是地理位置上的包含关系。

本文为了引入更丰富的信息,从 Freebase 和 Wikipedia 页面中抽取实体描述,借鉴表示学习的思想学习得到更好的实体表示,并提出一种句子级别的注意力模型。本文提出的模型更好地实现注意力机制,有效降低噪声句子的影响,性能上达到当前最优。

贡献

文章的贡献有:

(1)引入句子级别的注意力模型来选择一个 bag 中的多个有用的句子,从而充分利用 bag 种的有用信息;

(2)使用实体描述来为关系预测和实体表达提供背景信息;

(3)实验效果表面,本文提出的方法是 state-of-the-art 的。

方法

本文的方法包括三个部分:(1)句子特征提取;(2)实体表示;(3)bag特征提取;

  • 句子特征提取

模型结构如下图(a)所示,模型流程是:

(1)使用词向量和位置向量相连接作为单词表示,句子的词表示序列作为模型的输入;

(2)使用卷积神经网络对输入层提取特征,然后做piecewise最大池化,形成句子的特征表示;

  • 实体表示

实体表示在词向量的基础上,使用实体描述信息对向量表示进行调整,形成最终的实体向量表示。

模型主要思想是,使用CNN对实体的描述信息进行特征提取,得到的特征向量作为实体的特征表示,模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示尽可能接近。

  • Bag 特征提取

Bag 特征提取模型的关键在句子权重学习,在得到 bag 中每个句子的权重后,对 bag 中所有句子的特征向量进行加权求和,得到bag的特征向量表示。模型中用到了类似TransE的实体关系表示的思想:e1+r=e2。使用(e2-e1)作为实体间关系信息的表达,与句子特征向量相拼接,进行后续的权重学习。

Bag 特征提取模型如上图(b)所示:

(1)使用bag中的所有句子的特征向量表示,结合e2-e1方式得到的关系表示,作为模型的输入;

(2)利用权重学习矩阵,得到每个句子的权重;

(3) 对句子进行加权求和,得到 bag 的最终表示;

实验

文章在远程监督常用的数据集(Rediel 2010)上,按照常规的远程监督的实验思路,分别进行了 heldout 和 manual 实验。Heldout 实验即使用知识库中已有的关系实例标注测试集,验证模型的性能,结果如下面的 Precision-Recall 图所示,超过其他最好的方法。

Manual 实验对知识库中不存在的关系实例进行预测,然后使用人工标注预测结果的正确性,使用 top-K 作为评测指标,结果如下表所示,本文提出的方法也达到了当前最好的效果。

此外,实验还通过 case study,研究了模型对于 bag 中每个句子的注意力分配效果,表明本模型可以有效地区分有用的句子和噪声句子,且本文的引入实体描述可以使得模型得到更好的注意力分配。

论文笔记整理:刘兵,东南大学博士,研究方向为自然语言处理、机器学习。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | Distant Supervision for Relation Extraction相关推荐

  1. 关系抽取远程监督PCNN:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

    Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks 0 前言 1 多示例学习 ...

  2. PCNN模型解读:《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》

    PCNN模型解读 本文是对Daojian Zeng, Kang Liu, Yubo Chen and Jun Zhao的论文<Distant Supervision for Relation E ...

  3. 论文浅尝 | Reinforcement Learning for Relation Classification

    论文链接:http://aihuang.org/p/papers/AAAI2018Denoising.pdf 来源:AAAI 2018 Motivation Distant Supervision 是 ...

  4. 论文浅尝 | 「知识图谱」领域近期值得读的 6 篇顶会论文

    本文转载自公众号:PaperWeekly. CIKM 2017 ■ 论文 | Hike: A Hybrid Human-Machine Method for Entity Alignmentin La ...

  5. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  6. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  7. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  8. 论文浅尝 | 用异源监督进行关系抽取:一种表示学习方法

    Citation: Liu, L., Ren, X., Zhu, Q., Zhi, S., Gui, H., Ji, H., & Han, J.(2017). Heterogeneous Su ...

  9. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

最新文章

  1. 漫画 | 程序媛小姐姐带你一次了解什么是排序算法
  2. Nginx-01:内容目录
  3. adb连接夜神模拟器
  4. CSS一些有趣的东西
  5. 零基础学习java必须要了解的学习路线
  6. curl php 百度,php curl 模拟登录百度主页
  7. oracle中dbms_DBMS中的实例和架构
  8. win10+vs2015+opencv3配置
  9. 坏消息!FCC默许美国ISP在未经批准之情况下出售用户数据!
  10. k8s核心技术-Helm(快速部署应用)---K8S_Google工作笔记0046
  11. 编译好的编译ffmpeg又出错:更改输出目录产生各种古怪错误
  12. 怎样正确做 Web 应用的压力测试?
  13. 因子分析模型 - 案例按步骤详解 - (SPSS建模)
  14. Visual Studio 开发者命令行找不到 ildasm命令及无法创建 CLR 项目的解决方法
  15. 海南师范大学本科毕业论文答辩PPT模板
  16. DEV的RIchEditControl加载rtf文档时,为mergefield赋值
  17. Excel根据单元格内容分类并插入空行的方法
  18. 【Leetcode】1628. Design an Expression Tree With Evaluate Function
  19. git pull命令操作 git pull <remote> <branch>
  20. BATT集体发力搜索,争夺下一代搜索平台的“引路人”

热门文章

  1. c++整理--虚函数
  2. Python3——多线程之threading模块
  3. Linux下Samba服务器搭建
  4. android 多个启动页,Android启动页的问题整理
  5. python语言中strike_Python学习笔记
  6. 100条常用写作谚语(5)(6)(7)(8)
  7. xgboost分类_XGBoost(Extreme Gradient Boosting)
  8. 计算机网络对口题目,2011-2015计算机对口升学网络试题汇总.doc
  9. kstools工具是什么牌子_2020年平衡车推荐,电动平衡车哪个牌子好?老司机教你如何选购电动平衡车...
  10. LeetCode 740. 删除与获得点数(排序+动态规划)