史上最大实体关系抽取数据集 | 清华发布

2019-03-23 08:00

本文转载自微信公众号:AI科技评论

AI 科技评论按,在去年的 EMNLP2018 上,由孙茂松教授领导的清华大学自然语言处理实验室发布了一个大规模精标注关系抽取数据集 FewRel。据了解,这是目前最大的精标注关系抽取数据集。

该数据集包含 100 个类别、70,000 个实例,全面超越了以往的同类精标注数据集。FewRel 不仅可以应用在经典的监督/远监督关系抽取任务中,在新兴的少次学习(few-shot learning)任务上也有极大的探索价值和广阔的应用前景。

团队还发布了论文《FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation》,该论文由清华大学自然语言处理实验室的博士生韩旭、姚远,本科生朱昊、于鹏飞、王子云共同合作完成。文章对 FewRel 数据集的构造原理给出了详细解释,感兴趣的童鞋可以点击下面的论文地址阅读原文:

关系抽取(relation extraction)是自然语言处理中的一项重要任务,其通过从纯文本中抽取关系事实,来构建和扩充知识图谱(knowledge graph)。例如,从句子「马云创办了阿里巴巴」中,可以抽取出关系事实(马云, 创始人, 阿里巴巴),其中马云和阿里巴巴被称为实体(entity),而创始人则是他们的关系(relation)。关系抽取是知识获取的重要途径,对于理解自然语言和理解世界知识意义重大。

目前的关系抽取模型面临着一个极大的问题:训练数据不足。相比计算机视觉中的相关任务,语言相关的标注更加困难,需要标注者掌握相应的知识。就如下表 1 中所示,已有精标注关系抽取数据集在关系数量和实例数量上都较少,这极大限制了关系抽取的发展。

表 1:常用精标关系抽取数据集对比

作为目前关系抽取领域最大的精标注数据集,FewRel 中有 100 类关系,共 70,000 个实例,是很好的实验数据集。此前,加州大学圣巴巴拉分校计算机科学系助理教授王威廉实验室与IBM合作的 NAACL 2019 论文 Sentence Embedding Alignment for Lifelong Relation Extraction 就用到了这个数据集。(论文查看地址:http://t.cn/EMQDhMb)

FewRel 是以 Wikipedia 作为语料库,以 Wikidata 作为知识图谱构建的。

图 1: Wikidata 和 Wikipedia(图来自 Wikidata 和 Wikipedia 官网)

Wikipedia 作为互联网上的自由百科全书,因其巨大的体量和蕴含的丰富知识而备受 NLP 学者青睐。与其相对应的知识图谱 Wikidata,则是 Wikipedia 中知识的结构化。目前 Wikidata 中已有超过 5000 万个实体,千余种关系。

清华大学自然语言处理实验室数据集团队首先利用这两者构造了一个远监督的数据集。那么,什么是远监督?知识图谱中已经包含了许多实体以及他们之间的关系,我们可以假设,若两个实体 h 和 t 间有关系 r,而一个句子中同时出现了 h 和 t,则该句子表达了它们之间的关系 r。通过这种方法可以自动获得大规模的标注数据,然而这一数据是充满噪声的,几乎无法直接用来训练模型。在远监督数据集的基础上,去掉出现重复实体对的句子,去掉少于 1000 个样本的类,最终留下 122 类,共 122,000 个实例,然后进行人工标注。

在这一过程中,每个实例都会有多个标注员进行标注,通过冗余保证标注质量。在此之后再进行一轮质量筛选,最后留下 100 类,共 70,000 句高质量标注的关系抽取数据。最终数据集中,每句的平均长度为 24.99,一共出现 124,577 个不同的单词/符号。

据了解,FewRel 的意义不仅仅是一个大规模的数据集。因为关系数量的众多,学界可以在 FewRel 上进行更多维度的探索,其中很重要的一个方向就是少次学习(few-shot learning)。人可以接触很少的例子而学会认知一种新的事物,从这一点出发,深度学习模型能否具备从少量样本中快速学习的能力呢?目前在 CV 领域已有了很多这方面的尝试,但在 NLP 当中,尤其是关系抽取上,还缺乏类似的探索。尤其因为以往的关系抽取数据集关系数量和实例数量较少,而通常 few-shot 模型需要在大规模数据上预训练,需要在类别较多的数据上做 sample 评测,所以很难开展相关工作。

FewRel 的出现打开了少例关系抽取的大门,其名字中的 Few 也正是取自 Few-shot。通过下面的表 2 我们可以看到,FewRel 与 CV 中的 few-shot 数据集 mini-ImageNet 具有相同的规模,可见其足以支撑相关的研究。

表 2:FewRel 与两个 CV 中 Few-Shot 数据集对比

除此之外,FewRel 还可以帮助科研人员进行需要较多关系类别的相关研究,终身学习(lifelong learning)就是其中一个方向。目前大部分关系抽取模型都是在预先定义好的类别中进行探索,而我们知道,世界知识是不断增长的,关系数量也不是停滞的,如何让一个模型能不断接收新的训练样本,同时不至遗忘之前的知识,是一个十分值得探索的课题。而相关实验需要有大量关系类别的精标数据,FewRel 正好满足条件。

据了解,未来 FewRel 团队还将公开其构建数据集时所使用的基于 Wikipedia 的远监督数据,将远监督数据与精标数据相结合,研究人员可以进一步探索远监督的降噪机制,以及如何使用两种数据进行半监督学习。

由于精标数据可以被视作「种子」,远监督数据可以被看作巨大的语料库,FewRel 还可以用在主动学习(active learning)和自启动算法(bootstrapping)方面的研究中。然而,近几年来,在关系抽取领域少有人进行类似探索,其原因就是数据集的缺乏。伴随着 FewRel 的出现,相信接下来这些重要方向的研究必然会有所推进。

================================================================================================================================================================================================================================================================================================

关系抽取常用的数据集和工具

2018年05月03日 21:20:17 长弓Smile 阅读数 4095更多

个人分类: 信息抽取与问答系统

参考文献:张春云. 实体关系抽取算法研究[D]. 北京邮电大学, 2015.

数据集: 
1.MUC关系抽取任务数据集 
MUC-7的五大评测任务分别是命名实体识别、共指消解、模板元素填充、模板关系确定和场景模板填充。数据语料主要来自新闻语料,限定领域为飞机失事报道和航天器发射事件报道。

2.ACE关系抽取任务数据集 
MUC会议停开后,ACE将关系抽取任务作为一个子任务从2002至2007年共持续六年。关系抽取任务也被定义的更加规范和系统。其中,获得认可的一届关系抽取任务主要是ACE-2004,其数据来源于语言数据联盟(LDC),分成广播新闻和新闻专线两部分,总共包括451和文档和5702个关系实例。ACE20014提供了丰富的标注信息,从而为信息抽取中的实体识别、指代消解和关系抽取等子任务提供基准的训练和测试语料库。

3.TAC-KBP数据集 
TAC会议下的KBP评测下的ESF任务,可以视作是传统的关系抽取任务。该任务主要是抽取关于PER的25中属性和ORG的16中属性。主要是使用维基百科快照作为现有的知识库,从现有的新闻或者网络文本中获取关于实体的现有信息和更新信息,以构建知识库。

工具: 
1.Standford CoreNLP 自然语言处理工具包,能实现对自然语言文本的文本分析,包括词形还原,词性标注、命名实体标注、共指消解、句法分析以及依存分析等功能。

2.自然语言工具包(Natural Language Tookit,NLTK) 
基于脚本语言Python的自然语言处理工具包,该工具包集成了一些文本处理技术,例如中文分词、词形还原、文本分类等,并涉及50多种语料和字典的交互界面。

3.OpenCCG 
指开放式自然语言CCG文库,基于Java的开源自然语言处理文库,能够实现基于Mark Steedman的组合的范畴语法形式为主的文本解析,包括句法分析和依存分析。

评测标准: 
精准率、召回率和F值

史上最大实体关系抽取数据集相关推荐

  1. 史上最大的实体关系抽取数据集!清华大学自然语言处理团队发布 FewRel...

    雷锋网 AI 科技评论按,在去年的 EMNLP2018 上,清华大学自然语言处理实验室发布了一个大规模精标注关系抽取数据集 FewRel.据了解,这是目前最大的精标注关系抽取数据集. 据清华大学自然语 ...

  2. 【每周NLP论文推荐】 掌握实体关系抽取必读的文章

    欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 实体关系抽取作为信息抽取领域的重要研究课题 ...

  3. 《面向对话的融入交互信息的实体关系抽取》--中文信息学报

    实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务.在新闻报道,维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面对对话文本的相关研究的还处于起始阶段.相 ...

  4. 知识图谱从哪儿来?实体关系抽取的现状和未来

    12月17日晚,2019年清华特奖获得者之一,清华大学自然语言处理实验室大四本科生高天宇,在智源论坛Live第1期,以<实体关系抽取的现状和未来>为主题,与150位观众进行了在线交流.本文 ...

  5. BERT:代码解读、实体关系抽取实战

    目录 前言 一.BERT的主要亮点 1. 双向Transformers 2.句子级别的应用 3.能够解决的任务 二.BERT代码解读 1. 数据预处理 1.1 InputExample类 1.2 In ...

  6. 技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来

    本文作者为:韩旭.高天宇.刘知远.转载自刘知远老师的知乎专栏,文章链接:https://zhuanlan.zhihu.com/p/91762831 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网 ...

  7. 基于主体掩码的实体关系抽取方法

    点击上方蓝字关注我们 基于主体掩码的实体关系抽取方法 郑慎鹏1, 陈晓军1, 向阳1, 沈汝超2 1 同济大学电子与信息工程学院,上海 201804 2 上海国际港务(集团)股份有限公司,上海 200 ...

  8. nlp中的实体关系抽取方法总结

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要35分钟 跟随小博主,每天进步一丢丢 来自:知乎 地址:https://zhuanlan.zhihu.com/p/77868938 作者:Jay ...

  9. 阿里云医疗实体关系抽取大赛

    1.本项目是基于阿里云比赛开放的医疗数据集去做的实体关系抽取.下面会从数据的详情,模型的选取,模型的训练,模型的验证和模型的预测去讲述. 2.数据准备阶段 1.数据来源是阿里云医疗大赛,选取的是其中一 ...

最新文章

  1. 自调用匿名函数(匿名闭包)解析与调用
  2. c语言实现字符指针(字符串)数组的排序
  3. Java使用ojdbc连接Oracle数据库时不能使用服务名连接的问题
  4. android判断和创建快捷方式(4.03测试通过)
  5. c 运算符##_C#程序演示关系运算符的示例
  6. javascript下的arguments,caller,callee,call,apply示例及理解
  7. Unreal Engine 4 基于网格的水面模拟实现
  8. 【机器学习】隐马尔可夫模型及其三个基本问题(二)观测序列概率计算算法及python实现
  9. 比较热门好用的开源中文分词软件系统有哪些?
  10. 51单片机电子制作DIY-----交通灯控制器
  11. 什么叫断章取义,什么叫曲解——你被骗了多少年?
  12. twitter关注排行榜
  13. 锁定计算机后怎么解锁,电脑锁住了怎么解锁
  14. java雪崩_java-雪崩效应及解决办法
  15. [大数据面试]--智力题(2)
  16. 怎么在笔记本电脑上弄html,笔记本电脑怎么设置wifi,小编教你笔记本电脑如何设置WIFI热点...
  17. 学习云计算前景如何?云计算成为获取人工智能主要途径
  18. 搭建通过openOCD下载mini2440程序的调试平台
  19. 解决物理机为ubuntu与virtualbox客户机为windows10间剪切板不能用的问题
  20. LLVM学习日志2——PASS尝试

热门文章

  1. 外夹式超声波艾默生流量计安装步骤
  2. db2 load 快速_使用 DB2 的 LOAD FROM CURSOR 特性快速轻松地转移数据
  3. CSS—将文字和图片重叠,元素重叠效果
  4. 【博客611】linux路由表机制
  5. 电信网关改造无线打印服务器,天翼网关2.0华为HS8145v5改华为界面改双模教程(转别人的)个人总结...
  6. 计算机系大二学期计划范文,大二学期学习计划范文6篇_大二学生学习计划(2)
  7. 面试官:“你有什么要问我的吗?”问什么比较好?
  8. 人脸识别的安全门禁系统设计
  9. 计算机考研2021算法真题,2021年清华大学计算机考研专业课真题
  10. oracle 数据块 修复,案例:Oracle坏块 使用RMAN工具的命令clear标记数据块为corrupt 修复坏块...