笔记整理:吴锐,东南大学大四本科生,研究方向为自然语言处理。


CitationMichael Glass, K. B. . (2012). Bootstrapping relation extraction using parallel news articles. Retrieved from https://pdfs.semanticscholar.org/bfa5/1cf7fa3e0b10893908d909cd8932d76bb7ae.pdf 

 

动机

近年来,针对关系抽取的 bootstrapping 方法得到了广泛的关注,一个简单的 bootstrapping 可以用下图表示。这些方法都基于同一个假设,那就是如果句中的两个词在某种情况下具有特定的关系,则包含这两个词的句子很可能会表达出这种关系。本文在考虑该假设在平行语料库中更可能成立的情况下,探索了在平行与非平行语料库下,分别使用 Bootstrapping 进行关系抽取的实验效果。在实验中发现,基于平行语料库的实验效果普遍更好。

图1

方法

本文所采取的方法大致如下:

1、构建平行语料库

该文章主要针对NFL与IC领域建立了大型的平行语料库,由于前者领域中关系在各类运动中均较为普遍,文中直接将其当做运动领域。文中使用了谷歌新闻来对描述同一事件的新闻进行定位以及分组。每一组只描述一个新闻故事,通常指一个事件,例如一场游戏或者一次恐怖袭击。文中表示,通过在谷歌新闻上搜索领域相关的关键词,可以得到一系列类似于下图的结果。通过单击链接“all 285 news articles”,可以收集到一组均在描述同一个事件的文档。由于组内文档的相关性以及新闻的质量都会随着检索排序的上升而下降,所以文中只取前三分之一,或者最多100篇文章。

图2

最终运动语料库总共包含3861组,合计145000个文档,大约每一组有37.5个文档。IC语料库与之类似,共3114组,合计130000个文档,平均每一组约41.5个文档。

2、具体实验

为了判定平行语料库对于bootstrapping关系抽取的潜在价值,该实验度量了两个具有一定关系的种子实体分别在平行与非平行语料库中的关系的持久性。下图列出了文中所进行实验的5种关系。Gloss是为关系的解释,x与y是两个有关系的实体,Search Pattern则用来定位语料库相关的文本。

图3

通过使用这些Search Pattern,作者首先收集到了一些可能表达这些关系的句子,然后手动从这些句子中找到部分确实表达目标关系的句子,并在其中定位出有关联的实体,最后将定位出来的这些实体对作为种子数据,即图1算法的初始集合R。

该文章主要针对实验及评估算法1中的LABELOCCURRENCES函数,其中针对平行语料库的具体的实验过程如下图所示。对于每一个种子实例对,它都会在单个组中挑选十个句子来评估LABELOCCURRENCES的精确率,这些句子称之为叫做“组内”(inside cluster)语句。函数SENTENCESRELATING(si, c)能够找到文档簇c中与种子实例si相关的所有句子。

图4

针对非平行语料库,我们同样选择了另外十个分布在不同组中的句子,来测试LABELOCCURRENCES的精确率,叫做“组外”(outside cluster)语句。具体的实验过程如下图

图5

3、结果评估

为了评估LABELOCCURRENCES函数分别在有文档组和没有文档组下的精确率,文中使用了亚马逊Mechanical Turk服务上的工作者。其他研究表明[Snow 等人, 2008]对于自然语言处理领域的一些简单工作,包括文本蕴涵,Mechanical Turk的非专家可以提供与专家建立的黄金标准同等质量的标注。

下图表现了工作人员的工作方式。工作人员被要求将句子标记为正确或者不正确(且如果不正确,需选择一个原因)。作者提供了示例来说明三种不同类型的错误摘要。

图6

实验结论

图7

上图表明,至少对部分关系来说,使用平行语料库是很重要的。总的来说,组内的精确率为0.7,组外的精确率为0.39,说明平行语料库可能会为LABELOCCURRENCES函数带来50%的错误率的下降。

作者预计平行语料库对gameDate、teamInGame和injuringHumanAgent关系的影响很小,而对其他关系影响很大。他的推理是这样的,当这些关系的典型实例出现在同一句话中时,它们很少会有除目标关系之外的关联。虽然无法对一些关系进行有效的测试,但作者通过该实验证实了对于gameDate和isLedBy关系的假设。

从组内到组外,hasCitizenship关系的精确率发生了急剧的下降,这可以解释为一个国家的公民往往与这个国家有着各种各样的联系。对于teamScore关系,我们可以看到,在一个组(通常是一场游戏)内,如果一个队伍和一个比分有这种关系,那么在所有其他的语义相关的相同实体之间,非常有可能保持这种关系。然而在组外,这种可能性要低于50%。通常情况下,这个得分其实是其他队伍的得分。

总而言之,在很多情况下,种子实体对之间只含一种关系的假设是不成立的,但是在描述单个故事的文档组内是可靠的。关系抽取的Bootstrapping方法可以通过使用能从中受益的关系的平行语料库来让结果得到一定的提升。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 基于平行新闻的Bootstrapping关系抽取相关推荐

  1. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  2. 论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

    来源:ACL 2017 链接:http://aclweb.org/anthology/P17-2057 本文提出将 Universal schema 用于自然语言问答中,通过引入记忆网络,将知识库与文 ...

  3. 论文浅尝 | 基于知识库的类型实体和关系的联合抽取

    链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf GitHub项目地址:https://github.com/INK-USC/DS-RelationE ...

  4. 论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

    本文转载自公众号:PaperWeekly. 作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然 ...

  5. 论文浅尝 | 基于注意力图卷积神经网络的依存驱动关系抽取

    笔记整理:王大壮 论文链接:https://aclanthology.org/2021.acl-long.344.pdf 动机 句法信息,特别是依存树,已经被广泛应用于关系提取,以更好地分析与给定实体 ...

  6. 论文浅尝 | 基于时序知识图谱的问答

    笔记整理:姚云志,浙江大学在读博士,研究方向为自然语言处理. 链接:https://arxiv.org/pdf/2106.01515.pdf 时序知识图谱是一种多关系的知识图谱,相较于常规的知识图谱, ...

  7. 论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

    本文转载自公众号:图谱学苑. 今天介绍的工作是An Interactive Mechanism to Improve Question Answering Systems via Feedback,作 ...

  8. 论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

    论文链接:https://arxiv.org/pdf/1805.09927.pdf 来源:ACL2018 Motivation: 远程监督是以一种生成关系抽取训练样本的方法,无需人工标注数据.但是远程 ...

  9. 论文浅尝 | 使用循环神经网络的联合事件抽取

    余博涛,南京大学计算机科学与技术系,硕士研究生 论文连接:http://www.aclweb.org/anthology/N16-1034 发表会议:NAACL-HLT 2016 摘要 事件抽取(ev ...

最新文章

  1. 女生读计算机专业好,女生选择计算机专业就读好吗?
  2. 如何评价马云和马斯克在世界人工智能大会的对话?
  3. H5的学习从0到1-H5的实体(14)
  4. .net序列化与反序列化通用方法
  5. JavaScript中setAttribute用法
  6. win10 64位操作系统安装mysql_win10,64位操作系统安装mysql-8.0.16经验总结(图文详细,保证一次安装成功)...
  7. Python 微信定向问好
  8. CSMA/CD协议(一目了然,看过都说好)
  9. Android Studio两模块间getLaunchIntentForPackage跳转,出现intent为null,已解决
  10. 逆向链表c语言,C语言逆向打印双向链表程序
  11. MS OFFICE 2019下载及使用
  12. pcs7组态虚拟机中的服务器,PCS7冗余服务器配置
  13. FPGA信号处理系列文章——CIC滤波器的再理解
  14. awr报告 解读_Oracle Awr报告_awr报告解读_基础简要信息
  15. Unity 性能优化方法总结
  16. 用户分类以及用户活跃度的衡量方法
  17. blender导入png图片不透明 | png贴图在blender中有黑底
  18. 《德鲁克管理思想精要》读书笔记2 - 企业的宗旨、目标
  19. Matplotlib颜色对照表
  20. poi中excel锁定行列问题

热门文章

  1. 标记一下 两个Google Chrome 源码研究的网站
  2. 我那个37岁的大神朋友,后续
  3. colinux的安装
  4. 100条常用写作谚语(1)(2)(3)(4)
  5. 电脑故障扫描修复软件_电脑故障分析:电脑安装软件提示没有权限的解决方法...
  6. 一、bootstrap4基础(布局系统、栅格系统、显示与隐藏、对齐与排列、内容排版、代码与图文、表格样式、颜色和边框、工具类)
  7. 三、MyBatis 使用传统 Dao 开发方式
  8. 十二、一篇文章帮助你快速读懂MySQL索引(B树、B+树详解)
  9. LeetCode 1120. 子树的最大平均值(DFS自底向上)
  10. LeetCode 1466. 重新规划路线(DFS/BFS)