链接:https://arxiv.org/pdf/1808.06876.pdf

动机

Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好的神经网络做出错误的判断,并且可能以很高的置信度输出。很多人将这个性质的原因归结为深层神经网络的⾼度⾮线性以及过拟合。Goodfellow则给出了不同的看法。他认为即使是线性模型,也有这种现象。在高维空间中,即使是很小的扰动,也会对最终的输出值产生很大的影响。⽽对于神经⽹络⽽言,很多神经网络为了节省计算上的代价,都被设计成了线性的形式,这使得他们更容易优化,但是这样"廉价"的⽹络也导致了对于对抗扰动的脆弱性。除了生成对抗样本来攻击神经⽹络以外,对抗训练神经网络从⽽有效防⽌对抗样本的攻击也是⼀一个值得考虑的问题。之后大家开始尝试将对抗训练(AT)用于 NLP 领域,如文本分类问题。本文尝试将AT加入到实体识别和关系抽取的联合模型中,观察AT对联合模型的效果。

亮点

文章的亮点主要包括:

1)提出了命名实体识别和关系抽取的联合模型,可以同时识别实体和实体间的关系,并且对于实体间存在的多关系也可以一次性提取出来;

2)在训练过程中添加了对抗训练(AT),提升联合模型的鲁棒性和范性。

相关工作

一.实体和关系抽取的联合模型:

最初的联合模型是基于人工提取的特征,用于同时执行命名实体识别和关系提取子任务。这些方法依赖于NLP工具(例如POS标记器)的可用性,或者手工设计的特性,会导致额外的复杂性。之后神经网络的方法用来克服这一特征设计问题,通常涉及到RNNs和CNNs。特别是,Miwa和Bansal以及Li等人将双向树状结构的RNNs应用于不同的上下文以捕获语法信息(使用外部依赖分析器)。Gupta等人则使用各种手工提取的特性应用到RNNs中。Adel提出了解决简单问题的实体分类(EC,假设给出实体边界),与NER不同的是,他们复制实体周围的环境,将实体对喂给关系提取层。Katiyar和Cardie在研究带 attention 的RNNs时,没有考虑到关系标签并不是相互排斥的。最后,Bekoulis等人在联合模型中使用LSTMs一次只提取一个关系,但增加了NER部分的复杂性。

我们的基准模型支持从相同的输入同时提取多组关系。然后,我们使用对抗式训练进一步扩展了这个强大的基线。

二.对抗性训练(AT):

对抗训练(AT)是通过对训练数据产⽣生对抗噪声来规范分类算法的⼀一种⼿手段。它⿎鼓励神经⽹络对未经修改的例⼦子和扰动的例子进⾏正确的分类来实现深层模型,这实际上不仅增强了神经⽹络的鲁棒性,⽽且提高了它的普遍性。Szegedy的⽂章表明将对抗样本和普通样本一起训练模型训练,可使模型稍微正则化。训练对抗样本和平常的训练样本数增加不一样:通常我们通过对数据进⾏变形来增加数据,这样变形后的数据是可能出现在测试集⾥的。⽽对抗样本这种数据通常不可能⾃然地出现在测试集中,但是它们可以揭露出模型的缺陷。

NLP环境中,针对不同的任务,如文本分类、关系提取和词性标注,AT有几种不同的变体。AT被认为是一种正则化方法。与其他引入随机噪声的正则化方法(dropout,word - dropout)不同,AT产生的扰动是模型容易误分类的样本的变体。

模型

文中设计的联合抽取模型如下:

基本模型从下往上依次为:

(1)输入层:输入是一个句子的序列 tokens。我们使用character embeddings来隐式捕获形态学特征(例如,前缀和后缀),通过一个vector(embedding)表示每个字符,将character embeddings 嵌入到BiLSTM中,以获得单词的基于字符的表示。另外也使用预训练过的word embeddings。

(2)BiLSTM层:word 和character embeddings 连接起来形成最终的token 表示,然后将其输入到BiLSTM层以提取顺序信息。

(3)实体识别层:对于NER任务,我们采用BIO (Beginning,Inside, Outside) 编码方案。对于实体标记的预测,我们使用:(i) softmax方法进行实体分类(EC)任务(假设给定的实体边界),或 (ii) CRF方法,这样我们同时识别每个实体的类型和边界。在解码过程中,在softmax设置中,我们贪婪地检测token的实体类型。虽然独立的类型分布对于EC任务来说是合理的,但是当相邻标签之间有很强的相关性时就不是这样了。例如,BIO编码方案在NER任务中强加了几个约束(例如,B-PER和I-LOC标记不能连续)。基于这种直觉,我们使用线性链CRF来完成NER任务。在CRF设置中,对于解码,我们使用Viterbi算法。在训练过程中,对于EC (softmax)和NER任务(CRF),我们将交叉熵损失L(NER)最小化。

(4)关系抽取层:实体标签作为label embeddings输入到关系提取层,与Bi提取的句子表示一起做关系抽取。其中假设实体类型的知识有助于预测相关实体之间的关系。

以上为完整的基本模型。若是在该联合模型的输入层中,针对embedding人为的添加小尺度的扰动η,就可以进行对抗训练(AT)。具体的η计算过程如下。

对于联合模型来说,有实体识别和关系抽取的联合损失函数 Ljoint

接下来生成一个对抗的输入样本,通过添加最坏扰动ηadv加入到输入的embedding中,来最大化损失函数:

对于ηadv直接在神经网络中求解是比较繁琐复杂,所以一般取其近似值为:

其中ε为定义的超参数,和输入层的 word embedding 的维度相关。如 word embedding 100时,ε 可以近似取值为 0.01g 为联合损失函数在 w 方向的梯度,也正是为了说明添加的扰动对于神经网络来说是最坏的情况。

之后训练的输入为原始和对抗样本的混合,所以最终求得的损失函数为:

实验

我们使用 github 代码基中的代码,在四个数据集中评估模型。特别地,我们遵循 Miwa Bansal ACE04 数据集定义的 5 倍交叉验证。对于CoNLL04EC任务(假设给定边界),我们使用与 Gupta 等人相同的分割。我们还使用10倍交叉验证对NER任务的模型进行评估,类似于MiwaSasaki在同一数据集中使用的模型。对于荷兰房地产分类信息DRECdataset,我们使用了Bekoulis等人的训练测试分割。对于不良药物事件ADE,我们进行了10倍的交叉验证,类似于Li等人。为了获得不受输入嵌入影响的类似结果,我们使用了之前作品的嵌入。我们在所有的实验中都采用了早停的方法。我们使用Adam优化器并修复超参数验证集。选择缩放参数α的范围为{ 5 e2,1e21 e31 e4 }。更大的α值在我们早期的实验导致一致的性能降低。这可以从一个事实来解释,添加更多的噪音可以改变句子的内容,改变的词向量的语义。

我们使用三种类型的评估,:1S(trict):如果实体边界和实体类型都是正确的,则我们将实体得分为正确(ACE04,ADE, CoNLL04, DREC);(2B(oundaries):如果只有实体边界是正确的,而不考虑实体类型,则我们将实体得分为正确(DREC);(3R(elaxed):如果将至少一种正确的类型分配给组成该实体的tokens(假设边界已知),则认为multi-token实体分类是正确的。在所有情况下,当关系类型和参数实体都正确时,关系被认为是正确的。实验结果表明我们的联合模型取得了当前最好的效果。

另外当有AT加入到输入层时,可以让训练更快速度的达到收敛。

总结

本文执行一个大规模的实验研究在这个联合模型任务上,使用了不同的语境和语言的数据集。建立了一个强大的基线,它的性能优于所有以前的模型;而且模型依赖于自动提取的特性,实现了最先进的性能。另外与基线模型相比,在训练过程中应用AT可以让联合抽取的效果持续增加。

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 多内容实体和关系联合抽取的对抗训练相关推荐

  1. 论文浅尝 - ACL2021 | 探讨跨句事件联合抽取问题

    转载公众号 | 浙大KG 论文题目:MLBiNet: A Cross-Sentence Collective Event Detection Network 本文作者:娄东方.廖智霖.邓淑敏.张宁豫. ...

  2. 经典论文复现 | 基于标注策略的实体和关系联合抽取

    过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...

  3. [论文阅读笔记56]基于标注(NovelTagging方法)实体与关系联合抽取-ACL2017

    论文:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme 1. 题目 Zheng S,Wang F,B ...

  4. 论文浅尝 | 将文本建模为关系图,用于联合实体和关系提取

    论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言处理. 链接:https://www.aclweb.org/anthology/P19-1136 动机 本文提出了一种利用图卷积网络(G ...

  5. 论文浅尝 | 通过阅读实体描述进行零样本的实体链接

    笔记整理 | 赖泽升,东南大学本科生 来源:ACL2019 动机 先前实体链接的大多数工作都着重于与通用实体数据库的链接,通常希望链接到专门的实体词典,例如法律案件,公司项目描述,小说中的字符集或术语 ...

  6. 论文浅尝 | 一种用于多关系问答的可解释推理网络

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:COLING 2018 链接:https://www.aclweb.org/anthology/C18-1171 问题背景与 ...

  7. 论文浅尝 - ACL2020 | 用于实体对齐的邻居匹配网络

    笔记整理 | 谭亦鸣,东南大学博士 来源:ACL 20 链接:https://www.aclweb.org/anthology/2020.acl-main.578.pdf 1.介绍 图谱之间的异构差异 ...

  8. 论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架

    论文笔记整理:窦春柳,天津大学硕士. 链接:https://arxiv.org/pdf/1909.03227.pdf 动机 首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,如下图.从图中 ...

  9. 论文浅尝 | 知识图谱的单样本关系学习

    链接:http://cn.arxiv.org/pdf/1808.09040 动机 如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系 ...

最新文章

  1. 诺奖得主涉嫌学术不端!30余篇论文被指涉嫌P图造假、复制粘贴,合作者包括中国学者...
  2. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 5 章 数据定义_5.11. 外部数据
  3. linux xfs文件误删除恢复_linux系统文件误删除恢复
  4. 选择HLS或WebRTC需要考虑的五个因素
  5. Angular jasmine spyOn函数的实现原理
  6. Docker最全教程——从理论到实战(五)
  7. activiti官网实例项目activiti-explorer之扩展流程节点属性
  8. 开关怎么使用_智能数显压力开关怎么使用?
  9. python消费kafka逻辑处理导致cpu升高_爬虫架构|利用Kafka处理数据推送问题(1)
  10. [书目20110326]高素质员工的28堂必修课
  11. 【jQuery】JQuery-ui autocomplete与strtus2结合使用
  12. 根据APK文件查看应用的MD5签名
  13. html5 在线留言,html5实现手机弹窗留言对话框
  14. chrome更新到80以上版本后,带来的跨域请求cookie丢失问题
  15. 一个即成功又失败的敏捷实践
  16. AS(android studio) 添加第三方库时报,Error: Failed to resolve: com.github Affected Modules 解决办法
  17. List接口如何实例化?(Java)
  18. 人工智能离不开“人工投喂”数据,现在中国约有 100 万人做这事
  19. html 按钮默认值,button_标签 | Elements_HTML_参考手册_非常教程
  20. Canvas+html+css+position定位

热门文章

  1. VC++中忽略所有默认库纯Win32 API编译及链接 - 计算机软件编程 - Wangye's Space
  2. 手机java软件_浅谈软件开发就业前景
  3. 【Pytorch神经网络理论篇】 11 卷积网络模型+Sobel算子原理
  4. 就业阶段-java语言进价_day05
  5. javaweb 常用jar包_使用javaweb写一个登录案例
  6. LeetCode 926. 将字符串翻转到单调递增(动态规划)
  7. LeetCode 346. 数据流中的移动平均值(队列)
  8. LeetCode 856. 括号的分数
  9. 数据结构--红黑树 Red Black Tree
  10. python argument list too long_[已解决]Argument list too long如何处理?