论文地址:Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning (aclanthology.org)

GitHub:rainarch/DSNER: Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning (github.com)

先翻译再说理解

Abstract :

在新领域中,中文命名实体识别(NER)的一个瓶颈问题是缺乏注释的数据。一个解决方案是利用已被广泛用于关系提取的远距离监督方法来自动填充注释的训练数据,而无需人力成本。
这里的远距离监督假设是,如果文本中的一个字符串被包含在预定义的实体字典中,那么这个字符串可能是一个实体。然而,这种自动生成的数据存在两个主要问题:不完整的注释和噪声。
这影响了NER模型的性能。
在本文中,我们提出了一种新的方法,可以部分地解决上述 在本文中,我们提出了一种新的方法,可以部分解决上述远距离监督NER的问题。
在我们的方法中,为了处理不完整的问题,我们应用了部分注释学习来减少未知的字符标签的影响。
对于嘈杂的注释,我们设计了一个基于强化学习的实例选择器,以从自动生成的注释中区分出正面句子。
在实验中,我们创建了两个数据集,在远距离监督的帮助下进行两个领域的中文命名实体识别。
实验结果表明,所提出的方法在这两个数据集上获得了比对比系统更好的性能。在这两个数据集上获得了比对比系统更好的性能。

1 Introduction

近年来,深度学习方法在命名实体识别(NER)任务中取得了很大的进展(Collobert等人,2011;Chiu和Nichols,2015)。标准化的方法是使用BiLSTMs进行编码,然后应用CRF进行联合标签解码(Huang等人,2015;Lample等人,2016)。 al., 2016)。
此外,BiLSTMs和CNNs被用来对字符或词级表征进行建模(Ma和Hovy,2016)。
以前关于NER的大多数研究都集中在某一组预定义的NER类型上,比如组织。地点、人、日期等,其中提供一定量的标记数据来训练模型。
然而,不同的应用需要特定的实体类型,如电子商务领域的 "品牌 "和 "产品",以及金融业的 "公司"。
考虑到人工标注的高成本,为每个新的NER类型标注大量的标注数据可能是不可行的,但在某些时候可以提供小规模的数据。
作为一种替代方案,远距离监督可以自动生成大规模的标签数据用于新类型的NER,而不需要人力成本。远方监督的想法已经广泛用于关系提取任务中。(Mintz等人,2009;Riedel等人,2010;Zeng等人,2015)。
对于关系提取,首先我们 有一个知识库。
如果两个实体e1和e2根据知识库有关系,那么我们填充这些知识,并假设e1和e2之间的关系在包含这两个实体的句子中是r。
这两个实体。
通过这种方式,我们可以产生大量的标记数据用于模型训练。同样,在我们的任务中,我们首先获得一个包含新类型实体列表的字典。
然后,我们假设句子中提到的每一个实体都是相应类型的正面实例,从而自动生成大规模的标记数据。根据字典,假设句子中提到的每个实体都是相应类型的正面实例。

图1(a)显示了一个被视为正面实例的例子,两个 "产品 "名称被远距离监督方法正确匹配。

然而,在实践中,我们发现自动标注的NER数据存在两个问题,即不完全标注和噪声标注,这对NER系统的性能有负面影响。
不完整的注释问题意味着不是每个实体都以远程监督的方式被标记。
例如,"皮鞋 "被包含在字典中,而 "皮带 "却没有。因此,在图1(b)中,"皮鞋(皮鞋)"被注释为PDT,而 "皮带(皮带)"却没有。噪声注解问题指的是匹配的实体与实体定义不一致,如图1(c)中,"工作鞋(work shoe)"是一个产品,但只有前两个字符 "工作服(fatigue clothes)"被词典匹配,因为 "工作鞋(work shoe)"不在词典中。
显然,如果我们直接使用字典中的 "工作鞋",那么在模型训练过程中,这种错误标记的例子肯定会提供错误的监督。如果我们直接使用自动生成的数据,它肯定会在模型训练中提供错误的监督。
在本文中,我们提出了一种方法来处理远程监督的NER数据的两个问题。
对于不完整的注释问题,我们基于一个扩展的CRF-PA模型(Tsuboi等人,2008)将数据视为部分注释,该模型可以直接从部分注释(PA)中学习。
嘈杂的注释问题在远程监督的关系提取中也是无处不在的,研究人员试图通过强化来减少这个问题。试图通过使用强化学习(RL)技术来解决这一问题,以选择积极的实例 (Feng等人,2018)。受到他们工作的启发。
我们设计了一个实例选择器,从远程监督的NER数据中获得干净的实例。

综上所述,我们做出了以下贡献:

我们提出了一种新型的命名实体识别方法。
识别的新方法,它首先结合了部分注释学习和强化学习的优点,以处理远距离监督带来的不完全注释和噪声注释的问题。
我们在远距离监督的帮助下建立了两个中文命名实体识别的数据集,分别为电子商务和新闻领域。
在新创建的数据集上的实验结果表明 所提出的方法比对比系统表现得更好。

2.Basic settings

2.1 Distantly Supervised NER Data

这里我们主要关注中文的NER,它比其他语言的NER更难,例如 由于缺乏诸如大写字母等形态上的变化,特别是单词分割的不确定性,中文的NER比其他语言如英语的NER更难在词的分割上。
为了在新领域的新实体类型中获得一个好的标记器,我们进行远距离监督以获得中文NER的标记数据。
最初,我们有一小部分新实体类型的标记种子数据H,以及大规模的无标记数据池U。我们收集命名实体来构建字典D,并使用D的条目通过远距离监督的方法来匹配U中的句子字符串。
然后,我们得到一个包含至少一个匹配字符串的句子集合,这个集合被表示为A。
本文的目的是,我们充分利用H和A来建立一个NER系统

图2:拟议模型的框架,由两部分组成。右边的实例选择器 是一个策略网络,它从候选数据集中选择句子来扩展训练数据,以改善 左边的NE标签器。
实例选择器是根据NE Tagger提供的奖励来训练的。
在本文中,我们将中文NER任务视为一个序列标签问题。我们利用了传统的 BIO模式来表示句子的标签。具体来说,我们用 "B-XX "来标记一个实体的起始字符。用 "B-XX "来标记一个实体的起始字符,用 "I-XX "来标记该实体的其他字符,如果该字符不在一个实体内,则标记为 "O"。实体,其中 "XX "是实体的类型。

2.2 The Baseline LSTM-CRF

3 Our Approach

本节介绍了我们通过远距离监督进行新型NER的方法。为了处理不完整和嘈杂的注释问题,我们提出了一种新型的NER任务模型。
如图2所示,我们的模型框架由两个模块组成:基于部分注释学习的NE标签器,以减少未知类型字符的影响;实例选择器,从候选集中选择积极的句子并提供给NE标签器。

3.1 LSTM-CRF-PA for Incomplete Annotation

将这些字符视为非实体是不恰当的,尽管根据字典它们不能被匹配。这是一个常见的问题,被称为假阴性实例,如果我们任意地将它们标记为 "O",可能会误导模型。因此,我们认为每个不匹配的字符可以被注释为任何适当的标签。
例如,在图3中,除了 "皮鞋 "有明确的标签外,其余所有的字符都可以被标记为 "B-PDT"、"I-PDT "等等。换句话说,我们为每个远距离监督的句子表示一组标签序列z,其概率自然是z中每个可能的标签序列y˜的概率之和。
我们针对这种情况扩展原始模型 情况,并在所有候选输出标签序列上应用softmax,因此一个远距离监督实例的概率计算如下:

我们利用一个负对数可能性目标作为损失函数。
因此,我们的模型与CRF-PA的损失函数可以计算如下:

其中Θ是所有NE标记器参数的集合

特别是,如果该句子是手工注释的,并且每个字符都有明确的标签。
集合z 只包括一个标签序列。因此,上述目标函数也适用于有监督的实例。
我们使用标准的反向传播方法来最小化NE标签器的损失函数。

3.2 Instance Selector for Noisy Annotation

我们的目标是用强化学习(RL)技术训练一个代理作为实例选择者。按照Feng等人(2018)的做法,代理与环境互动,并在句子层面做出决定。 我们将最初的手工标记的种子集H和远距离监督的集A合并成一个候选数据集 C. 
在每个情节中,我们从C中收集一个随机大小的实例袋B。囊中的所有监督实例都被默认为不需要代理的决定就可以选择。
对于当前袋中的每个远距离监督的 实例,代理从{1,0}的集合中做出一个动作,决定是否选择这个 譬喻说 
当所有的行动都完成后,代理会得到奖励。奖励 代表对这个包的行动的反馈,并将用于更新代理。
代理的目标是决定能使奖励最大化的行动。状态表示。在我们看来,状态st代表了当前的实例以及它的标签序列。
我们将状态表示为一个向量St ,它由以下信息组成:(1) (1) 当前实例的序列化向量表示,它是由基线模型的BiLSTM层观察到的。
基线模型。
(2) 用共享编码器的MLP层的输出计算出的标签分值 (在公式1中表示为ot 公式1中表示为ot)和该实例的注释,即标签条件噪声的
远距离监督的注释。
更具体地说,如果一个字符是一个实体的一部分,并被注释为一个明确的标签(如图3中的 "皮 "和 "鞋"),这个位置的得分就是ot中的相应值。否则,我们通过对ot中所有标签的分数进行平均来计算它。这样,标签分数向量的维度就等于句子的统一长度,并将与第一部分串联起来。
政策网络。代理人在∈{0,1}处决定一个行动,表示选择器是否会选择第t个远距离监督的实例。
行动值由选择器取样为AΘ(st , at),其中Θ
是一个多层感知器(MLP),参数为{W, b}。我们采用Logistic函数作为策略函数。

其中St是状态向量,σ(.)是sigmoid函数。
Reward. 奖励是用来评估当前NE标记器预测每个字符标签的能力。当模型完成当前袋中的所有选择时,它将获得一个延迟的平均奖励,在此之前,每个动作的奖励为零。当前包B由两个子集组成:手工标记的句子H˜和远距离监督的实例A˜。现在,NE标签器为袋子B的每一个句子计算了条件概率,奖励可以在选定的远距离监督实例A˜s和所有手工标记的句子的集合上计算。

与Feng等人(2018)的工作不同,我们有一组监督数据。我们的选择器可以在这些关于哪些句子被正确标注的先验知识指导下进行训练。
因此,奖励将变得可靠和有导向性,它可以指导选择器最大化训练数据集中所有实例的可能性。
选择器训练。 我们使用策略梯度法(Sutton等人,2000)来优化策略网络,使选择的奖励最大化。对于每个随机大小的袋子B,每个动作r(at)的反馈与平均奖励r相同。
我们计算梯度并更新选择器,方法如下:

3.3 Joint Training

NE标记器和实例选择器的参数是迭代学习的。在每一轮中,选择器 首先从A中选择As,并将其与标记器的监督句子合并。
同时,NE标签器的参数从新的训练数据中学习,标签器向选择器提供反馈 奖励给选择器以优化其策略函数。

4 Experiment

4.1 Datasets

我们在实验中使用了两个数据集:一个来自电子商务领域,另一个来自新闻领域:

EC:在电子商务领域(EC),我们有五种类型的实体。品牌,产品,模型,材料,和 关于用户查询的规范。该数据包含2400个由注释者标记的句子。我们将这些数据分成 分为三组:1200句用于训练,400句用于开发,800句用于测试。我们收集了一个实体列表 来构建训练数据的字典。为了减少歧义的影响,我们删除了属于一个以上类型的条目。属于一个以上的类型,或者是一个数字或单个字符。
最后,该词典有927个 条目(包括补充材料中的EC.dic)。我们对原始数据进行远距离监督,得到2500个句子。

NEWS:对于新闻领域,我们使用来自MSRA的NER数据,该数据曾用于Sighan-bakeoff(Levow,2006)。
我们只在PERSON类型上测试我们的系统。我们随机选择3000个句子作为训练数据集,3328个句子作为设计数据,3186个句子作为测试数据。其余的数据集被用作原始数据,有36,602个句子。
我们从训练数据中收集一个人名列表。为了增加覆盖率,我们在列表中增加了一个额外的名字。最后,该列表有71,664个条目
 (包括在补充材料中的NEWS.dic)。     
我们对原始数据进行远距离监督,得到3,722个句子。

Embedding:在我们的方法中,我们需要通过查询表将汉字映射为矢量表示,查询表可以通过随机或预训练进行初始化。在我们的方法中,我们需要通过查询表将汉字映射为矢量表示,查询表可以通过随机或预训练进行初始化。之前的许多工作(Lample等人,2016;Peng和Dredze,2015b)表明,在大规模无标签语料库上的预训练嵌入能够初始化表格并有效观察到改进。
因此,我们从用户在互联网上生成的文本中收集了100万个句子,并使用word2vec1工具进行预训练嵌入。
我们设定嵌入维度为100,最小出现频率为5。和窗口大小为5。

4.2 Settings

为了进行评估,我们在实验中使用了实体层面的精度(P)、召回率(R)以及它们的F1值。实验中,只有当一个被标记的实体与黄金实体完全匹配时,才将其视为正确。
在我们的模型中,有几个超参数。我们根据开发的表现,凭经验来设置它们。实例选择器是一个多层感知器,每个隐藏层有100个单元。
我们使用Adam(Kingma and Ba, 2014)来训练实例选择器,学习率为0.001。对于标签器的参数,我们将字符嵌入维度设置为100,隐藏特征的维度大小为200。
我们利用小批量128的在线训练来学习模型参数。最大迭代次数设置为800次,根据开发性能选择最佳迭代模型。
我们使用学习率为0.001的RMSprop(Tieleman和Hinton,2012)来更新模型参数。
在训练阶段,我们采用放弃技术来避免过度拟合,放弃值为0.2阶段。

4.3 Baselines

4.4 Results

在这一节中,我们展示了我们提出的系统和上面提到的其他系统的模型性能。表1显示了对EC数据的实验结果,表2显示了对NEWS数据的实验结果。新闻数据的结果。
基于Dict的系统的低召回率表明字典的覆盖率很低,即使是 我们在新闻数据中拥有超过7万个人名。与在H上训练的LSTM-CRF相比,在H和A上训练的LSTM-CRF系统在两个数据集上的性能低得多。这些事实表明,由远距离监督产生的数据包含许多影响模型性能的噪音。
模型的性能。LSTM-CRF-PA比在H上训练的LSTM-CRF产生更好的性能,在EC上显示+0.89的F1改进,在NEWS上显示+1.93的F1改进。
这表明,CRF-PA的学习可以减少不完整注释的影响。
从表中我们发现,与LSTM-CRF-PA相比,LSTM-CRF-PA+SL获得了绝对的 在EC和NEWS上分别提高了+1.37和+0.84个F1点。总的来说,我们的最终系统
(LSTM-CRF-PA+SL)比我们的基线系统LSTM-CRF在EC和NEWS上分别取得了+2.26和+2.77个F1点的更好改进。这些事实表明,基于RL的实例选择器可以 为CRF-PA学习提供额外的帮助。
我们进一步研究不同规模的人类注释数据的影响。我们从人类注释的数据中随机选择25%的 和50%的句子作为训练数据,并在此基础上建立新的实体字典。分别建立新的实体字典。
新的字典被用来生成远距离监督的注释数据。表3显示了EC数据集的结果,其中前两行是25%的数据,第三和第四行是50%的数据。
前两行是25%,第三和第四行是50%,最后两行是100%。从表中可以看出,LSTM-CRF-PA+SL的表现比基线系统更好。比基线系统表现更好,在25%和50%的情况下分别有+4.72和+2.48的F1改进。对50%的改进。
这表明,对于较小的人类注释数据,我们提出的方法可以 提供相对较大的改进。

全文大概翻译就这了


ok 全文看完 垃圾论文 鉴定完毕 唯一的贡献是创了两个数据集

Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning阅读笔记相关推荐

  1. 《Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach》论文阅读笔记

    Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach 基本信息 研究目 ...

  2. Deep High-Resolution Representation Learning for Visual Recognition阅读笔记

    用于视觉识别的深度高分辨率表示学习 论文链接 摘要: 高分辨率表示对于人体姿态估计.语义分割和目标检测这类位置敏感的视觉问题至关重要.现有的 sota 框架首先通过串联 high-to-low 分辨率 ...

  3. Supervised Fitting of Geometric Primitives to 3D Point Clouds阅读笔记

    3D点云数据与几何基元拟合,可以得到3D点云数据中潜在的几何信息,从而将低层次的点数据转换为高层次的结构化信息,这为下游应用程序处理3D数据提供了基础.长期以来,基于RANASC的方法已是基元拟合问题 ...

  4. Clustered Federated Learning 论文源码阅读笔记

    本篇文章的阅读论文是<Clustered Federated Learning: Model-Agnostic Distributed Multitask Optimization Under ...

  5. 活体检测 Adaptive Normalized Representation Learning for GeneralizableFace Anti-Spoofing 阅读笔记

    论文链接:Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing | Proceedings ...

  6. Causality Inspired Representation Learning for Domain Generalization 阅读笔记

    介绍 DG:将从多个源域学习到的知识泛化到未知域上,主要的方法是利用统计模型对数据和标签之间的依赖关系进行建模,从而学习到独立于域的表示.然而,当依赖性随目标分布而变化时,统计模型可能无法泛化. 于是 ...

  7. 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

    本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

  8. 机器学习-49-RL-01-Deep Reinforcement Learning(强化学习-强化学习的基本介绍 Policy-based方法的基本介绍)

    文章目录 Deep Reinforcement Learning Reference Example: Scenario of Reinforcement Learning(强化学习的应用场景) Su ...

  9. 李宏毅Reinforcement Learning强化学习入门笔记

    文章目录 Concepts in Reinforcement Learning Difficulties in RL A3C Method Brief Introduction Policy-base ...

最新文章

  1. [hive] hive 内部表和外部表
  2. outdated: 17.2D Texture Font
  3. 分享apache http服务器设置虚拟主机的方法
  4. 如何从GET参数获取值?
  5. 案例7-2 寻找大富翁 (25 分)(STL容器)
  6. 测试网速的c语言代码,如何用C语言编个测网速的小工具
  7. 在VS2010配置并运行PBC库程序
  8. php的入门是html5,h5自学教程:6个适合初学者的零基础html5入门自学教程推荐
  9. 抖音小程序开发流程(一)
  10. 常见分布式任务调度工具分析
  11. 类似Wordpress的建站系统
  12. 期货穿仓和爆仓有何区别?
  13. window下线程同步之(Event Objects(事件)) / 事件CEvent的使用
  14. ROS暑期学校与ROSCon 2018
  15. 汽车电子控制-汽油机电子控制QA(1)
  16. 3的n次方在c语言中如何表示真和假,C程序作业答案
  17. jQuery手风琴特效
  18. 一文读懂rawRGB、RGB和YUV数据格式与转换
  19. Promise 拦截器 eslink reject报错 Expected the Promise rejection reason to be an Error
  20. PLS-00103: 出现符号 在需要下列之一时 ( ; is with oracle利用存储过程设计定时器的问题

热门文章

  1. 苏州新闻网V2.0 新版上线
  2. keil rt-thread link.sct 解析
  3. 儿童台灯用白炽灯还是led灯好?盘点眼科医生推荐的儿童LED
  4. 交换机千兆和百兆对网速影响_千兆网线和百兆网线是否可以通用?
  5. 【拜读】HTTPS和SSL/TLS 协议
  6. Web重构之道 大漠
  7. 快速搭建迅搜搜索引擎步骤
  8. marvell 开发板Ubuntu镜像制作及配置步骤
  9. 巧用ecshop做淘宝客
  10. jk触发器改为四进制_数字电路学习笔记(十):更多锁存器和触发器