论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
论文链接:https://arxiv.org/pdf/1805.09927.pdf
来源:ACL2018
Motivation:
远程监督是以一种生成关系抽取训练样本的方法,无需人工标注数据。但是远程监督引入了噪音,即存在很多的假正例。本文的出发点非常简单,希望通过强化学习的方法来训练一个假正例的判别器,它可以识别出数据集中的假正例,并加入到负例集中。产生更加干净的训练集,从而提高分类器的性能。
Relatedwork:
对于远程监督的噪音,之前常用的做法是加attention机制,给以真正例更大的权重,给以假正例较小的权重,单这种方法是次优的。本文有一个有意思的地方,作者在文中指出,他在提交了ACL之后,发现已经有一篇相同的工作. Reinforcement learning for relation classification from noisy data(参照论文笔记),是 feng 等人发表在AAAI 2018上的,两篇文章从立意到方法都基本一致,唯一不同的就是强化学习的reward不同。feng 等人的论文中 reward 来自预测概率,而这篇论文的 reward 是分类器的性能的改变。
Model:
远程监督中的强化学习框图
模型的整体结构如上图所示。首先对每一个关系,生成相应的正负样本,划训练集和验证集。在每一个epoch中,利用了 policy based 的 agent,对训练集的正样本做筛选,对每个句子选择保留或者移除到负样本集,得到筛选后的训练集。然后在此训练集上训练关系抽取分类器,在验证集上做测试得到分类的F1值。根据分类器的 F1 值的变化得到 reward,最后利用 policy gradient 对参数作更新。下面介绍RL方法中几个基本要素:
States:
为了满足MDP的条件,state不仅包含了当前句子的信息,还加入了过去句子的信息。对当前句子给予较大的权重,对过去句子给予较小的权重。句子的向量表示采用了常用的 word embedding 和 position embedding。
Actions:
Agent 的作用是识别出正样本中的假正例,所以action包含了两种:判断当前句子为真正例并保留;判断为假正例并移除到负样本集中。
Rewards:
Rewards 来自于关系抽取分类器的性能变化,论文中采用的是第i轮的F1值减去第i-1轮的F1值。
Policy Network:
Policy Network 的作用相当于一个二元分类器,故论文采取了一个简单的CNN网络。
另外,Policy Network 采用了预训练的策略,目的是加快收敛。训练整体的流程如下图所示:
Experiments:
实验在远程监督常用的 NYT 数据集和主流方法做了比较。下表首先给出了在原始数据集、预训练的 agent 筛选后的数据集上、RL agent 筛选后的数据集上训练得到的分类器性能对比,可以看到,RL 有效提升了分类器的性能。
下面两张图给出了关系抽取分类器分别采用 CNN 和 PCNN 时,加入 RL 和不加 RL 的分类结果的 PR 曲线图,可以看到加入 RL 提升了分类器的性能。
Conclusion:
本文利用强化学习的方法,对远程监督的数据集进行降噪,从而提升分类器的性能。另外,Agent 的 Reward 来自于分类器性能的改变,不需要加入额外的监督信息。
论文笔记整理:叶志权,浙江大学硕士,研究方向为自然语言处理、知识图谱。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪相关推荐
- 论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理
论文笔记整理:陈名杨,浙江大学直博生. Introduction 知识图谱(KGs)在很多NLP的下游应用中起着越来越重要的作用.但是知识图谱常常是不完整的,所以解决知识图谱补全的任务也非常重要.主要 ...
- ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
- 论文分享:基于深度强化学习的无人机三维导航
论文题目: Double Critic Deep Reinforcement Learning for Mapless 3D Navigation of Unmanned Aerial Vehicle ...
- 【ML4CO论文精读】基于深度强化学习的组合优化问题研究进展(李凯文, 2020)
基于深度强化学习的组合优化研究进展 本人研究方向(博士期间):多目标组合优化与决策研究--致力于多约束多目标多任务组合优化算法和多目标决策系统的研究与开发,以及多目标优化技术在一些工程实践中的应用. ...
- 【论文笔记】基于深度强化学习的机器人操作行为研究综述
目录 摘要 关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...
- 【强化学习与机器人控制论文 1】基于深度强化学习的机械臂避障
基于深度强化学习的机械臂避障 1. 引言 2. 论文解读 2.1 背景 2.2 将NAF算法用在机器人避障中 3. 总结 1. 引言 本文介绍一篇2018年发表在 European Control C ...
- 论文浅尝 | 基于深度序列模型的知识图谱补全
本文转载自公众号:DI数据智能. Learning to Complete Knowledge Graphs with Deep Sequential Models 作者:郭凌冰.张清恒.胡伟.孙泽群 ...
- 通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...
论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcem ...
- 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...
最新文章
- iOS沙盒路径及路径下数据的存储和读取
- 面试官:为什么mysql不建议执行超过3表以上的多表关联查询?
- 在ZC702上运行Linux(4)-编译和使用U-Boot Linux
- 《盗墓笔记》使用的这套技术,让美术可以在场景中任意使用灯光
- 学习vue第一篇记录
- linux下getrlimit与sysconf函数
- Science亮点!ExSeq:完整生物组织的原位空间转录组分析
- 深度学习之主流数据库 | MySQL基础
- 搭载华为HiCar 新宝骏跨界融合打造智能出行生态圈
- 尴尬了!迪士尼官方声明:从未与VIPKID有任何层面的业务合作关系
- 基于 opencv图像去噪
- [JavaEE] Hibernate连接池配置测试
- JAVA-1007. 素数对猜想 (20)
- matlab通信系统性能估计(误码率、误比特率、眼图、星座图....)
- 逻辑函数代数法化简(一)
- win10ie服务器未响应,win10ie浏览器老是无响应是什么原因?解决win10ie浏览器老是无响应的方法介绍...
- JavaScript的BOM(浏览器对象模型)部分知识点与DOM(文档对象模型)
- mysql查询各专业人数_查询各专业的学生数。
- LeetCode | 0665. Non-decreasing Array非递减数列【Python】
- 一分钟为网站添加统计功能