强化学习(Reinforcement Learning,RL)正成为当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同,强化学习强调智能体(agent)与环境(environment)的交互,交互过程中智能体需要根据自身所处的状态(state)选择接下来采取的动作(action),执行动作后,智能体会进入下一个状态,同时从环境中得到这次状态转移的奖励(reward)。

强化学习的目标就是从智能体与环境的交互过程中获取信息,学习状态与动作之间的映射,指导智能体根据状态做出最佳决策,最大化获得的奖励。

在强化学习系统中,除了智能体和环境,重要元素还包括价值函数(value function)、策略(policy)以及奖励信号(reward signal)。Value-based 和 Policy-based 是强化学习算法设计的两大思路。在智能体与环境交互过程中,奖励是智能体在某个状态执行动作后立即得到的反馈,而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。

本文对近两年来发表在ICLR、ICML等AI顶会上有关强化学习的论文进行了解读,以飨读者。

Ask the Right Questions:Active Question Reformulation with Reinforcement Learning

论文作者:Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, Wei Wang(谷歌)

论文地址:https://arxiv.org/pdf/1705.07830v2.pdf

总结:本文将问答看做一个强化学习任务,主要思想是在用户和问答系统之间增加一个问题重构模块。该模块可以将用户问题改写成不同形式,这些改写后的问题可以通过问答系统得到多个答案,该模块再从这些答案中选择质量最高的回答返回给用户。问题重构模块的核心是一个类似机器翻译的sequence-to-sequence模型,该模型首先通过单语语料预训练,之后使用Policy Gradient进行强化学习的训练过程,目标是使问答系统得到最佳回答的奖励。

Go for a Walk and Arrive at the Answer:Reasoning over Paths in Knowledge Bases using Reinforcement Learning

论文作者:Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer, Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum(马萨诸塞大学,卡内基梅隆大学,德克萨斯大学奥斯汀分校,亚马逊)

论文地址:https://arxiv.org/pdf/1711.05851.pdf

总结:本文提出了MINERVA算法解决知识图谱中的自动推理问题。MINERVA算法主要用于基于知识图谱的自动问答:给定三元组中的关系和其中一个实体,补全另一个实体。作者采用基于路径搜索的方法,从已知的实体节点出发,根据问题选择合适的路径到达答案节点。作者将问题形式化为一个部分可观察的马尔可夫决策过程,将观察序列和历史决策序列用基于LSTM的策略网络表示。LSTM的训练使用了Policy Gradient方法。

Active Neural Localization

论文作者:Devendra Singh Chaplot, Emilio Parisotto, Ruslan Salakhutdinov(卡内基梅隆大学)

论文地址:https://www.aminer.cn/pub/5a9cb66717c44a376ffb8b95/active-neural-localization

总结:本文介绍了Active Neural Localization模型,根据给定的环境地图和智能体的观察,可以估计出智能体的位置。该方法可以直接从数据学习,并主动预测智能体行动来获得精确和高效的定位。该方法结合了传统的filter-based定位方法和策略模型,可以使用强化学习进行end-to-end训练。模型包括一个感知模型和一个策略模型,感知模型根据当前智能体的观测计算可能位置的信念(Belief),策略模型基于这些信念估计下一步行动并进行精确定位。

The Reactor:A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

论文作者:Audrunas Gruslys, Mohammad Gheshlaghi Azar, Marc G. Bellemare, Remi Munos(DeepMind)

论文地址:https://arxiv.org/pdf/1704.04651.pdf

总结:本文提出了Reactor模型,该模型结合了off-policy经验回放的低样本复杂度和异步算法的高训练效率两方面优点,比Prioritized Dueling DQN和Categorical DQN有更低的样本复杂度,同时比A3C有更低的运行时间。作者在模型中使用了多个技术,包括:新的策略梯度算法beta-LOO,多步off-policy分布式强化学习算法Retrace,prioritized replay方法以及分布式训练框架。

Reinforcement Learning for Relation Classification from Noisy Data

论文作者:Jun Feng,Minlie Huang,Li Zhao,Yang Yang,Xiaoyan Zhu(清华大学,微软亚洲研究院,浙江大学)

论文地址:https://www.aminer.cn/pub/5b1642388fbcbf6e5a9b54be/reinforcement-learning-for-relation-classification-from-noisy-data

总结:现有的关系分类方法主要有两个局限性:无法进行sentece-level的关系分类;依赖远程监督(distant supervision)标注的数据,但标注数据中存在较大误差。本文介绍了一个sentence-level的关系分类算法。算法由两个部分组成,分别是“instance selector”和“relation classifier”。Instance selector用于选取质量高的句子作为relation classifier的训练数据,该过程可以看做一个强化学习问题。作者分别定义了Instance selector的动作空间,状态空间和奖励函数,并给出了基于Policy Gradient的优化方法。

Learning Structured Representation for Text Classification via Reinforcement Learning

论文作者:Tianyang Zhang, Minlie Huang,Li Zhao(清华大学,微软亚洲研究院)

论文地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/11/zhang.pdf

总结:本文提出了一个基于深度学习的句子表示算法,可以针对任务学习句子的结构化表示。该算法不需要解析树或其他显示的结构化表示标注作为输入,而是通过训练数据自动效识别与任务相关的句子结构。作者使用强化学习的方法构建任务相关的句子结构表示,模型由三部分组成,分别是Policy Network (PNet),Structured Representation Model和Classification Network (CNet),PNet为句子产生一个动作序列,Structured Representation Model将动作序列转化为结构化表示,CNet提供奖励信号,模型参数可以使用Policy Gradient方法优化。

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

论文作者:Anusha Nagabandi, Gregory Kahn, Ronald S. Fearing, Sergey Levine(加州大学伯克利分校)

论文地址:https://www.aminer.cn/pub/5a260c8417c44a4ba8a31564/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free

总结:本文提出了一种新的model-based的强化学习学法,并可以用于初始化model-free的算法。作者提出的model-based算法使用神经网络拟合动力学模型,并结合了MPC(model predictive control)。作者使用model-based优化得到的动力学模型作为model-free算法的初始化,可以同时保留model-based算法样本复杂度小,model-free算法泛化能力强两方面的优势。

Learning to Collaborate:Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

论文作者:Jun Feng, Heng Li, Minlie Huang, Shichen Liu, Wenwu Ou, Zhirong Wang, Xiaoyan Zhu(清华大学,阿里巴巴)

论文地址:https://arxiv.org/pdf/1809.06260v1.pdf

总结:本文提出了一个多场景联合排序算法,目标是提高多场景的整体效果。多场景之间存在博弈关系,单个场景提升无法保证整体提升。本文将多场景排序看做一个完全合作,部分可观测的多智能体序列决策问题,并采用多智能体强化学习的框架建模。作者提出了MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)算法,利用DRQN对用户的历史信息建模,同时用DPG对连续状态和连续动作空间进行探索。

Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

论文作者:Meng Qu,Jian Tang,Jiawei Han(伊利诺伊大学香槟分校)

论文地址:https://www.aminer.cn/pub/5a9cb60d17c44a376ffb3c89/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning

总结:本文将深度强化学习应用到了异构星型网络的表示学习中。在异构星型网络表示的学习过程中通常需要采样一系列的边来得到点之间的相似性,作者发现这些边的顺序会显著影响表示学习的效果。作者借鉴了课程学习(Curriculum Learning)的思想,研究如何在网络表示学习中学习这些边的采样顺序。该问题可以形式化为马尔可夫决策过程,作者提出了一个基于深度强化学习的解决方法。

Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

论文作者:Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine(加州大学伯克利分校)

论文地址:https://arxiv.org/pdf/1801.01290.pdf

总结:本文提出了soft actor-critic算法。该算法是一个基于最大熵强化学习的off-policy actor-critic算法,在最大化奖励的同时最大化熵,让动作尽可能随机。作者证明了算法的收敛性,并在多个benchmark上超越了已有的on-policy或off-policy的算法。

大家都在看:

AAAI2020放榜,审稿遭疯狂吐槽!八篇入选论文提前看!

ICCV2019 | 旷视提出轻量级目标检测网络ThunderNet

结构体实验报告总结_解读!清华、谷歌等10篇强化学习论文总结相关推荐

  1. c语言结构体实验报告加注释,C语言结构体实验报告.doc

    C语言结构体实验报告 <高级语言程序设计>实验报告 实验序号:8 实验项目名称:结构体 学 号 姓 名 专业.班级 实验地点 指导教师 实验时间 一.实验目的及要求 1.掌握结构体变量的定 ...

  2. 【ICML2018】63篇强化学习论文全解读

    https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/81230588 由全球最大中文IT社区CSDN与全球AI技术社区AICamp共同打造的 ...

  3. 2020ICML多智能体强化学习论文简介

    强化学习最新论文汇总 如有错误,欢迎指正 所引用内容链接 Multi-Agent RL 1. Kernel Methods for Cooperative Multi-Agent Learning w ...

  4. c语言选择结构程序设计实验报告6,c语言-选择结构程序设计实验报告4.doc

    c语言-选择结构程序设计实验报告4.doc 实验报告 实验题目:选择结构程序设计 实验目的: 了解C语言表示逻辑量的方法(以0代表"假"以非0代表"真"). 学 ...

  5. 大学计算机实验报五告,大学计算机实验报告二_相关文章专题_写写帮文库

    时间:2019-05-12 01:07:32 作者:admin 大学计算机实验报告一 长文档的组织.编辑与排版 姓名: 学号: 专业: 年级: 指导教师: 年月日1 实验目的 学会长文档的组织.编辑. ...

  6. c语言循环结构程序设计实验报告,c语言循环结构程序设计实验报告

    c语言循环结构程序设计实验报告 云南大学数学与统计学实验教学中心实验报告课程名称:程序设计和算法语言 学期: 2012~2013 学年下学期 成绩:指导教师: 学生姓名: 学生学号实验名称:循环结构程 ...

  7. C语言实验报告4云南大学,C语言循环结构程序设计实验报告.doc

    C语言循环结构程序设计实验报告.doc 云南大学数学与统计学实验教学中心实验报告课程名称程序设计和算法语言学期 20122013学年下学期成绩指导教师学生姓名学生学号实验名称循环结构程序设计实验编号四 ...

  8. c语言实验原理或流程图,实验2循环结构程序设计实验报告.doc

    广 州 大 学 实 验 报 告 学 院 商学院 专业.班级 11电子商务 姓名.学号 任雨桐 1113800001 课程名称 C程序设计 项目名称 循环结构设计 实验时间:2012年 4 月 10 日 ...

  9. 解读 | 2019年10篇计算机视觉精选论文(中)

    导读:2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力.因此,我们精选了 2019 年十大 ...

最新文章

  1. Java 数据类型转换
  2. React Native之ViewPagerAndroid跳转页面问题
  3. 每天一个linux命令(14):head 命令
  4. ISA SERVER使用指南
  5. js中cookie操作
  6. MySQL多种安装方式选择
  7. 企业微信_获取access_token
  8. 新的一年,推荐一些好书给大家
  9. 字节跳动的一面内容记录
  10. 个人知识库的分类目录_搭建个人知识体系,让印象笔记成为我们的“第二大脑”!...
  11. 前端HTML学习之案例--学生信息表
  12. Androidstudio开发ARcore
  13. 苹果台式电脑怎么使用计算机,苹果笔记本键盘怎么用_苹果笔记本电脑键盘的使用方法-win7之家...
  14. 2021-09-11
  15. pc安装android,在电脑上安装安卓的过程
  16. 电线带电时先接零线还是火线
  17. 安卓开发新手入门教程!Android学习路线指南,复习指南
  18. 感谢信 | 2023一封封双向奔赴的温暖纷至沓来
  19. 3.BootLoader引导启动程序
  20. python中functools的partiaethod_设置functools.partial作为Python中的一个实例方法

热门文章

  1. java从键盘输入一组数据,输出其最大值,平均值,最小值没法输出
  2. 快递公司快递单号规律总结
  3. ParseFloat有超长的小数位数的解决
  4. 如何删除Struts2动作的后缀扩展名
  5. Jquery跨域获得Json
  6. Oracle中table函数的应用
  7. java iterator map_Java循环遍历输出map方法
  8. php soap实例讲解
  9. Sublime Text 3设置吊炸天PHP开发环境
  10. PHP OPCode缓存:APC详细介绍