Hindsight Experience Replay
https://arxiv.org/pdf/1707.01495.pdf
OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显示,可以允许人工智能系统从错误中吸取教训,并将错误视为系统的目标而非失败。
失败是成功之母:HER有自我审视能力
最近几个月,OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines,机器学习算法可以进行自主学习。目前,这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训。
这个进步源于OpenAI的研究人员在近期公布的名为“后见之明经验复现(Hindsight Experience Reply, HER)”的开源算法。正如名字所示,HER帮助人工智能系统在完成一项任务后,具有自我审视的能力。OpenAI的博客中提到,人工智能认为失败乃成功之母。
以下是视频介绍:
研究人员写到:“构建HER的关键在于利用人类的直觉:在实现某个任务时,虽然我们没有成功,但是在这个过程中我们学到一些不一样的东西,既然如此,为何不能将我们最终学到的知识作为我们最初的目标呢?“
简而言之,这意味着每一次失败的尝试都是为了实现一个意想不到的“虚拟”目标,而非既定目标。
回想一下你学骑单车的经历,在最开始的几次尝试中,你无法掌握平衡。但是这些经验告诉了你怎么骑车是不正确的,怎么做不能保持平衡。就像在人类的学习过程中,每一次的失败让我们距离成功更进一步。
奖励每一次失败,并且失败也不沮丧
通过使用HER,OpenAI希望他们的人工智能系统可以利用上述的方法来学习。与此同时,这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能,使其具有独立的学习能力,它需要包含一个奖励机制:如果人工智能算法达到了预期目标,就可以得到一个小奖励,就像奖励给小孩子一块奶油饼干一样,否则就什么都得不到。另外一个系统根据人工智能距离预期目标的距离来给出奖励。
但是这两种算法并不是完美的。第一个算法会阻碍学习,因为一个人工智能算法在训练过程中要么得到奖励,要么没得到。另一方面,根据IEEE Spectrum报道的内容显示,第二系统在实现时,需要衡量与目标的距离并给出奖励,这个过程是很需要技巧的。如果把每一个任务都当作是后见之明的目标,即使人工智能系统没有完成指定的任务,HER也会提供一个奖励。这样帮助人工智能更快更好地学习。
OpenAI 在他的的博客中提到:“通过进行这种奖励机制的替换,强化学习算法在实现某些目标后会获得一个学习信号,即使这个学习任务不是它最初希望实现的。如果重复这个过程,系统最终可以实现任意的目标,包括最初的既定目标。
这种方法并不意味着使用HER方法可以完全简化人工智能系统学习某个任务的过程。研究者表示:“在机器人上使用HER进行学习仍然很难实现,因为这个过程需要大量的数据“。
无论如何,正如OpenAI的模型所显示的,HER有助于鼓励人工智能系统像人类一样从错误中学习,两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧。
Hindsight Experience Replay相关推荐
- pytorch 笔记: DQN(experience replay)
1 理论知识 DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客 强化学习笔记 experience replay 经 ...
- 强化学习笔记 experience replay 经验回放
1 回顾 :DQN DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客 DQN是希望通过神经网络来学习Q(s,a)的结 ...
- 强化学习—— 经验回放(Experience Replay)
强化学习-- 经验回放(Experience Replay) 1.DQN的缺点 1.1 DQN 1.2 DQN的不足 1.2.1 经验浪费 1.2.2 相关更新(correlated update) ...
- Prioritized Experience Replay
论文链接:https://arxiv.org/pdf/1511.05952v2.pdf 论文题目:PRIORITIZED EXPERIENCE REPLAY Prioritized Experienc ...
- 深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现
论文地址: https://arxiv.org/abs/1511.05952 本论文是由DeepMind操刀,Schaul主导完成的文章,发表于顶会ICLR2016上,主要解决经验回放中的" ...
- RL策略梯度方法之(十二): actor-critic with experience replay(ACER)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 . 文章目录 ...
- RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)
R2D2采用了分布式框架和LSTM,作为model-free方法在Atari上实现了SOTA的效果.文章的主要贡献在于两个点:一是讨论了一下加入RNN之后对于强化学习的MDP时间序列训练方法的问题:另 ...
- DQL: Dueling Double DQN, Prioritized Experience Replay, and fixed Q-targets(三下)
https://www.freecodecamp.org/news/improvements-in-deep-q-learning-dueling-double-dqn-prioritized-exp ...
- 论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights
标题:Experience Replay with Likelihood-free Importance Weights 文章链接:An Equivalence between Loss Functi ...
最新文章
- DateGridView列的输出顺序反了
- U3D游戏运行时资源是如何从AB中加载出来的
- Python学习笔记:偏函数
- java 的原码、补码、反码小总结
- 【洛谷P1108】低价购买【dp练习】
- 数据结构实验之查找五:平方之哈希表
- PostgreSQL 10.1 手册_部分 IV. 客户端接口_第 33 章 libpq - C 库_33.11. 杂项函数
- 笔记:HPlus模板 单选框
- 【技术】UEFI基础服务:系统表
- VR游戏与传统游戏开发区别 和 Unite 2016关于VR/AR的消息
- unity点光源消失
- /etc.login.defs 权限权限解析
- linux工程师前景_嵌入式Linux工程师发展前景 嵌入式工程师待遇怎样?
- among us私服搭建
- Android Java(2015-6-18 15:28、2016-1-30 21:18、2016-5-31 11:20)
- 洛谷 P3387(缩点后+处理 )
- 8.7 Meta learning元学习全面理解、MAML、Reptile
- 嵌入式开发专业术语概念汇总
- 心理学家:当你发现这三个现象,说明有人正在欺骗你,句句很真实
- Axure教程(B站宋老师)