Motivation

在CMDP(constrained Markov decision process)中,目标是保证不违反约束的情况下使得奖励和最大,一般CMDP问题采用拉格朗日的方法进行求解;解法如下:
原问题表示为:

构建拉格朗日(其中λ\lambdaλ为乘子):

可以求原问题的解为:

采用梯度下降的方式求解:

这样的求解方式产生一个问题:在梯度下降求解过程中会不断的违反约束,如下图所示;
因此本文的贡献在于把constrained RL看做是以λ\lambdaλ(拉格朗日乘子)为输入的动态系统,并用PID控制调节λ\lambdaλ。

Method

在强化学习中,当agent优化策略会导致奖励和发生变化,此时λ\lambdaλ也应该发生变化,因此这是一个动态系统;其中λ\lambdaλ通过PID进行控制。

此处的hhh为以下的Algorithm 2

Responsive Safety in Reinforcement Learning by PID Lagrangian Methods相关推荐

  1. 《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记

    B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...

  2. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  3. Residual Reinforcement Learning for Robot Control

    Residual Reinforcement Learning for Robot Control 传统反馈控制方法通过显式模型来解决各种机器人控制问题.但在现代制造业中的很多控制问题都需要处理接触和 ...

  4. Reinforcement Learning for UAV Attitude Control-强化学习的无人机姿态控制

    系列文章目录 Reinforcement Learning for UAV Attitude Control-强化学习的无人机姿态控制 文献链接 代码链接 作者:WILLIAM KOCH, RENAT ...

  5. 【论文阅读】Search-Based Testing Approach for Deep Reinforcement Learning Agents

    文章目录 一.论文信息 二.论文结构 三.论文内容 Abstract 摘要 一.论文信息 题目: Search-Based Testing Approach for DeepReinforcement ...

  6. 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive

    模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...

  7. 强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同?

    强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同? 目录

  8. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  9. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

最新文章

  1. java webservice接口开发_php开发webservice服务端接口(wsdl)
  2. javascript --- 再识闭包
  3. 剑指offer 面试题58 - II. 左旋转字符串
  4. 吴恩达神经网络和深度学习-学习笔记-36-网络中的网络以及1×1卷积
  5. 32位电脑ODBC连接
  6. 两个简洁的页面:404和Loading
  7. java实战项目教程
  8. 卸载神器:geek(绝对好用,中国人不骗中国人)
  9. Element-UI下拉框el-select实现拼音搜索
  10. 苹果发布的Mac Pro就是“渣渣”?网友疯狂吐槽
  11. SQL文件太大怎么打开(推荐一款工具EmEditor)
  12. 程序员如何一句话教老板做事?“我先下班了,你可要加把劲啊”
  13. Windows下使用IDEAS对cala文件打jar包
  14. html 打印指定内容
  15. 智能家居大规模落地的关键,在于能否迈过“老人”这道坎
  16. 浙大PAT考试1077~1080(2014上机复试题目)
  17. 算法训练 子网掩码(25分)c++实现
  18. linux移动硬盘hd0,u盘/移动硬盘(usb hd)安装多种linux live CD
  19. logdet函数的凹凸性和遍历速率
  20. Mac——技巧:用“提醒事项”将任务分配给其他人

热门文章

  1. 树莓派4B+刷入KODI机顶盒
  2. 调用电子口岸IC卡/UKEY控件WebSocket方式进行数据加签的示例
  3. 【原创】2018年世界杯1/4淘汰赛盘口总结。
  4. 易基因项目集锦|易基因科技6篇SCI成果大公开,篇篇IF>5
  5. CSS系列之定位详解
  6. Python:GSx缺点及改进
  7. JS 实现div 居中显示
  8. ERROR:You appear to be running an X sever; pleas exit X before installin
  9. 51CTO资源下载器
  10. 了解九型人格对应的职业类型