【论文阅读】保守和适应性惩罚+基于模型的安全强化学习

Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning

这是今年发表在AAAI 2022关于安全强化学习的一篇文章。基于模型的RL算法使用来自自学习模型的模拟样本来合成遵守约束的策略,减少RL在现实世界不安全的行为,例如超速,超过机器所能达到的最大转矩。但是,不完美的建模还是会产生违规动作,即使动作被预测能满足约束条件。

因此,本文中提出了一种基于模型的安全RL框架(CAP),通过捕获模型的不确定性并自适应地利用它来平衡汇报和成本目标,从而解释潜在的建模错误。主要分为两个步骤:

  1. 使用基于不确定的惩罚来提高预测的成本,这保证了保守性成本约束条件,使其能适应真实的环境,在RL的训练阶段中间步骤的安全性;
  2. 考虑到固定惩罚项适应性较弱(过高,RL只能被迫找到次优策略;过低,可能对成本的约束力不强,造成违规动作),使用来自环境的真实成本回报来自适应地调节成本惩罚项。

最后,在基于状态和图像的环境中,评价了这种基于惩罚的保守自适应(conservative and adaptive cost penalty,CAP)安全RL方法。

具体方法步骤

首先,基于模型的安全RL学习框架
建模为有限制的马尔可夫决策过程(CMDP),其转化为找出存在约束条件的最佳决策的优化问题:

其中,CCC是一个不应超过的累积成本约束阈值。
通常是将式(1)转换为:

其中,

同时,状态转移函数T未知,最优策略不能直接通过动态规划的方法计算出,MBRL中通过数据来学习转移函数的估计值。MBRL框架迭代过程:

接着,介绍了保守适应性惩罚项(CAP)
运用了一类概率距离度量——积分概率度量(integral probability metric,IPM),定义了某类函数fff使得真实和学习到的转换函数差异最大,该最大差异定位为两个分布的距离:

由上式可得,使用真实和预测的转移函数的策略成本的差异(具体证明可以见论文的附录部分):

上述上界说明了在安全关键设置中不修改直接运用MBRL的风险,因为一般的基于模型的优化没有考虑模型误差对策略成本估计的影响。

为了使MBRL模型能在现实环境中可行,对于一个固定的已学习的转移函数,设置一个成本惩罚函数:

若这个函数存在,能解这个动态规划的问题:

(后面就是证明:在一定概率下对式(5)可行对于式(2)也可行)

然后,介绍了自适应成本惩罚
上节中推导的上界在实践中可能过于保守。为此,提出了一种基于环境反馈的自适应惩罚函数,使其更有实用性。

(文中说更新参数κ\kappaκ使用了PI控制器,但是感觉就是简单的更新参数的方式。。。)
当累积成本没超过阈值,参数更新是负的,那么成本惩罚可以不那么保守,充分探索最优的策略。

最后,将CAP扩展到连续的状态和动作空间
解决高维的RL问题,设计基于学习转移模型统计的启发式惩罚函数:

运用受限的交叉熵方法:

实验结果




✔️ 网络安全研究小白,如有问题和建议,欢迎指正

【论文阅读】保守和适应性惩罚+基于模型的安全强化学习相关推荐

  1. 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive

    模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...

  2. 文献学习(part9)--基于模型分解的小样本学习

    学习笔记,仅供参考,有错必究 从文献中按照本人的学习情况不完全摘录: 文章目录 基于模型分解的小样本学习 摘要 引言 小样本学习问题 本文思路 迁移学习与元学习 基于模型分解的小样本学习 摘要 机器学 ...

  3. 多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏

    大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...

  4. CORL: 基于变量序和强化学习的因果发现算法

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:诺亚实验室 华为诺亚方舟实验室.西安交通大学 ...

  5. 《强化学习周刊》第25期:DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

    No.25 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  6. 基于多智能体强化学习的出租车调度框架

    网约车平台的繁荣使得人们比以往能更加"智慧"的出行.平台能实时掌握全局的车辆与乘客的供需关系,从而在车辆与乘客之间实现更加有效的匹配.但车辆与乘客还是会经常遭遇"车辆不停 ...

  7. 基于 Paddle2.0 的强化学习新玩法 —— 通关超级马里奥兄弟

    基于 Paddle2.0 的强化学习新玩法 -- 通关超级马里奥兄弟 本文目录 基于 Paddle2.0 的强化学习新玩法 -- 通关超级马里奥兄弟 前言 马里奥游戏环境简介 PPO 算法简介 基于 ...

  8. DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用

    内容来源:ATYUN AI平台 最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong.尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家 ...

  9. Multiple Landmark Detection using Multi-AgentReinforcement Learning基于多智能体强化学习的多重地标检测

    目录 摘要 介绍 贡献 相关工作 方法 协作代理 实验 数据集 训练 测试 讨论 计算性能 结论 References 摘要 解剖标志的检测是医学图像分析和诊断.解释和指导应用的重要步骤. 对地标进行 ...

最新文章

  1. linux负载很高是什么原因导致的?
  2. CVPR2021 论文大盘点:全景分割论文汇总(共15篇)
  3. boost::mpl模块实现find相关的测试程序
  4. JavaWeb学习总结(三十五)——使用JDBC处理Oracle大数据
  5. 50-100G大文件的处理办法
  6. 如何使用ZBrush+Painter来创建一个新生物之母?
  7. java hibernate的使用_《Hibernate快速开始 – 4 – 使用JAVA持久层 API (JPA)教程》
  8. 机器学习的行业与场景总结
  9. # 遍历结构体_关于二叉树怎样建立和四种遍历方法你知道吗?
  10. 分享100个好看且实用的JavaScript特效
  11. Java性能调优的11个实用技巧
  12. 超简单实用操作!用Python让Excel飞起来【附详细教程】
  13. css图片保持原有尺寸比例
  14. 金蝶——“免、抵、退”税操作说明及帐务处理
  15. 高通msm8916 gpio笔记(基于设备树)
  16. r730xd外置光驱安装linux,PowerEdge r730xd 安装centos 6.7
  17. linux两个进程同时打开串口,linux串口操作及设置详解
  18. 超微服务器硬盘红灯_服务器硬盘亮红灯崩溃怎么办?数据丢失都是怎么找回的...
  19. 升级CentOS 7.5内核版本
  20. ERROR: Failed to parse XML in D:\MyAPP\XXXX\app\src\main\AndroidManifest.xml

热门文章

  1. 一小时让你成为点云建图小将(固定帧数法选取关键帧)
  2. 恭主驾到:新手都知道的审车流程,你都知道吗?
  3. EternalBlue复现过程
  4. Modeling Personalized Item Frequency Information for Next-basket Recommendation SIGIR2020
  5. 2019年 第11届 全国大学生数学竞赛 初赛(非数学类)试题详细解答
  6. 云流量成为数据中心的王者
  7. Could not transfer artifact (https://repo.maven.apache.org/maven2): Received fatal alert: protocol_v
  8. squid代理服务器应用及它的几种代理模式
  9. 好记性不如烂笔头——Vuex篇
  10. 安装使用Eclipse Che