【论文阅读】保守和适应性惩罚+基于模型的安全强化学习

Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning

这是今年发表在AAAI 2022关于安全强化学习的一篇文章。基于模型的RL算法使用来自自学习模型的模拟样本来合成遵守约束的策略，减少RL在现实世界不安全的行为，例如超速，超过机器所能达到的最大转矩。但是，不完美的建模还是会产生违规动作，即使动作被预测能满足约束条件。

因此，本文中提出了一种基于模型的安全RL框架（CAP），通过捕获模型的不确定性并自适应地利用它来平衡汇报和成本目标，从而解释潜在的建模错误。主要分为两个步骤：

使用基于不确定的惩罚来提高预测的成本，这保证了保守性成本约束条件，使其能适应真实的环境，在RL的训练阶段中间步骤的安全性；
考虑到固定惩罚项适应性较弱（过高，RL只能被迫找到次优策略；过低，可能对成本的约束力不强，造成违规动作），使用来自环境的真实成本回报来自适应地调节成本惩罚项。

最后，在基于状态和图像的环境中，评价了这种基于惩罚的保守自适应(conservative and adaptive cost penalty，CAP)安全RL方法。

具体方法步骤

首先，基于模型的安全RL学习框架
建模为有限制的马尔可夫决策过程(CMDP)，其转化为找出存在约束条件的最佳决策的优化问题：

其中，CCC是一个不应超过的累积成本约束阈值。
通常是将式(1)转换为：

其中，

同时，状态转移函数T未知，最优策略不能直接通过动态规划的方法计算出，MBRL中通过数据来学习转移函数的估计值。MBRL框架迭代过程：

接着，介绍了保守适应性惩罚项(CAP)
运用了一类概率距离度量——积分概率度量(integral probability metric，IPM)，定义了某类函数fff使得真实和学习到的转换函数差异最大，该最大差异定位为两个分布的距离：

由上式可得，使用真实和预测的转移函数的策略成本的差异(具体证明可以见论文的附录部分)：

上述上界说明了在安全关键设置中不修改直接运用MBRL的风险，因为一般的基于模型的优化没有考虑模型误差对策略成本估计的影响。

为了使MBRL模型能在现实环境中可行，对于一个固定的已学习的转移函数，设置一个成本惩罚函数：

若这个函数存在，能解这个动态规划的问题：

(后面就是证明：在一定概率下对式(5)可行对于式(2)也可行)

然后，介绍了自适应成本惩罚
上节中推导的上界在实践中可能过于保守。为此，提出了一种基于环境反馈的自适应惩罚函数，使其更有实用性。

(文中说更新参数κ\kappaκ使用了PI控制器，但是感觉就是简单的更新参数的方式。。。)
当累积成本没超过阈值，参数更新是负的，那么成本惩罚可以不那么保守，充分探索最优的策略。

最后，将CAP扩展到连续的状态和动作空间
解决高维的RL问题，设计基于学习转移模型统计的启发式惩罚函数：

运用受限的交叉熵方法：

实验结果

✔️ 网络安全研究小白，如有问题和建议，欢迎指正

【论文阅读】保守和适应性惩罚+基于模型的安全强化学习相关推荐

模型预测控制与强化学习-论文阅读（一）Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...
文献学习(part9)--基于模型分解的小样本学习
学习笔记,仅供参考,有错必究从文献中按照本人的学习情况不完全摘录: 文章目录基于模型分解的小样本学习摘要引言小样本学习问题本文思路迁移学习与元学习基于模型分解的小样本学习摘要机器学 ...
多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏
大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...
CORL: 基于变量序和强化学习的因果发现算法
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:诺亚实验室华为诺亚方舟实验室.西安交通大学 ...
《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...
No.25 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
基于多智能体强化学习的出租车调度框架
网约车平台的繁荣使得人们比以往能更加"智慧"的出行.平台能实时掌握全局的车辆与乘客的供需关系,从而在车辆与乘客之间实现更加有效的匹配.但车辆与乘客还是会经常遭遇"车辆不停 ...
基于 Paddle2.0 的强化学习新玩法 —— 通关超级马里奥兄弟
基于 Paddle2.0 的强化学习新玩法 -- 通关超级马里奥兄弟本文目录基于 Paddle2.0 的强化学习新玩法 -- 通关超级马里奥兄弟前言马里奥游戏环境简介 PPO 算法简介基于 ...
DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用
内容来源:ATYUN AI平台最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong.尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家 ...
Multiple Landmark Detection using Multi-AgentReinforcement Learning基于多智能体强化学习的多重地标检测
目录摘要介绍贡献相关工作方法协作代理实验数据集训练测试讨论计算性能结论 References 摘要解剖标志的检测是医学图像分析和诊断.解释和指导应用的重要步骤. 对地标进行 ...

【论文阅读】保守和适应性惩罚+基于模型的安全强化学习

Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning

具体方法步骤

实验结果

【论文阅读】保守和适应性惩罚+基于模型的安全强化学习相关推荐

最新文章

热门文章