强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

1. 离散动作 vs 连续动作

个人理解：

离散：可数（整数表示的）
连续：不可数（小数/浮点数表示的）

2. DDPG

这里一共有四个网络，Q网络以及它的target_Q网络，策略网络以及它的target_P网络，两个target是为了稳定计算，每隔一段时间复制一下参数，投入到评估网络使用。

target_Q是为了稳定计算Q_target中的 Q w ˉ ( s ′ , a ′ ) Q_{\bar{w}}(s^{'},a^{'}) Qwˉ(s′,a′)，而其中的 a ′ = μ θ ( s ′ ) a^{'}=\mu_{\theta}(s^{'}) a′=μθ(s′)则是由策略网络里的那个target_P网络来稳定计算的。
Q w ˉ ( s ′ , a ′ ) Q_{\bar{w}}(s^{'},a^{'}) Qwˉ(s′,a′) 这里的w加了一个横线就是为了和前面的那个区分开。

策略网络对应的是model.py中的演员Actor类（ActorModel），有一个policy函数，
Q网络对应的是评论家类（CriticModel类），有一个value函数

DQN里是硬更新，每次直接把 Q w Q_w Qw网络的所有参数全部给 Q w ˉ Q_{\bar{w}} Qwˉ， μ θ \mu_{\theta} μθ同理。
而DDPG采取的是一种更为平滑的方式，软更新，每次只更新一点点。如公式所示，用了一个 τ \tau τ，来控制每次 w w w或者 θ \theta θ更新的幅度。

也是为了让Q网络这个参数的更新更加稳定（属于工程/代码上的一种小trick吧）

3. 大作业

https://github.com/PaddlePaddle/RLSchool也是百度做的一个环境，目前暂时只有电梯环境和四轴飞行器这两个环境。

4. 创意赛

相关的代码实现：
在PaddleRL课程页面的讨论区：终极复现项目提交区（讨论请移步灌水区~）
【参考环境】

1星环境：简单的弹跳和接球游戏：
https://github.com/shivaverma/Orbit
2星环境：GYM环境 Box2D (需要安装 box2d-py)：
https://gym.openai.com/envs/#box2d
PyGame游戏环境（含Flappy Bird）：
https://github.com/ntasfi/PyGame-Learning-Environment
3星环境：GYM环境 Robotics (需要安装 mujoco_py和试用许可证书)：https://gym.openai.com/envs/#robotics
股票预测环境：
https://github.com/kh-kim/stock_market_reinforcement_learning
RLSchool四轴飞行器的速度控制任务 “velocity_control”：https://github.com/PaddlePaddle/RLSchool/tree/master/rlschool/quadrotor
4星环境：RLBench任务环境（使用机械臂完成某一项任务）：https://github.com/stepjam/RLBench
5星环境：交通信号灯控制：
https://github.com/Ujwal2910/Smart-Traffic-Signals-in-India-using-Deep-Reinforcement-Learning-and-Advanced-Computer-Vision

强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业相关推荐

从零实践强化学习之连续动作空间上求解RL(PARL)
回顾这五节课的内容,其实可以分成四大内容: 离散状态空间连续状态空间离散动作空间连续状态空间最后一节课的主要内容就是学习用强化学习来求解连续状态空间的问题连续动作空间连续动作和离散动作是一 ...
强化学习：如何处理大规模离散动作空间
https://www.toutiao.com/a6701973206141501964/ 在深度学习大潮之后,搜索推荐等领域模型该如何升级迭代呢?强化学习在游戏等领域大放异彩,那是否可将强化学习应用 ...
深化学习（RL）概念应用以及基于表格型、神经网络型、策略梯度、连续动作空间求解RL
深化学习(RL)概念应用以及基于表格型.神经网络型.策略梯度.连续动作空间求解RL 目录一.概念以及应用二.基于表格型求解RL--Sarsa和learning 表格型方法--Sarsa 1. Sa ...
强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）
强化学习-- 离散与连续动作空间(随机策略梯度与确定策略梯度) 1. 动作空间 1.1 离散动作空间 1.2 连续动作空间 2. 确定策略梯度做连续控制 2.1 确定策略梯度推导 2.2 确定策略梯度 ...
【强化学习实战】基于gym和tensorflow的强化学习算法实现
[新智元导读]知乎专栏强化学习大讲堂作者郭宪博士开讲<强化学习从入门到进阶>,我们为您节选了其中的第二节<基于gym和tensorflow的强化学习算法实现>,希望对您有所帮助 ...
【论文笔记】基于强化学习的机器人手臂仿人运动规划方法
文章目录摘要关键词 0 引言学者研究阶段一:采集运动数据,分析运动过程特征阶段二:设计仿人变量.建立仿人标准和约束阶段三:用智能算法提升仿人运动机器人性能本文工作 1 问题描述及方法架构 ...
Life——一个简洁易用的强化学习库，基于pytorch
简介 Life是一个基于pytorch实现的强化学习库,实现了多种强化学习算法. 项目地址:https://github.com/HanggeAi/Life 目前包含的强化学习算法 Sarsa mul ...
强化学习（四）用蒙特卡罗法（MC）求解
在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法.但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态.导致对 ...
【RL】3.基于表格方法求解RL
RL-Ch3-基于表格方法求解RL 本文不太完善,待寻到时间再细细修改. 前情回顾 MDP为(S,A,P,R,γ\gammaγ)五元组,在上一状态sts_tst采取动作ata_tat,会以一定的概 ...