强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业
1. 离散动作 vs 连续动作
个人理解:
- 离散:可数(整数表示的)
- 连续:不可数(小数/浮点数表示的)
2. DDPG
这里一共有四个网络,Q网络以及它的target_Q网络,策略网络以及它的target_P网络,两个target是为了稳定计算,每隔一段时间复制一下参数,投入到评估网络使用。
- target_Q是为了稳定计算
Q_target
中的 Q w ˉ ( s ′ , a ′ ) Q_{\bar{w}}(s^{'},a^{'}) Qwˉ(s′,a′),而其中的 a ′ = μ θ ( s ′ ) a^{'}=\mu_{\theta}(s^{'}) a′=μθ(s′)则是由策略网络里的那个target_P网络来稳定计算的。 - Q w ˉ ( s ′ , a ′ ) Q_{\bar{w}}(s^{'},a^{'}) Qwˉ(s′,a′) 这里的w加了一个横线就是为了和前面的那个区分开。
- 策略网络对应的是
model.py
中的演员Actor
类(ActorModel
),有一个policy
函数, - Q网络对应的是评论家类(
CriticModel
类),有一个value
函数
DQN里是硬更新,每次直接把 Q w Q_w Qw网络的所有参数全部给 Q w ˉ Q_{\bar{w}} Qwˉ, μ θ \mu_{\theta} μθ同理。
而DDPG采取的是一种更为平滑的方式,软更新,每次只更新一点点。如公式所示,用了一个 τ \tau τ,来控制每次 w w w或者 θ \theta θ更新的幅度。
也是为了让Q网络这个参数的更新更加稳定(属于工程/代码上的一种小trick吧)
3. 大作业
https://github.com/PaddlePaddle/RLSchool也是百度做的一个环境,目前暂时只有电梯环境和四轴飞行器这两个环境。
4. 创意赛
相关的代码实现:
在PaddleRL课程页面的讨论区:终极复现项目 提交区(讨论请移步灌水区~)
【参考环境】
- 1星环境:简单的弹跳和接球游戏:
https://github.com/shivaverma/Orbit - 2星环境:GYM环境 Box2D (需要安装 box2d-py):
https://gym.openai.com/envs/#box2d - PyGame游戏环境(含Flappy Bird):
https://github.com/ntasfi/PyGame-Learning-Environment - 3星环境:GYM环境 Robotics (需要安装 mujoco_py和试用许可证书):https://gym.openai.com/envs/#robotics
- 股票预测环境:
https://github.com/kh-kim/stock_market_reinforcement_learning - RLSchool四轴飞行器的 速度控制任务 “velocity_control”:https://github.com/PaddlePaddle/RLSchool/tree/master/rlschool/quadrotor
- 4星环境:RLBench任务环境(使用机械臂完成某一项任务):https://github.com/stepjam/RLBench
- 5星环境:交通信号灯控制:
https://github.com/Ujwal2910/Smart-Traffic-Signals-in-India-using-Deep-Reinforcement-Learning-and-Advanced-Computer-Vision
强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业相关推荐
- 从零实践强化学习之连续动作空间上求解RL(PARL)
回顾这五节课的内容,其实可以分成四大内容: 离散状态空间 连续状态空间 离散动作空间 连续状态空间 最后一节课的主要内容就是学习用强化学习来求解连续状态空间的问题 连续动作空间 连续动作和离散动作是一 ...
- 强化学习:如何处理大规模离散动作空间
https://www.toutiao.com/a6701973206141501964/ 在深度学习大潮之后,搜索推荐等领域模型该如何升级迭代呢?强化学习在游戏等领域大放异彩,那是否可将强化学习应用 ...
- 深化学习(RL)概念应用以及基于表格型、神经网络型、策略梯度、连续动作空间求解RL
深化学习(RL)概念应用以及基于表格型.神经网络型.策略梯度.连续动作空间求解RL 目录 一.概念以及应用 二.基于表格型求解RL--Sarsa和learning 表格型方法--Sarsa 1. Sa ...
- 强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)
强化学习-- 离散与连续动作空间(随机策略梯度与确定策略梯度) 1. 动作空间 1.1 离散动作空间 1.2 连续动作空间 2. 确定策略梯度做连续控制 2.1 确定策略梯度推导 2.2 确定策略梯度 ...
- 【强化学习实战】基于gym和tensorflow的强化学习算法实现
[新智元导读]知乎专栏强化学习大讲堂作者郭宪博士开讲<强化学习从入门到进阶>,我们为您节选了其中的第二节<基于gym和tensorflow的强化学习算法实现>,希望对您有所帮助 ...
- 【论文笔记】基于强化学习的机器人手臂仿人运动规划方法
文章目录 摘要 关键词 0 引言 学者研究 阶段一:采集运动数据,分析运动过程特征 阶段二:设计仿人变量.建立仿人标准和约束 阶段三:用智能算法提升仿人运动机器人性能 本文工作 1 问题描述及方法架构 ...
- Life——一个简洁易用的强化学习库,基于pytorch
简介 Life是一个基于pytorch实现的强化学习库,实现了多种强化学习算法. 项目地址:https://github.com/HanggeAi/Life 目前包含的强化学习算法 Sarsa mul ...
- 强化学习(四)用蒙特卡罗法(MC)求解
在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法.但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态.导致对 ...
- 【RL】3.基于表格方法求解RL
RL-Ch3-基于表格方法求解RL 本文不太完善,待寻到时间再细细修改. 前情回顾 MDP为(S,A,P,R,γ\gammaγ)五元组,在上一状态sts_tst采取动作ata_tat,会以一定的概 ...
最新文章
- python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题
- [register]-TCR(Translation Control Register)寄存器详解
- Python二十个小技巧
- 英特尔与博雅睿视共同发布SVT-AVS3实时编码器
- Java入门, 线程
- LightOj 1027 A Dangerous Maze
- linux内核实时调度,基于Linux内核的实时调度机制的研究和实现
- 加密解密(源自Discuz!NT3.1)
- 括号匹配深度,交错01字符串(一个类型代码)
- xp大容量u盘补丁_xp大硬盘补丁
- Flink计算pv和uv的通用方法
- 031_onetab
- 网易云音乐歌单可视化,有多少是你收藏过的呢
- 手机显示仅限紧急呼叫 无服务 以及无信号的解决教程
- 〖大学生·技术人必学的职业规划白宝书 - 职业规划篇①〗- 大学生选择职业前的自我认知与剖析
- PDF文件不能编辑,有什么办法能够解决?
- 基于点灯科技的温湿度传感器设计:STM32C8T6+DHT11+0.96寸oled显示屏+ESP8266
- 【大数据入门核心技术-Tez】(四)Tez与Hdfs整合
- 干货 :什么是数据科学?如何把数据变成产品?
- 一步步演示Avantage软件如何处理XPS谱图!
热门文章
- linkedin 分享_如何将您的LinkedIn个人资料添加到WordPress
- 电脑Mac地址更改后有什么害处?怎么改回原来的?
- 【Al TIME】博硕论坛064期 | 清华计算机系大佬齐论Al
- [踩坑解决]npm ERR! gyp info it worked if it ends with oknpm ERR! gyp verb cli [
- 详解C语言中的#define、#undef、#indef、#ifndef、#else、#endif,#if,#elif
- 游戏对战平台搭建要选什么服务器
- 图之深度优先生成森林
- 基于zookeeper3.4.6的源码研究(三)
- android开机卡logo,logcat怎么抓log
- iOS 边学边记 升级ios14 Xcode真机调试启动非常慢的问题解决