DQN、DDQN、Dueling DQN、PER DQN
DQN
DDQN(Double DQN)
DQN中的q值总是被高估了
DQN中使用一个神经网络Q,计算每一个action的的Q值,选择Q值最大的action加上rt
DDQN中使用两个神经网络Q、Q’,使用Q计算action的Q值,选择Q值最大的action,使用Q’计算被选择action的Q’值。
Dueling DQN
相比于DQN只更改了网络的架构
DQN中的Q是直接输出一个Q值
Queling DQN是将输出分为价值函数和动作函数,价值函数输出一个实数,表示对当前局势的价值量,动作函数输出每个动作的价值。
这样的更改后,更新更有效率
加layer normalization
PER(Prionritized Reply)
如果有一些data非常好,td error比较大的,代表train的不太好,所以给他比较大的几率被采样到
资料
b站
博客
DQN、DDQN、Dueling DQN、PER DQN相关推荐
- 强化学习DQN(Deep Q-Learning)、DDQN(Double DQN)
强化学习DQN(Deep Q-Learning).DDQN(Double DQN) _学习记录-有错误感谢指出 Deep Q-Learning 的主要目的在于最小化以下目标函数: J ( ω ) = ...
- 强化学习 补充笔记(TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络)
学习目标: 深入了解马尔科夫决策过程(MDP),包含TD算法.Q学习算法.SARSA算法.多步TD目标.经验回放.高估问题.对决网络.噪声网络.基础部分见:强化学习 马尔科夫决策过程(价值迭代.策略迭 ...
- 强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战
[强化学习原理+项目专栏]必看系列:单智能体.多智能体算法原理+项目实战.相关技巧(调参.画图等.趣味项目实现.学术应用项目实现 专栏详细介绍:[强化学习原理+项目专栏]必看系列:单智能体.多智能体算 ...
- MySQL 学习笔记(16)— 子查询(单行单列、一行多列、多行多列、 ALL、ANY、SOME 运算符、EXISTS 操作符)
1. 子查询概念 子查询是指嵌套在其他语句(SELECT . INSERT . UPDATE . DELETE 等)中的 SELECT 语句:子查询也称为内查询( inner query )或者嵌套查 ...
- 设有一数据库,包括四个表:学生表(Student)、课程表(Course)、成绩表(Score)以及教师信息表(Teacher)。...
一. 设有一数据库,包括四个表:学生表(Student).课程表(Course).成绩表(Score)以及教师信息表(Teacher).四个表的结构分别如表1-1的表(一)~表( ...
- 个人随笔、收藏——(包括技术、设计思想等)
1.开源自动化工具 Sahi.Selenium.AutoIt Sahi,是一个用于Web应用程序的自动测试工具.Sahi运行为一个代理服务器,必须把浏览器的代理设置为Sahi服务器. 然后Sahi注入 ...
- Open3D 三维点云读取可视化、下采样、去除离群点、地面提取
Open3D:3D数据处理的现代库,是一个开放源代码库,支持快速开发处理3D数据的软件.Open3D在C ++和Python中公开了一组精心选择的数据结构和算法.后端经过高度优化,并支持并行化. 推荐 ...
- python 点云las、laz文件的读取、写入、压缩
1. python las读取与写入 用laspy库: https://pypi.org/project/laspy/ 获取las.laz的规格.点数据格式,点数据的具体字段名称,具体的点数据 解析l ...
- 【camera】自动驾驶感知系统实现(车道线检测和拟合、目标检测与跟踪、道路可行驶区域分割、深度估计、图像视野到BEV空间映射、像平面到地平面映射)
自动驾驶感知系统实现(车道线检测和拟合.目标检测与跟踪.道路可行驶区域分割.深度估计.图像视野到BEV空间映射.像平面到地平面映射) 项目下载地址:项目下载地址 推理引擎下载地址:推理引擎下载地址 支 ...
- FPGA(4)晶振与计数器 -- 实现定时器(led定时闪烁、蜂鸣器频率控制(单响)、蜂鸣器报警(频带控制,多响))
目录 一.FPGA的晶振与定时器 二.定时器(led闪烁.蜂鸣器频率控制) 1.时钟上升沿.复位下降沿触发 2.复位,计数器清零 3.计数满1s时,计数器清零 4-1.led闪烁(每秒) 4-2.蜂鸣 ...
最新文章
- c++11 字符串与int类型的转换
- Windows10 UWP开发 - 响应式设计
- JaveWeb中实现分页的总结
- java的网络编程有用吗_十大有用但又偏执的Java编程技术
- 大学计算机基础python第二次作业_第二次python作业-titanic数据练习
- Kubernetes(K8s) 1.14.3常用操作命令
- 计算机网络(第 8 版)第 1 章概述 谢希仁 编著
- android基于xposed框架,学习笔记:Android Xposed 框架入门
- Science观点:不同细菌物种间极少合作—合理利用细菌间普遍存在的竞争关系来替代抗生素...
- antv/G6和antv/X6
- 计算机高级技师证怎么考?
- matlab中eacf函数,基于MATLAB的切比雪夫I型模拟低通滤波器设计
- Twitter开发者账号【Twitter开发者文档系列3】——推特标准接口API的请求频率限制说明
- photoshop去掉图片白边的方法
- 淘宝天猫京东拼多多等平台关键词监控价格API接口(店铺商品价格监控API接口代码对接展示)
- 实例演示如何在公共互联网构建overlay实现SDWAN
- C Traps and Pitfalls笔记
- [C语言源代码][数据存储+指针] 谁还不会司空震?给我冲!
- 新美大和阿里本地生活的竞争趋势是如何的?
- 欧拉角与旋转矩阵转换 matlab 函数 angle2dcm dcm2angle 方向余弦矩阵 机器人坐标变换