DQN

DDQN(Double DQN)

DQN中的q值总是被高估了

DQN中使用一个神经网络Q,计算每一个action的的Q值,选择Q值最大的action加上rt
DDQN中使用两个神经网络Q、Q’,使用Q计算action的Q值,选择Q值最大的action,使用Q’计算被选择action的Q’值。

Dueling DQN

相比于DQN只更改了网络的架构

DQN中的Q是直接输出一个Q值
Queling DQN是将输出分为价值函数和动作函数,价值函数输出一个实数,表示对当前局势的价值量,动作函数输出每个动作的价值。
这样的更改后,更新更有效率

加layer normalization

PER(Prionritized Reply)


如果有一些data非常好,td error比较大的,代表train的不太好,所以给他比较大的几率被采样到

资料

b站
博客

DQN、DDQN、Dueling DQN、PER DQN相关推荐

  1. 强化学习DQN(Deep Q-Learning)、DDQN(Double DQN)

    强化学习DQN(Deep Q-Learning).DDQN(Double DQN) _学习记录-有错误感谢指出 Deep Q-Learning 的主要目的在于最小化以下目标函数: J ( ω ) = ...

  2. 强化学习 补充笔记(TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络)

    学习目标: 深入了解马尔科夫决策过程(MDP),包含TD算法.Q学习算法.SARSA算法.多步TD目标.经验回放.高估问题.对决网络.噪声网络.基础部分见:强化学习 马尔科夫决策过程(价值迭代.策略迭 ...

  3. 强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战

    [强化学习原理+项目专栏]必看系列:单智能体.多智能体算法原理+项目实战.相关技巧(调参.画图等.趣味项目实现.学术应用项目实现 专栏详细介绍:[强化学习原理+项目专栏]必看系列:单智能体.多智能体算 ...

  4. MySQL 学习笔记(16)— 子查询(单行单列、一行多列、多行多列、 ALL、ANY、SOME 运算符、EXISTS 操作符)

    1. 子查询概念 子查询是指嵌套在其他语句(SELECT . INSERT . UPDATE . DELETE 等)中的 SELECT 语句:子查询也称为内查询( inner query )或者嵌套查 ...

  5. 设有一数据库,包括四个表:学生表(Student)、课程表(Course)、成绩表(Score)以及教师信息表(Teacher)。...

    一.            设有一数据库,包括四个表:学生表(Student).课程表(Course).成绩表(Score)以及教师信息表(Teacher).四个表的结构分别如表1-1的表(一)~表( ...

  6. 个人随笔、收藏——(包括技术、设计思想等)

    1.开源自动化工具 Sahi.Selenium.AutoIt Sahi,是一个用于Web应用程序的自动测试工具.Sahi运行为一个代理服务器,必须把浏览器的代理设置为Sahi服务器. 然后Sahi注入 ...

  7. Open3D 三维点云读取可视化、下采样、去除离群点、地面提取

    Open3D:3D数据处理的现代库,是一个开放源代码库,支持快速开发处理3D数据的软件.Open3D在C ++和Python中公开了一组精心选择的数据结构和算法.后端经过高度优化,并支持并行化. 推荐 ...

  8. python 点云las、laz文件的读取、写入、压缩

    1. python las读取与写入 用laspy库: https://pypi.org/project/laspy/ 获取las.laz的规格.点数据格式,点数据的具体字段名称,具体的点数据 解析l ...

  9. 【camera】自动驾驶感知系统实现(车道线检测和拟合、目标检测与跟踪、道路可行驶区域分割、深度估计、图像视野到BEV空间映射、像平面到地平面映射)

    自动驾驶感知系统实现(车道线检测和拟合.目标检测与跟踪.道路可行驶区域分割.深度估计.图像视野到BEV空间映射.像平面到地平面映射) 项目下载地址:项目下载地址 推理引擎下载地址:推理引擎下载地址 支 ...

  10. FPGA(4)晶振与计数器 -- 实现定时器(led定时闪烁、蜂鸣器频率控制(单响)、蜂鸣器报警(频带控制,多响))

    目录 一.FPGA的晶振与定时器 二.定时器(led闪烁.蜂鸣器频率控制) 1.时钟上升沿.复位下降沿触发 2.复位,计数器清零 3.计数满1s时,计数器清零 4-1.led闪烁(每秒) 4-2.蜂鸣 ...

最新文章

  1. c++11 字符串与int类型的转换
  2. Windows10 UWP开发 - 响应式设计
  3. JaveWeb中实现分页的总结
  4. java的网络编程有用吗_十大有用但又偏执的Java编程技术
  5. 大学计算机基础python第二次作业_第二次python作业-titanic数据练习
  6. Kubernetes(K8s) 1.14.3常用操作命令
  7. 计算机网络(第 8 版)第 1 章概述 谢希仁 编著
  8. android基于xposed框架,学习笔记:Android Xposed 框架入门
  9. Science观点:不同细菌物种间极少合作—合理利用细菌间普遍存在的竞争关系来替代抗生素...
  10. antv/G6和antv/X6
  11. 计算机高级技师证怎么考?
  12. matlab中eacf函数,基于MATLAB的切比雪夫I型模拟低通滤波器设计
  13. Twitter开发者账号【Twitter开发者文档系列3】——推特标准接口API的请求频率限制说明
  14. photoshop去掉图片白边的方法
  15. 淘宝天猫京东拼多多等平台关键词监控价格API接口(店铺商品价格监控API接口代码对接展示)
  16. 实例演示如何在公共互联网构建overlay实现SDWAN
  17. C Traps and Pitfalls笔记
  18. [C语言源代码][数据存储+指针] 谁还不会司空震?给我冲!
  19. 新美大和阿里本地生活的竞争趋势是如何的?
  20. 欧拉角与旋转矩阵转换 matlab 函数 angle2dcm dcm2angle 方向余弦矩阵 机器人坐标变换

热门文章

  1. 数据挖掘:数据(数据的基本统计描述)
  2. 仿速度装机联盟程序源码,装机联盟程序源码 安装联盟程序源码
  3. 西红柿炒鸡蛋怎么做(大厨教程 教你炒出饭店的味道)
  4. 殆知阁古代文献藏书2.0版txt文本质量如何
  5. OrmLite-更符合面向对象的数据库操作方式
  6. 八核版三星Galaxy S4(I9500)root教程
  7. Android onKeyDown监听返回键无效
  8. iftop命令命令详解
  9. 前端实现HTML导出为word文档
  10. GDB调试命令以及GDB调试段错误