(之前的笔记,发一下ovo)

Deep Deterministic Policy Gradient:DDPG就是用了确定性策略在DPG基础上结合DQN的特点建议改进出来的算法

大体上理解:

深度强化学习-DDPG算法原理和实现 - 简书

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解_shura的技术空间-CSDN博客_ddpg

DQN可以应对高维输入,而对高维的动作输出则束手无策。随后,同样是DeepMind提出的DDPG,则可以解决有着高维或者说连续动作空间的情境。它包含一个策略网络用来生成动作,一个价值网络用来评判动作的好坏,并吸取DQN的成功经验,同样使用了样本池和固定目标网络,是一种结合了深度网络的Actor-Critic方法。

原文如下:

1.DDPG本质上是一个AC方法(Actor-Critic):

Actor(μ)和Critic(Q)都有target-net和eval-net。我们需要强调一点的事,我们只需要训练动作估计网络和状态估计网络的参数,而动作现实网络和状态现实网络的参数是由前面两个网络每隔一定的时间复制过去的。

2.PG(Policy Gradient): by  深度强化学习-Policy Gradient基本实现 - 简书

  1. 算法输出的是动作的概率,而不是Q值。
  2. 损失函数的形式为:loss= -log(prob)*vt 
  3. 需要一次完整的episode才可以进行参数的更新

(log(prob)表示在状态 s 对所选动作 a 的吃惊度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是当前状态s下采取动作a所能得到的奖励,这是当前的奖励和未来奖励的贴现值的求和。也就是说,我们的策略梯度算法必须要完成一个完整的eposide才可以进行参数更新,而不是像值方法那样,每一个(s,a,r,s')都可以进行参数更新。如果在prob很小的情况下, 得到了一个大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改)。

3.DQN:by- 实战深度强化学习DQN-理论和实践 - 简书

DDPG笔记(归纳总结)相关推荐

  1. kafka 脚本发送_Kafka笔记归纳(第五部分:一致性保证,消息重复消费场景及解决方式)...

    写在开头: 本章是Kafka学习归纳第五部分,着重于强调Kafka的事一致性保证,消息重复消费场景及解决方式,记录偏移量的主题,延时队列的知识点. 文章内容输出来源:拉勾教育大数据高薪训练营. 一致性 ...

  2. 2020年PMP笔记归纳第三章项目经理的角色

    第三章 项目经理的角色 掌握第三章项目经理的角色知识 学习内容: 内容章节 3.1 概述 3.2 项目经理的定义 3.3 项目经理的影响力范围 3.4 项目经理的能力 3.5 执行整合 3.1 概述 ...

  3. 2020年PMP笔记归纳第七章项目成本管理

    学习目标: 掌握项目成本管理 学习内容: 章节内容 7.1 规划成本管理 7.2 估算成本 7.3 制定预算 7.4 控制成本 第七章PMBOK概述中的重点内容 项目成本管理包括为使项目在批准的预算内 ...

  4. 考研复试——软件工程笔记归纳+思维导图

    考研复试的软件工程重点归纳 原文记录在我的幕布https://mubu.com/doc/3C3pXXIGg0上 里面查看观感更好 思维导图在最后,较为庞大.同样推荐到链接里面查看.点击查看思维导图即可 ...

  5. 2020年PMP笔记归纳第五章项目管理范围

    第五章 项目范围管理 掌握第五章知识点 学习内容: 内容章节 5.1 规划范围管理 5.2 收集需求 5.3 定义范围 5.4 创建WBS 5.5 确认范围 5.6 控制范围 第五章PMBOK概述中的 ...

  6. redux学习笔记归纳

    设计思想: (1)Web 应用是一个状态机,视图与状态是一一对应的. (2)所有的状态,保存在一个对象里面. 核心源码: 基本概念:  1.Store:就是保存数据的地方,你可以把它看成一个容器.整个 ...

  7. Android学习笔记——归纳整理

    目录 一:Android系统架构 二:Actvity相关 2.1基础相关 2.2 Intent相关 2.2.1 Intent的组成 2.2.2 显式Intent 2.2.3 隐式Intent 2.2. ...

  8. 古典概率,排列组合和贝叶斯定理(学习笔记)

    第一次用CSDN写博客,其实主要目的是用来自己做统计学笔记归纳. 我现在是在外国就读统计与数据分析本科.其实本人以前在国内是个数学白痴,只是出国了突然就成了数学好..而且也是听朋友说读统计数据分析以后 ...

  9. Power BI商业智能与业务分析的结合,让你在企业中脱颖而出

    传统上,企业将数据战略集中在power BI商业智能(BI)上,但预测和规范分析平台的兴起,部分归功于机器学习和人工智能,正在改变这个方程式.即使是商业智能本身也在不断发展,这也是以前业务分析平台独有 ...

最新文章

  1. Gonet2 游戏server框架解析之gRPC提高(5)
  2. [导入]用Ext做的登陆窗口的例子
  3. 剑指OFFER之从二叉搜索树的后序遍历序列(九度OJ1367)
  4. Access库的小问题
  5. EndNote批量实现文献标题首字母大写 附最新版endnote下载
  6. 题目 1885: [蓝桥杯][2017年第八届真题]分巧克力+二分
  7. python3 多线程_Python3多线程爬虫实例讲解
  8. 没有bug队——加贝——Python 练习实例 15,16
  9. 腾讯大动刀:微信试行松绑外链!用户已可打开淘宝、抖音等链接
  10. 【报告分享】2021年中国“夜猫”人群洞察报告:月亮不睡我不睡,我是秃头小宝贝.pdf(附下载链接)...
  11. 算法导论-15.5-4
  12. 阶段3 2.Spring_03.Spring的 IOC 和 DI_3 spring基于XML的IOC环境搭建和入门
  13. 教职工信息管理系统(C++)
  14. 关闭迅雷更新到新版本的提示
  15. 新闻分类:多分类问题
  16. 高斯列主消元法 求非齐次线性方程组 C语言实现代码
  17. erp实施 数据库面试题_erp实施顾问笔试题有什么_erp实施顾问
  18. phrases practice_新视野大学英语第三版第二册Book 2 Unit 4 College sweethearts教案
  19. 南京掌上公交一款好用的手机app
  20. sklearn之make_blobs:产生数据集

热门文章

  1. Steam VR设备连接问题,求解答!
  2. 面试时怎么和HR谈薪资
  3. vue 高德地图多边形_高德地图只显示部分地区遮罩其他地区(vue)
  4. 【鼠笼式三相交流异步电动机矢量控制变频调速系统的MATLAB建模与仿真】
  5. matlab自定义函数与调用
  6. 简单实现一个快速传输电子书到kindle的小项目
  7. Xcode 截取手机屏幕并保存在mac上
  8. Nuclei——一款基于YAML语法模板的快速漏洞扫描工具
  9. python:pickle作用
  10. 可视化分享ppt2019-01