Policy Gradient Theorem Explained

Policy Gradient Thorem Explained
视频很容易懂,但看得我很有睡意可能英语不够好吧,所以总结一下做个笔记-.-!

Intro

首先定义了这样一种游戏规则

这个游戏有这样几种可能性

数学推导


Expected Result: 指得是一路上概率(pro)*奖励(reward)的和
比如上图右下 R = 0.3 x 10

所以全部的Expected Result为:

然后做偏导,做backpropogation
以action=1 概率为0.7为例,我们替换所有的0.7为X

则偏导为:

当这些那么把所有的 概率值 改为要学习和调节的 变量

则整个网络的公式应该为:

对每个变量做偏导,用来更新 weights 和 bias

如果多次采样:

不太懂为啥要变log(我好菜…)

代码实现


具体网络搭建参考这个https://github.com/gabrielgarza/openai-gym-policy-gradient/blob/b187780b12c28bb5a127e97a6fcb37ac15c4076c/run_mountaincar.py 代码

Policy Gradient Theorem Explained-视频总结笔记(待续。。)相关推荐

  1. Policy gradient Method of Deep Reinforcement learning (Part One)

    目录 Abstract Part one: Basic knowledge Policy Environment Dynamics Policy Policy Approximation Policy ...

  2. 强化学习系列(十三):Policy Gradient Methods

    这是PG的基础篇,在深度强化学习系列中,有结合例子和监督学习的深刻理解PG的进阶篇. 一.前言 之前我们讨论的所有问题都是先学习action value,再根据所得的action value 来选择a ...

  3. 【强化学习】Policy Gradient算法详解

    DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...

  4. 【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  5. pytorch笔记:policy gradient

    本文参考了 策略梯度PG( Policy Gradient) 的pytorch代码实现示例 cart-pole游戏_李莹斌XJTU的博客-CSDN博客_策略梯度pytorch 在其基础上添加了注释和自 ...

  6. 李宏毅深度强化学习(国语)课程(2018) 笔记(一)Policy Gradient (Review)

    李宏毅深度强化学习(国语)课程(2018) https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.al ...

  7. 强化学习笔记(六):Policy Gradient/策略梯度

    目录 考题 知识点1:critic.actor​ 定理1:策略梯度理论 定理2:函数近似理论 知识点3:蒙特卡洛策略梯度 知识点4:Actor-critic算法 知识点:Advantage Funct ...

  8. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient读书笔记

    本篇博客仅为方便个人日后翻阅,对公式的解读代表了个人观点,希望能给大家带来一些启发. Sequence Generative Adversarial Nets 序列生成问题的描述:给定真实世界的结构化 ...

  9. 影像组学视频学习笔记(37)-机器学习模型判断脑卒中发病时间(文献报告)、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/3e7a2c84288e 来源:简书,已获授权转载 RadiomicsWorld.com "影像组学世界" ...

最新文章

  1. jmeter插件 --PerfMon Metrics Collector监控工具的使用
  2. 【Netty】Netty 核心组件 ( Future | Channel | Selector | ChannelHandler )
  3. Algorithm之RS:RS常用的一些库
  4. 修改VS2010生成的dll文件中的内容
  5. 学会Python正则表达式,就看这20个例子~
  6. 最全python爬虫库安装详解
  7. java parallel.for作用_“Parallel.For”for Java?
  8. DirectX 9 学习笔记
  9. 加密视频如何破解 如何解除机器码绑定的视频
  10. 电脑连接宽带,给手机开热点
  11. 鲁豫有约--之分享李连杰的私密生活
  12. 用python绘制熊猫图案,在python中绘制熊猫系列的CDF
  13. 世界十大最美历史遗迹
  14. 我市12个海滨浴场提升改造沙滩今夏不硌脚
  15. 可以一键生成crud的php框架,关于Laravel+vue+admin一键生成CRUD代码
  16. 包含各种版本谷歌相机的网址及下载地址
  17. 数仓日记 - 数据采集平台
  18. Python真牛逼,获取压缩文件密码,我只要一分钟!
  19. bootice添加linux_bootice命令行怎么写入MBR?
  20. CVPR 2016 全部文章摘要阅读

热门文章

  1. javabean+servlet+JSP页面做购物网站 (附效果图+源码)
  2. matlab 阵列天线增益方向图,阵列天线方向图及其MATLAB仿真
  3. java里面operate方法的用法,operate的用法及例句
  4. Firebug使用技巧
  5. 新网域名解析指向自己的dns服务器,DNS修改和域名解析的一些小知识
  6. [ZJOI 2016] bzoj 4455 小星星 - 容斥
  7. Ansys Fluent-Meshing: “ No license is avaiable at this time “
  8. 总结的面试中常见65种应聘技巧回答
  9. 【毕业设计】深度学习车牌识别系统 - yolo python
  10. 计算机二级办公室软件应用,浙江省计算机二级办公室高级软件应用的真题