Actor-Critic

Actor-Critic是RL的一种DDPG模型,其结合value-based和policy-based两类强化算法。

Actor基于概率选择行为。Critic基于actor的行为评判行为的得分。Actor根据Critic的评分修改选择行为的概率。

actor:输入state,经过神经网络actor输出action。Actor是一个神经网络,用于学习动作。(用神经网络实现,该网络的训练目标是最大化累计回报期望)

critic:actor基于策略policy,需要critic来计算对应actor的value来反馈actor,需要使用之前的Q值(该Q值可以用神经网络critic来近似,使用时序差分实现,可对当前策略的值函数进行估计,即评价Actor策略函数的好坏。)

Critic通过Q网络计算状态的最优价值vt, 而Actor利用vt这个最优价值迭代更新策略函数的参数θ,进而选择动作,并得到反馈和新的状态,Critic使用反馈和新的状态更新Q网络参数w, 在后面Critic会使用新的网络参数w来帮Actor计算状态的最优价值vt。

∇R‾θ≈1N∑n=1N∑t=1Tn(∑t′=tTnγt′−trt′n−b)∇logpθ(atn∣stn)∇\overline{R}_θ≈ \frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T_n}(\sum_{t′=t}^{T_n}γ^{t′−t}r_{t′}^{n}−b)∇log\ p_θ(a_t^n∣s_t^n)∇Rθ​≈N1​∑n=1N​∑t=1Tn​​(∑t′=tTn​​γt′−trt′n​−b)∇log pθ​(atn​∣stn​)

首先让agent与环境互动,计算出在某状态state时采用某个动作action的概率pθ(at∣st)p_{\theta}(a_t|s_t)pθ​(at​∣st​),之后计算某个状态state采用某个动作之后,直到游戏结束,累积奖励有多大,将奖励从时间t到时间T加起来,乘折扣因子减去b,使得括号里有正负数,正数:增加该状态时的动作机率,负数:减少该状态时的动作机率。

Actor-Critic相关推荐

  1. 深度增强学习--Actor Critic

    Actor Critic value-based和policy-based的结合 实例代码 1 import sys 2 import gym 3 import pylab 4 import nump ...

  2. 强化学习论文笔记:Soft Actor Critic算法

    Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...

  3. 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...

  4. CS294(285) Actor Critic算法系列

    CS294(285) Actor Critic算法系列 CS294(285) Actor Critic之agents(https://duanzhihua.blog.csdn.net/article/ ...

  5. actor critic玩cartpole

    只能玩到reward=200多,git actor critic采用单步更新,每一步游戏后Actor和Critic都进行学习. Actor网络使用交叉熵损失,是因为r_s为正时需要增加选择a_s的概率 ...

  6. 【强化学习】Actor Critic原理

    PG算法是一种只基于policy的一种方法,存在的问题就是该算法需要完整的状态序列,且单独对策略函数进行迭代更新,不太容易收敛. Actor-critic方法呢是一种将 策略(Policy Based ...

  7. An Actor–Critic based controller for glucose regulation in type 1 diabetes

    a b s t r a c t \qquad 控制器基于Actor-Critic(AC)算法,受强化学习和最优控制理论(optimal control theory)的启发.控制器的主要特性是: 同时 ...

  8. 人工智能-强化学习-算法:Critic 【用于评价一个 Actor/Policy π】--> Q-Learning【用于训练出来一个最优 Actor/Policy π,擅长处理离散型 actions】

    一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...

  9. 强化学习(九)- 策略梯度方法 - 梯度上升,黑箱优化,REINFORCE算法及CartPole实例

    策略梯度方法 引言 9.1 策略近似和其优势 9.2 策略梯度定理 9.2.1 梯度上升和黑箱优化 9.2.2 策略梯度定理的证明 9.3 REINFORCE:蒙特卡洛策略梯度 9.3.1 轨迹上的R ...

  10. 强化学习70年演进:从精确动态规划到基于模型

    作者 | Nathan Lambert 译者 | 泓礼 编辑 | 夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]这是一份帮你了解强化学习算法本质的资源,无需浏览大量文档,没有一 ...

最新文章

  1. java 加密算法 base64
  2. IP头结构&其他解析
  3. param.requires_grad = False的作用
  4. python编程第四版_清华编程教授强力推荐《Python编程》,指导你如何学习python
  5. 商业模式新生代_业务分析基础 - 商业模式新生代01篇
  6. 批量生成10个虚拟主机配置
  7. 商用VR新时代已来临?IDC《VR产业研究白皮书》给出答案
  8. 深入理解kafka_深入理解Kafka随书代码示例已整理完毕,附地址~
  9. Visual Studio 要求导入 pfx 密钥以及导入后依然要求导入的解决办法
  10. less,sass,stylus配置和应用教程及三者比较
  11. 基于cocos creator 3.4 实现虚拟摇杆
  12. 什么是VB.NET?
  13. Talk with GoF
  14. python中turtle画笑脸_怎么用python实现画笑脸
  15. 简单爬取猫眼实时票房数据
  16. QListWidgt QListView QTableWidget QTableView 去掉虚线框
  17. centos7安装部署gitlab
  18. win10上网显示dns服务器未响应,win10无法上网DNS服务器未响应的解决方法
  19. Linux安装redis yum安装redis
  20. RuntimeError: applying transform <monai.transforms.croppad.dictionary.RandCropByPosNegLabeld object

热门文章

  1. Unity3D入门:摄像机与光照
  2. 软件测试(黑盒白盒)
  3. 阿里百川sdk用法 php,阿里百川电商SDK安全图片的使用和踩坑
  4. ATP的高考前最后20天
  5. 《DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY》强化学习论文笔记
  6. 操作MYSQL日期格式年 或 月 或 日
  7. BurpSuite v2.1(含中文版)的保姆级安装与使用
  8. 一次排队就餐带来的思考
  9. [前端】页面显示不出来文字,但是检查元素没问题
  10. oneapm服务器性能调优,中塑在线 · OneAPM 优化应用性能管理,提升用户体验 - OneAPM 电商类客户案例...