全文共2543个字,2张图,预计阅读时间15分钟。

基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。如果我们省略中间的步骤,即直接根据当前的状态来选择动作。

在强化学习中,还有另一种很重要的算法,即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了,大家可以有选择的进行预习和复习:

深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b

本文介绍的Actor-Critic算法呢,就是结合了上面两种算法的基本思想而产生的,什么是Actor?什么是Critic?二者是如何结合的,通过这篇文章,我们来一探究竟。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程,大家可以在b站上找到相关的视频:https://www.bilibili.com/video/av16921335/#page=22

Actor-Critic算法原理

我们为什么要有Actor-Critic呢,下面的话摘自莫烦老师的文章:

我们有了像 Q-learning这么伟大的算法, 为什么还要瞎折腾出一个 Actor-Critic? 原来 Actor-Critic 的 Actor 的前生是 Policy Gradients, 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪. 那为什么不直接用 Policy Gradients 呢? 原来 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的 以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率.

上面的一段话不仅解释了为什么会有Actor-Critic这么一个算法,同时也告诉了我们,这个算法具体是怎么做的。如果大家已经心中有数并且想马上看代码的话,这一段是可以直接跳过的。既然Actor其实是一个Policy Network ,那么他就需要奖惩信息来进行调节不同状态下采取各种动作的概率,在传统的Policy Gradient算法中,这种奖惩信息是通过走完一个完整的episode来计算得到的。这不免导致了学习速率很慢,需要很长时间才可以学到东西。既然Critic是一个以值为基础的学习法,那么他可以进行单步更新,计算每一步的奖惩值。那么二者相结合,Actor来选择动作,Critic来告诉Actor它选择的动作是否合适。在这一过程中,Actor不断迭代,得到每一个状态下选择每一动作的合理概率,Critic也不断迭代,不断完善每个状态下选择每一个动作的奖惩值。

下图就简单的介绍了Actor-Critic算法的流程:

但Actor-Critic并不是一个完善的算法, 后面还会提到进一步的改进:

Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西。

代码解析

本文的github地址为:https://github.com/princewen/tensorflow_practice/tree/master/Basic-Actor-Critic

2.1 Actor

定义Actor输入
在这里,由于我们的Actor可以进行单次训练,所以我们的输入只需要是一个状态,一个动作和一个奖励:

self.s = tf.placeholder(tf.float32,[1,n_features],name='state')self.a = tf.placeholder(tf.int32,None,name='act')self.td_error = tf.placeholder(tf.float32,None,"td_error")

Actor的网络定义
Actor的神经网络结构和我们的Policy Gradient定义的是一样的,是一个双层的全链接神经网络:

with tf.variable_scope('Actor'):
l1 = tf.layers.dense(inputs = self.s,units = 20,activation = tf.nn.relu,kernel_initializer = tf.random_normal_initializer(mean=0,stddev=0.1),bias_initializer = tf.constant_initializer(0.1),name = 'l1')self.acts_prob = tf.layers.dense(inputs = l1,units = n_actions,activation = tf.nn.softmax,kernel_initializer = tf.random_normal_initializer(mean=0,stddev=0.1),bias_initializer = tf.constant_initializer(0.1),name = 'acts_prob')

损失函数
损失函数还是使用的Policy Gradient中提到过的loss= -log(prob)*vt,只不过这里的vt换成了由Critic计算出的时间差分误差td_error

with tf.variable_scope('exp_v'):
log_prob = tf.log(self.acts_prob[0,self.a])self.exp_v = tf.reduce_mean(log_prob * self.td_error)

with tf.variable_scope('train'):
self.train_op =  tf.train.AdamOptimizer(lr).minimize(-self.exp_v)

Actor训练
Actor的训练只需要将状态,动作以及时间差分值喂给网络就可以。

def learn(self,s,a,td):s = s[np.newaxis,:]
feed_dict = {self.s:s,self.a:a,self.td_error:td}
_,exp_v = self.sess.run([self.train_op,self.exp_v],feed_dict=feed_dict)return exp_v

选择动作

选择动作和Policy Gradient一样,根据计算出的softmax值来选择动作

def choose_action(self,s):s = s[np.newaxis,:]
probs = self.sess.run(self.acts_prob,feed_dict={self.s:s})return np.random.choice(np.arange(probs.shape[1]),p=probs.ravel())

2.2 critic

定义Critic输入

Critic要反馈给Actor一个时间差分值,来决定Actor选择动作的好坏,如果时间差分值大的话,说明当前Actor选择的这个动作的惊喜度较高,需要更多的出现来使得时间差分值减小。

考虑时间差分的计算:
TD = r + gamma * f(s') - f(s),这里f(s)代表将s状态输入到Critic神经网络中得到的Q值。
所以Critic的输入也分三个,首先是当前状态,当前的奖励,以及下一个时刻的奖励折现值。为什么没有动作A呢?动作A是确定的呀,是Actor选的呀,对不对!还有为什么不是下一时刻的Q值而不是下一个时刻的状态,因为我们已经在计算TD时已经把状态带入到神经网络中得到Q值了。相信你看代码就明白了。

self.s = tf.placeholder(tf.float32,[1,n_features],name='state')self.v_ = tf.placeholder(tf.float32,[1,1],name='v_next')self.r = tf.placeholder(tf.float32,None,name='r')

定义网络结构

同Actor一样,我们的Critic也是一个双层的神经网络结构。

with tf.variable_scope('Critic'):
l1 = tf.layers.dense(inputs = self.s,units = 20,activation = tf.nn.relu,kernel_initializer = tf.random_normal_initializer(0,0.1),bias_initializer = tf.constant_initializer(0.1),name = 'l1')self.v = tf.layers.dense(inputs = l1,units = 1,activation = None,kernel_initializer=tf.random_normal_initializer(0,0.1),bias_initializer = tf.constant_initializer(0.1),name = 'V')

定义损失
Critic的损失定义为时间差分值的平方值

with tf.variable_scope('squared_TD_error'):self.td_error  = self.r + gamma * self.v_ - self.vself.loss = tf.square(self.td_error)with tf.variable_scope('train'):self.train_op = tf.train.AdamOptimizer(lr).minimize(self.loss)

训练Critic
Critic的任务就是告诉Actor当前选择的动作好不好,所以我们只要训练得到TD并返回给Actor就好:

def learn(self,s,r,s_):s,s_ = s[np.newaxis,:],s_[np.newaxis,:]
v_ = self.sess.run(self.v,feed_dict = {self.s:s_})
td_error,_ = self.sess.run([self.td_error,self.train_op],feed_dict={self.s:s,self.v_:v_,self.r:r})return td_error

2.3.整体模型训练

有了Critic之后,Actor就可以进行单步训练和更新了,所以训练中的关键的代码如下:

while True:  a = actor.choose_action(s)s_,r,done,info = env.step(a)td_error = critic.learn(s,r,s_)actor.learn(s,a,td_error)s = s_

参考资料

1、https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-1-actor-critic/

原文链接:https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=2247483865&idx=1&sn=532a63e0e99bad8fa770cb9ca21f7269&chksm=e9d01118dea7980e48a0b8f84838ea819a970367c7150df106b912ba2526cd2a1c6d11ba6002&scene=21#wechat_redirect

查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org

请关注人工智能LeadAI公众号,查看更多专业文章

大家都在看

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

深度强化学习-Actor-Critic算法原理和实现相关推荐

  1. 深度强化学习-Double DQN算法原理与代码

    深度强化学习-Double DQN算法原理与代码 引言 1 DDQN算法简介 2 DDQN算法原理 3 DDQN算法伪代码 4 仿真验证 引言 Double Deep Q Network(DDQN)是 ...

  2. 深度强化学习Soft-Actor Critic算法高性能Pytorch代码(改写自spinningup,低环境依赖,低阅读障碍)

    写在前面 DRL各种算法在github上各处都是,例如莫凡的DRL代码.ElegantDRL(易读性NO.1) 很多代码不是原算法的最佳实现,在具体实现细节上也存在差异,不建议直接用在科研上. 这篇博 ...

  3. 【深度强化学习】DRL算法实现pytorch

    DRL Algorithms DQN (deep Q network) Policiy_Gradient 策略梯度是强化学习的一类方法,大致的原理是使用神经网络构造一个策略网络,输入是状态,输出为动作 ...

  4. 深度强化学习系列(6): DQN原理及实现

    利用神经网络近似值函数的方法表示为: V ^ ( s , w ) ≈ V π ( s ) q ^ ( s , a , w ) ≈ q π ( s , a ) \hat{V}(s, w) \approx ...

  5. 深度增强学习--Actor Critic

    Actor Critic value-based和policy-based的结合 实例代码 1 import sys 2 import gym 3 import pylab 4 import nump ...

  6. 【深度强化学习】DDPG算法

    1 DDPG简介 确定性策略梯度(Deterministic Policy Gradient,DPG):确定性策略是和随机策略相对而言的.作为随机策略,在同一个状态处,采用的动作是基于一个概率分布,即 ...

  7. 深度强化学习-D3QN算法原理与代码

    Dueling Double Deep Q Network(D3QN)算法结合了Double DQN和Dueling DQN算法的思想,进一步提升了算法的性能.如果对Doubel DQN和Duelin ...

  8. 赠票 | 深度强化学习的理论、算法与应用专题探索班

    文末有数据派赠票福利呦! 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提 ...

  9. 线下报名 | YOCSEF TDS:深度强化学习的理论、算法与应用

    时间:7月29日9:00-17:20 地点:北京中科院计算所,一层/四层报告厅(暂定) 报名方式:1.报名链接:http://conf2.ccf.org.cn/TDS  2.点击文末阅读原文报名  3 ...

  10. 深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

    本人学识浅薄,如有理解不到位的地方还请大佬们指出,相互学习,共同进步 概念引入 强化学习 DQN算法 边缘计算 边缘计算,是指在靠近物或数据源头的一侧,采用网络.计算.存储.应用核心能力为一体的开放平 ...

最新文章

  1. Windows 2008 r2域更名
  2. 超级网管员原有QQ群己满,现增加新群
  3. 四种方式下创建线程启动的区别
  4. 让业务感知不到服务器的存在——基于弹性计算的无服务器化实践
  5. 如果您遇到文件或数据库问题,如何重置Joomla
  6. 火焰和烟雾的训练图像数据集_游戏开发者是烟雾和镜子的大师
  7. oracle批量update
  8. ASP.NET Core 的启动和运行机制
  9. 大咖说:Java的2017年小惊喜和2018年大展望
  10. 思考的乐趣:Matrix67数学笔记
  11. C语言EasyX详解(小球碰撞)
  12. java 分页导入_Java 插入分页符和分节符到Word文档
  13. 扫地机器人的特点描写_对扫地机器人作文的评语
  14. 差分放大电路及动态分析
  15. 电脑重装:微PE工具箱重装win10系统
  16. iText如何设置行距
  17. C语言 分数加减法(输出最简形式)
  18. 1个字节占多少个16进制位
  19. 1 0.99999的悖论_宇宙年龄只有138亿年,宽度却有930亿光年,这是悖论吗?
  20. 微众银行4.20笔试前两题(均AC)

热门文章

  1. div旋转45度_为什么不要买旋转式电动牙刷:欧乐B电动牙刷D12开箱与体验
  2. vsftpd pam mysql_vsftpd+mysql+pam实现基于数据库的安全的ftp服务
  3. android studio sugar,Android | Sugar 的介绍和简单使用
  4. JAVA jlist 获取选定,java - 拆分并将选定的jList值移动到jTable行(SWING) - 堆栈内存溢出...
  5. 手动启动_电站首台机组首次手动开机启动一次性成功
  6. 中南大学c语言试题期末考试,2011年中南大学C语言期末试题卷A
  7. CAPS BHCA
  8. [bzoj3930] [CQOI2015]选数
  9. python学习06
  10. 【学习笔记】Xcode常见设置