全文共2543个字,2张图,预计阅读时间15分钟。

基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。如果我们省略中间的步骤,即直接根据当前的状态来选择动作,也就引出了强化学习中的另一种很重要的算法,即策略梯度(Policy Gradient)。这篇文章,我们就来介绍这种算法的最基础的版本以及其简单的实现。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程,大家可以在b站上找到相关的视频:https://www.bilibili.com/video/av16921335/#page=22

什么是policy gradients

其实在引言部分我们已经介绍了策略梯度的基本思想,就是直接根据状态输出动作或者动作的概率。那么怎么输出呢,最简单的就是使用神经网络啦!

我们使用神经网络输入当前的状态,网络就可以输出我们在这个状态下采取每个动作的概率,那么网络应该如何训练来实现最终的收敛呢?

我们之前在训练神经网络时,使用最多的方法就是反向传播算法,我们需要一个误差函数,通过梯度下降来使我们的损失最小。但对于强化学习来说,我们不知道动作的正确与否,只能通过奖励值来判断这个动作的相对好坏。基于上面的想法,我们有个非常简单的想法:

如果一个动作得到的reward多,那么我们就使其出现的概率增加,如果一个动作得到的reward少,我们就使其出现的概率减小。

根据这个思想,我们构造如下的损失函数:loss= -log(prob)*vt

我们简单用白话介绍一下上面这个损失函数的合理性,那么至于从数学角度上为什么要使用上面的损失函数,可以参考:Why we consider log likelihood instead of Likelihood in Gaussian Distribution。

上式中log(prob)表示在状态 s 对所选动作 a 的吃惊度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是当前状态s下采取动作a所能得到的奖励,这是当前的奖励和未来奖励的贴现值的求和。也就是说,我们的策略梯度算法必须要完成一个完整的eposide才可以进行参数更新,而不是像值方法那样,每一个(s,a,r,s')都可以进行参数更新。如果在prob很小的情况下, 得到了一个大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改)。

这就是 -log(prob)*vt的物理意义啦.Policy Gradient的核心思想是更新参数时有两个考虑:如果这个回合选择某一动作,下一回合选择该动作的概率大一些,然后再看奖惩值,如果奖惩是正的,那么会放大这个动作的概率,如果奖惩是负的,就会减小该动作的概率。

策略梯度的过程如下图所示:

我们在介绍代码实战之前,最后在强调Policy Gradient的一些细节:

  1. 算法输出的是动作的概率,而不是Q值。

  2. 损失函数的形式为:loss= -log(prob)*vt

  3. 需要一次完整的episode才可以进行参数的更新

policy gradients 算法实现

我们通过Policy Gradient算法来实现让钟摆倒立的过程。

本文的代码地址在:https://github.com/princewen/tensorflow_practice/tree/master/Basic-Policy-Network

本文的代码思路完全按照policy gradient的过程展开。

定义参数
首先,我们定义了一些模型的参数:

self.ep_obs,self.ep_as,self.ep_rs分别存储了当前episode的状态,动作和奖励。

self.n_actions = n_actions
self.n_features = n_features
self.lr = learning_rate
self.gamma = reward_decayself.ep_obs,self.ep_as,self.ep_rs = [],[],[]

定义模型输入
模型的输入包括三部分,分别是观察值,动作和奖励值。

with tf.name_scope('inputs'):
self.tf_obs = tf.placeholder(tf.float32,[None,self.n_features],name='observation')self.tf_acts = tf.placeholder(tf.int32,[None,],name='actions_num')self.tf_vt = tf.placeholder(tf.float32,[None,],name='actions_value')

构建模型
我们的模型定义了两层的神经网络,网络的输入是每次的观测值,而输出是该状态下采取每个动作的概率,这些概率在最后会经过一个softmax处理

layer = tf.layers.dense(
inputs = self.tf_obs,
units = 10,
activation= tf.nn.tanh,
kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.3),
bias_initializer= tf.constant_initializer(0.1),
name='fc1')all_act = tf.layers.dense(
inputs = layer,
units = self.n_actions,
activation = None,
kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.3),
bias_initializer = tf.constant_initializer(0.1),
name='fc2')self.all_act_prob = tf.nn.softmax(all_act,name='act_prob')

模型的损失
我们之前介绍过了,模型的损失函数计算公式为:loss= -log(prob)*vt,我们可以直接使用tf.nn.sparse_softmax_cross_entropy_with_logits 来计算前面一部分,即-log(prob),不过为了更清楚的显示我们的计算过程,我们使用了如下的方式:

with tf.name_scope('loss'):#neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=self.all_act_prob,labels =self.tf_acts)neg_log_prob = tf.reduce_sum(-tf.log(self.all_act_prob) * tf.one_hot(indices=self.tf_acts,depth=self.n_actions),axis=1)
loss = tf.reduce_mean(neg_log_prob * self.tf_vt)

而我们选择AdamOptimizer优化器进行参数的更新:

with tf.name_scope('train'):
self.train_op = tf.train.AdamOptimizer(self.lr).minimize(loss)

动作选择
我们这里动作的选择不再根据贪心的策略来选择了,而是根据输出动作概率的softmax值:

def choose_action(self,observation):prob_weights = self.sess.run(self.all_act_prob,feed_dict={self.tf_obs:observation[np.newaxis,:]})
action = np.random.choice(range(prob_weights.shape[1]),p=prob_weights.ravel())return action

存储经验
之前说过,policy gradient是在一个完整的episode结束后才开始训练的,因此,在一个episode结束前,我们要存储这个episode所有的经验,即状态,动作和奖励。

def store_transition(self,s,a,r):self.ep_obs.append(s)
self.ep_as.append(a)
self.ep_rs.append(r)

计算奖励的贴现值
我们之前存储的奖励是当前状态s采取动作a获得的即时奖励,而当前状态s采取动作a所获得的真实奖励应该是即时奖励加上未来直到episode结束的奖励贴现和。

def _discount_and_norm_rewards(self):discounted_ep_rs = np.zeros_like(self.ep_rs)
running_add = 0# reserved 返回的是列表的反序,这样就得到了贴现求和值。for t in reversed(range(0,len(self.ep_rs))):running_add = running_add * self.gamma + self.ep_rs[t]discounted_ep_rs[t] = running_adddiscounted_ep_rs -= np.mean(discounted_ep_rs)
discounted_ep_rs /= np.std(discounted_ep_rs)return discounted_ep_rs

模型训练
在定义好上面所有的部件之后,我们就可以编写模型训练函数了,这里需要注意的是,我们喂给模型的并不是我们存储的奖励值,而是在经过上一步计算的奖励贴现和。另外,我们需要在每一次训练之后清空我们的经验池。

def learn(self):discounted_ep_rs_norm = self._discount_and_norm_rewards()self.sess.run(self.train_op,feed_dict={    self.tf_obs:np.vstack(self.ep_obs),   self.tf_acts:np.array(self.ep_as),    self.tf_vt:discounted_ep_rs_norm,
})self.ep_obs,self.ep_as,self.ep_rs = [],[],[]return discounted_ep_rs_norm

好了,模型相关的代码我们就介绍完了,如何调用这个模型的代码相信大家一看便明白,我们就不再介绍啦。

有关强化学习中policy gradient的更多的改进我也会进一步学习和总结,希望大家持续关注!

参考资料

1 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-4-gym/

2 https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf

3 https://zhuanlan.zhihu.com/p/21725498

原文链接:https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=2247483860&idx=1&sn=77cfb5401c70b830e01c0c60d0a70c91&chksm=e9d01115dea79803b130588ebfb06a7fc6e43b07d2e67150b3be0d9b89559f12df3aba79b1d5&scene=21#wechat_redirect

查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org

请关注人工智能LeadAI公众号,查看更多专业文章

大家都在看

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

深度强化学习-Policy Gradient基本实现相关推荐

  1. 强化学习: Policy Gradient

    目录 前言 参考资料 一.算法原理 1. 回合(episode)与轨迹(trajectory) 2. 奖励(reward)与损失函数 3. 策略梯度(Policy Gradient) 二.Tips 1 ...

  2. 深度强化学习-DDPG算法原理和实现

    全文共3077个字,8张图,预计阅读时间15分钟. 基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作.如果我们省略中间的步骤,即直接根据当前的状态来选 ...

  3. 深度强化学习-Actor-Critic算法原理和实现

    全文共2543个字,2张图,预计阅读时间15分钟. 基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作.如果我们省略中间的步骤,即直接根据当前的状态来选 ...

  4. 【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  5. 李宏毅深度强化学习(国语)课程(2018) 笔记(一)Policy Gradient (Review)

    李宏毅深度强化学习(国语)课程(2018) https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.al ...

  6. 深度强化学习(三):Policy Gradients

    ###一.Policy-based RL概述 ####1.Policy-based RL起源 在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...

  7. 【深度强化学习】策略梯度 Policy Gradients

    文章目录 前言 values 和 policy 策略的表示 策略梯度 REINFORCE method 实例:CartPole 前言 重读<Deep Reinforcemnet Learning ...

  8. 李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)

    李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...

  9. 必看,61篇NeurIPS深度强化学习论文解读都这里了

    作者 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) NeurIPS可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大 ...

最新文章

  1. 热更新--动态加载framework
  2. yii框架相关知识(转)
  3. Linux命令: grep命令
  4. SAP Spartacus里Product Carousel componentData取数据的逻辑研究
  5. 【Web后端笔记】SQL Server与java数据类型对应
  6. @ResponseBody//该注解会将返回值转为json格式并放到响应体中返回到前台
  7. [js] 请使用js实现商品的自由组合,并说说你的思路
  8. 前端现在到底需要什么样的人才
  9. 信息学奥赛C++语言:求三位数的值
  10. 计算机视觉实习面经【微软/阿里/腾讯】
  11. PBRT中的误差舍入管理(浮点运算)
  12. c++ 一个函数包括多个返回值判断_go语言学习笔记(10)-函数、包的使用
  13. mysql的配置文件名称是_【MySQL学生手册】MySQL的配置文件
  14. 解决Svn图标不显示或者显示异常(亲测有效)
  15. 直播换脸后,我们来搞搞微信QQ聊天换脸!| avatarify
  16. 人工智能——归结演绎推理
  17. Self-Supervised Deep Blind Video Super-Resolution
  18. 安全测试涉及的测试对象有哪些?
  19. python模糊神经网络预测_一种基于模糊神经网络的化学分子生物毒性预测模型算法的制作方法...
  20. Docker安装Weblogic

热门文章

  1. sql批量插入数据mysql_MYSQL批量插入数据库实现语句性能分析
  2. puml绘制思维导图_强推:9款超好用思维导图APP
  3. python提示jsondecodeerror是什么意思_python中报错json.decoder.JSONDecodeError: Expecting value:的解决...
  4. python误删文件怎么恢复_记录一次脚本误删文件后恢复
  5. matlab lyap,Matlab的Lyapunov、Sylvester和Riccati方程的Matlab求解
  6. micropython flask_在Python的Flask框架中实现单元测试的教程
  7. 广州专科计算机学校录取分数线,广州大专多少分能录取?高考分数170分能上广州大专?...
  8. MariaDB之SQL语句基础
  9. windows ffmpeg 推送摄像头数据到rtmp服务
  10. JIRA官方:JIRA源代码集成