## 强化学习 Actor-critic
# 和PG比起来主要的变化:
# 评估点由状态价值变成了TD_error,网络形式变了
# learn函数长得不一样
# action有一个优化函数,优化的是价值函数,希望最大化期望的reward,Critic网络也有一个reward,希望最小化现实和估计的误差(即td——error)
# Actor使用我们上一节讲到的策略函数,负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作import gym
# import tensorflow as tf
import tensorflow.compat.v1 as tf
tf.compat.v1.disable_eager_execution()
import numpy as np
import random
from collections import deque# Hyper Parameters
GAMMA = 0.95  # discount factor  衰减因子
LEARNING_RATE = 0.01  # 探索率class Actor():def __init__(self, env, sess):  # 初始化# init some parametersself.time_step = 0  # 某个地方需要用的步数self.state_dim = env.observation_space.shape[0]  # 状态维度self.action_dim = env.action_space.n  # 动作维度self.create_softmax_network()  # 创建softmax网络# Init session      初始化tensorflow参数self.session = tf.InteractiveSession()self.session.run(tf.global_variables_initializer())  # 初始化 tensorflow 参数。def create_softmax_network(self):  # 创建softmax网络# network weightsW1 = self.weight_variable([self.state_dim, 20])  # w1 权重,4*20的网络b1 = self.bias_variable([20])  # b1权重,y = w1*x + b1W2 = self.weight_variable([20, self.action_dim])b2 = self.bias_variable([self.action_dim])# input layerself.state_input = tf.placeholder("float", [None, self.state_dim])  # 状态输入层占位,多少组不知道,每组有4个状态self.tf_acts = tf.placeholder(tf.int32, [None, 2], name="actions_num")  # 给他的值对应于依据概率选择出来的动作self.td_error = tf.placeholder(tf.float32, None, "td_error")  # TD_error  PG中基于状态价值,这里评估点发生了一点变化# hidden layersh_layer = tf.nn.relu(tf.matmul(self.state_input, W1) + b1)  # 进行 y = w1*x + b1 的运算 ,并激活成可输出的状态# softmax layer# matmul返回两个数组的矩阵乘积,结果还是一个矩阵self.softmax_input = tf.matmul(h_layer, W2) + b2  # #进行 y = w2*x + b2 的运算,输出是两个是数(不确定)TODO# softmax outputself.all_act_prob = tf.nn.softmax(self.softmax_input, name='act_prob')  # softmax输出层,输出每个动作的概率# 计算logits 和 labels 之间的softmax 交叉熵# 函数先对 logits 进行 softmax 处理得到归一化的概率,将lables向量进行one-hot处理,然后求logits和labels的交叉熵:self.neg_log_prob = tf.nn.softmax_cross_entropy_with_logits(logits=self.softmax_input,labels=self.tf_acts)# TODO softmax_cross_entropy_with_logits 和 sparse_softmax_cross_entropy_with_logits 的区别是啥# 这句是在算损失函数了,定义为softmax交叉熵损失函数和TD_error的乘积self.exp = tf.reduce_mean(self.neg_log_prob * self.td_error)  # 策略梯度函数# 创建优化器 这里需要最大化当前策略的价值,因此需要最大化self.exp,即最小化-self.exp# 由于tensorflow要minimize误差 但是我们希望这个概率变大所以要加个负号# 利用tensorflow中的Adam优化算法最小化loss函数# Adam优化算法:是一个寻找全局最优点的优化算法,引入了二次方梯度校正。self.train_op = tf.train.AdamOptimizer(LEARNING_RATE).minimize(-self.exp)def weight_variable(self, shape):initial = tf.truncated_normal(shape)return tf.Variable(initial)def bias_variable(self, shape):initial = tf.constant(0.01, shape=shape)return tf.Variable(initial)def choose_action(self, observation):  # 依据概率选择动作"""选择动作 :这里的observation其实就是状态,当前的状态先传入state_input(也就相当于softmax网络的入口),softmax网络的输出是针对当前状态每个动作的概率,第一句就是运行了一个会话进行这个过程。#TODO prob_weights 应该是一个动作对应概率的矩阵,怎么查看数据类型来着忘了下一句就是依据概率选择动作了,选择概率最大的动作"""# np.newaxis功能:增加一个维度,具体见印象笔记prob_weights = self.session.run(self.all_act_prob, feed_dict={self.state_input: observation[np.newaxis, :]})# 这个range表示这个action的大小,后面的p表示概率分布, .ravel的意思是将数组维度拉成一维数组,也就是将矩阵向量化,见印象笔记action = np.random.choice(range(prob_weights.shape[1]), p=prob_weights.ravel())return actiondef learn(self, state, action, td_error):"""s,a 用于产生梯度上升法的方向,这时候的action是上面这个函数依据概率选择出来的动作td 来自Critic,用于告诉Actor这个方向对不对"""s = state[np.newaxis, :]  # 把state变成(4,1)的形状one_hot_action = np.zeros(self.action_dim)  # 初始化one_hot 形式的actionone_hot_action[action] = 1  # action是数字几就把第几个位置上的数变成1a = one_hot_action[np.newaxis, :]  # 然后再把它变成横向向量的形式# train on episodeself.session.run(self.train_op, feed_dict={self.state_input: s,self.tf_acts: a,     # 把动作传给了tf_actsself.td_error: td_error,})# critic网络中会用到的一些超级参数
EPSILON = 0.01  # final value of epsilon   epsilon 的最小值,当 epsilon 小于该值时,将不再随机选择行为。
REPLAY_SIZE = 10000  # experience replay buffer size  经验回放缓冲区大小
BATCH_SIZE = 32  # size of minibatch
REPLACE_TARGET_FREQ = 10  # frequency to update target Q networkclass Critic():def __init__(self, env, sess):# init some parametersself.time_step = 0self.epsilon = EPISODEself.state_dim = env.observation_space.shape[0]  # 状态维度self.action_dim = env.action_space.n  # 动作维度   TODO  .n是什么意思?self.create_Q_network()  # 创建Q网络self.create_training_method()  # 创建训练方法# Init session  初始化会话self.session = sessself.session.run(tf.global_variables_initializer())def create_Q_network(self):  # critic网络,使用类似于DQN的三层神经网络,但是只有一维输出值# network weightsW1q = self.weight_variable([self.state_dim, 20])b1q = self.bias_variable([20])W2q = self.weight_variable([20, 1])b2q = self.bias_variable([1])self.state_input = tf.placeholder(tf.float32, [1, self.state_dim], "state")  # 应该是指只输入了一组?# hidden layersh_layerq = tf.nn.relu(tf.matmul(self.state_input, W1q) + b1q)  # #进行 y = w1*x + b1 的运算 ,从线性状态激活成非线性状态# Q Value layerself.Q_value = tf.matmul(h_layerq, W2q) + b2q  # 进行 y = w2*x + b2 的运算,输出是两个是数(不确定)TODOdef create_training_method(self):  # 创建训练方法self.next_value = tf.placeholder(tf.float32, [1, 1], "v_next")self.reward = tf.placeholder(tf.float32, None, 'reward')# https://blog.csdn.net/tian_jiangnan/article/details/105047745# tf.variable_scope是一个变量管理器,下面的东东即使变量名一样,作用域不一样,引用的时候就不会出现穿插问题了with tf.variable_scope('squared_TD_error'):  # 在作用域名为squared_TD_error的作用域里面self.td_error = self.reward + GAMMA * self.next_value - self.Q_value  # 计算TD_errorself.loss = tf.square(self.td_error)  # tf.square是对td_error里面每一个元素求平方with tf.variable_scope('train'):  # 在作用域名为train的作用域里面# 利用tensorflow中的Adam优化算法最小化loss函数# Adam优化算法:是一个寻找全局最优点的优化算法,引入了二次方梯度校正。self.train_op = tf.train.AdamOptimizer(self.epsilon).minimize(self.loss)def train_Q_network(self, state, reward, next_state):   # 训练Q网络s, s_ = state[np.newaxis, :], next_state[np.newaxis, :]    # 当前状态和下一个状态# 由输入状态和Q_value计算状态价值函数v_ = self.session.run(self.Q_value, {self.state_input: s_})# 运行会话输出td_errortd_error, _ = self.session.run([self.td_error, self.train_op],{self.state_input: s, self.next_value: v_, self.reward: reward})  # 得到td误差return td_errordef weight_variable(self, shape):  # 权重变量initial = tf.truncated_normal(shape)  # 从一个正态分布片段中输出平均数值  shape:决定输出张量的形状return tf.Variable(initial)  # 更新参数,变量存在内存中def bias_variable(self, shape):  # 偏执变量initial = tf.constant(0.01, shape=shape)  # 生成常量矩阵return tf.Variable(initial)# Hyper Parameters
ENV_NAME = 'CartPole-v0'
EPISODE = 3000  # Episode limitation
STEP = 3000  # Step limitation in an episode
TEST = 10  # The number of experiment test every 100 episode  每训练100幕数据就做一次效果测试,测试10次取平均def main():# initialize OpenAI Gym env and dqn agentsess = tf.InteractiveSession()  # 开启会话env = gym.make(ENV_NAME)  # 导入环境actor = Actor(env, sess)  # 定义AC网络critic = Critic(env, sess)for episode in range(EPISODE):# initialize task# a) 初始化S为当前状态序列的第一个状态, 拿到其特征向量ϕ(S)state = env.reset()  # 初始化第一个状态# Trainfor step in range(STEP):  # 这部分actor网络和critic网络进行交互# b) 在Actor网络中使用ϕ(S)作为输入,输出动作A,基于动作A得到新的状态S′,反馈R。action = actor.choose_action(state)  # e-greedy action for train  输入状态,得到动作A#  c) 在Critic网络中分别使用ϕ(S),ϕ(S‘′)作为输入,得到Q值输出V(S),V(S′)next_state, reward, done, _ = env.step(action)  # 基于动作A得到新的状态next_state,回报reward# 由train_Q_network计算得到TD误差td_error = critic.train_Q_network(state, reward, next_state)  # gradient = grad[r + gamma * V(s_) - V(s)]# 更新Actor网络参数θactor.learn(state, action, td_error)  # true_gradient = grad[logPi(s,a) * td_error]   最大化价值函数state = next_state  # 为下一步做准备,下一个状态即为下一步的当前状态if done:  # 达到终止条件就退出循环break# Test every 100 episodesif episode % 100 == 0:total_reward = 0  # 初始化总回报for i in range(TEST):state = env.reset()  # 初始化环境for j in range(STEP):env.render()  # env.render()函数用于渲染出当前的智能体以及环境的状态action = actor.choose_action(state)  # # 根据状态选择动作state, reward, done, _ = env.step(action)  # 根据action执行step,得到三状态total_reward += reward  # 为了十次取一次平均,先加后除if done:  # 如果达到了终止条件,则退出breakave_reward = total_reward / TEST  # 求平均print('episode: ', episode, 'Evaluation Average Reward:', ave_reward)if __name__ == '__main__':main()

【强化学习】AC注释版本相关推荐

  1. 【强化学习】一文带你理清强化学习

    整理不易,希望留个赞再走哦!! 学习路线 这个图描述的比较清晰,蓝框里是整个强化学习的一些概念基础了,橙色是一些学习方法,可以针对性的选择一些,废话不多说,接下来就按照这个路线图展开. 1. 马尔可夫 ...

  2. 论强化学习的根本缺陷

    来源:AI 科技评论 摘要:本文来自斯坦福大学博士生 Andrey Kurenkov 在 The Gradient 上发表的文章. 在本文中,我们将讨论人工智能的一个核心领域--强化学习--的局限性. ...

  3. 如何用强化学习优化广告投放中的A/B Test

    公众号后台回复"图书",了解更多号主新书内容 作者:会痛的stone 来源:R语言工程化 A/B Test是决策科学的最常见方法之一.以广告投放为例,将客户群分为两组或多组,每组群 ...

  4. 强化学习算法:AC系列详解

    文章目录 AC A2C A3C References AC Actor-Critic算法分为两部分,actor的前身是policy gradient,它可以轻松地在连续动作空间内选择合适的动作,val ...

  5. 【原创】强化学习笔记|从零开始学习PPO算法编程(pytorch版本)

    从零开始学习PPO算法编程(pytorch版本)_melody_cjw的博客-CSDN博客_ppo算法 pytorch 从零开始学习PPO算法编程(pytorch版本)(二)_melody_cjw的博 ...

  6. ROS开发笔记(10)——ROS 深度强化学习dqn应用之tensorflow版本(double dqn/dueling dqn/prioritized replay dqn)

    ROS开发笔记(10)--ROS 深度强化学习dqn应用之tensorflow版本(double dqn/dueling dqn/prioritized replay dqn) 在ROS开发笔记(9) ...

  7. 强化学习之AC系列算法(AC、A2C、A3C)

    文章目录 AC算法 AC A2C A3C AC算法 我们之前讲过基于价值的强化学习,我们也讲过基于策略的强化学习,这节课所讲的AC系列算法就是同时使用了这两种方法包含有:AC--Actor Criti ...

  8. 强化学习笔记(2)深度学习tensorflow2.5以上版本环境安装

    目前的强化学习趋势是和深度学习相结合,因此在配置环境时需要配置深度学习的那一套.这里详细描述一套可用的安装GPU开发套件和tensorflow2.6的流程. 系统环境:Ubuntu 20.04 显卡: ...

  9. critic法计算_对于强化学习算法中的AC算法(Actor-Critic算法) 的一些理解

    AC算法(Actor-Critic算法)最早是由<Neuronlike Adaptive Elements That Can Solve Difficult Learning Control P ...

最新文章

  1. MyBatis中传递数组参数和List参数时if-test判空和判断长度的写法
  2. 9-基数排序C实现(待补充插图)
  3. cockpit代替secureCRT
  4. Windows之在终端打开当前目录的命令
  5. python api接口生成_Django 自动生成api接口文档教程
  6. c++builder 运行网站的api_欧美音乐网站Python爬虫项目实战
  7. PhotoSwipe异步动态加载图片
  8. 走一条硬件工程师的道路
  9. Android修改PackageInstaller自动安装指定应用,android开发网易新闻
  10. 计算机网络vtp,VTP学习笔记(二)
  11. Android 热更新Robust 浅析
  12. AirSim学习日志 9-三维空间航路点跟踪
  13. my eclipse 连接数据库(详细步骤)
  14. 医用计算机是什么意思,pc是什么意思(全网最全解读pc寓意)
  15. 上新 | 追光几何(EverCraft)全新交互界面重磅亮相!
  16. JSD-2204-创建csmall项目-Day02
  17. box filtering
  18. isInterrupted、interrupt和interrupted
  19. 运用Java获取当前时间
  20. Tushare学习文档(八 银行间同业拆放利率)

热门文章

  1. oracle 扩展分区,Oracle 在线扩展分区
  2. Linux 命令之 tcpdump -- 监听网络流量
  3. Linux 系统关于应该把程序安装在目录 /usr 还是目录 /usr/local 下的思考
  4. MySQL JDBC URL各参数详解
  5. 4线电子围栏安装示意图_知识积累|周界防护-脉冲电子围栏的安装
  6. eclipse preference没有server_Java Web开发的前期准备工作,部署Tomcat服务器和Server环境创建...
  7. python具有伪代码的本质吗_Python的优点之一是具有伪代码的本质。( )_学小易找答案...
  8. 批量提取文件创建时间_批量采集新浪微博用户内容
  9. php dump utfp,php pchart乱码-使用REST接口获取GeoServer中的...-结合 thinkPHP 分页写成自己分页类_169IT.COM...
  10. return两个返回值_LeetCode 第四题 寻找两个有序数组的中位数