CS 188 Project3(RL) Q10:Approximate Q-Learning

实现一个近似的Q-learning学习代理，它学习状态特征的权重，其中许多状态可能共享相同的特征。在qlearningAgents.py中的ApproximateQAgent类中编写实现，它是PacmanQAgent的子类。

注：近似Q-learning学习假设在状态和动作对上存在一个特征函数f（s，a），它产生一个向量f1(s,a) .. fi(s,a) .. fn(s,a)特征值。我们在featureExtractors.py中提供特征函数，特征向量是util.Counter（像字典）对象，包含非零的特征和值对；所有省略的特征都具有值零。

近似Q-function 函数的形式如下：

其中每个权重wi与特征函数fi（s，a）关联,在代码中，您应该将权重向量作为字典映射特征（特性提取器返回）实现为权重值。您将更新权重向量，类似于更新Q-values值的方式：

请注意差距difference与正常的Q-learning学习相同，并且R是有经验的奖励。默认情况下，ApproximateQAgent 近似代理使用IdentityExtractor，它为每对（状态、动作）分配一个特征。使用这个特征提取器，您的近似Q-learning代理应该与PacmanQAgent工

CS 188 Project3(RL) Q10:Approximate Q-Learning相关推荐

CS 188 Project4(RL) Introduction:Ghostbusters
Pacman一生都在逃避幽灵,但事情并非总是如此.传说很多年前,Pacman的曾祖父爷爷就学会了捕猎幽灵.然而,他被自己的能力蒙蔽了双眼,只能通过幽灵的砰砰声和叮当声来追踪他们.在这个项目中,您将设计 ...
RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
Q learning
今天继续写RL的exercise2,发现Q learning一直不收敛.本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行.后来发现自己犯了 ...
[PARL强化学习]Sarsa和Q—learning的实现
[PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化los ...
【强化学习笔记】从 “酒鬼回家” 认识Q Learning算法
1.背景现在笔者来讲一个利用Q-learning 方法帮助酒鬼回家的一个小例子, 例子的环境是一个一维世界, 在世界的右边是酒鬼的家.这个酒鬼因为喝多了,根本不记得回家的路,只是根据自己的直觉一会向 ...
CNNs and Deep Q Learning
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...
强化学习入门：一文入门强化学习（Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等）
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...

CS 188 Project3(RL) Q10:Approximate Q-Learning

CS 188 Project3(RL) Q10:Approximate Q-Learning相关推荐

最新文章

热门文章