实现一个近似的Q-learning学习代理,它学习状态特征的权重,其中许多状态可能共享相同的特征。在qlearningAgents.py中的ApproximateQAgent类中编写实现,它是PacmanQAgent的子类。

注:近似Q-learning学习假设在状态和动作对上存在一个特征函数f(s,a),它产生一个向量f1(s,a) .. fi(s,a) .. fn(s,a)特征值。我们在featureExtractors.py中提供特征函数,特征向量是util.Counter(像字典)对象,包含非零的特征和值对;所有省略的特征都具有值零。

近似Q-function 函数的形式如下:

其中每个权重wi与特征函数fi(s,a)关联,在代码中,您应该将权重向量作为字典映射特征(特性提取器返回)实现为权重值。您将更新权重向量,类似于更新Q-values值的方式:

请注意差距difference与正常的Q-learning学习相同,并且R是有经验的奖励。默认情况下,ApproximateQAgent 近似代理使用IdentityExtractor,它为每对(状态、动作)分配一个特征。使用这个特征提取器,您的近似Q-learning代理应该与PacmanQAgent工

CS 188 Project3(RL) Q10:Approximate Q-Learning相关推荐

  1. CS 188 Project4(RL) Introduction:Ghostbusters

    Pacman一生都在逃避幽灵,但事情并非总是如此.传说很多年前,Pacman的曾祖父爷爷就学会了捕猎幽灵.然而,他被自己的能力蒙蔽了双眼,只能通过幽灵的砰砰声和叮当声来追踪他们.在这个项目中,您将设计 ...

  2. RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置

    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...

  3. RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置

    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...

  4. Q learning

    今天继续写RL的exercise2,发现Q learning一直不收敛.本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行.后来发现自己犯了 ...

  5. [PARL强化学习]Sarsa和Q—learning的实现

    [PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...

  6. Deep Q learning: DQN及其改进

    Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...

  7. 【强化学习笔记】从 “酒鬼回家” 认识Q Learning算法

    1.背景 现在笔者来讲一个利用Q-learning 方法帮助酒鬼回家的一个小例子, 例子的环境是一个一维世界, 在世界的右边是酒鬼的家.这个酒鬼因为喝多了,根本不记得回家的路,只是根据自己的直觉一会向 ...

  8. CNNs and Deep Q Learning

    前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...

  9. 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)

    最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...

最新文章

  1. 前端入门 前端自学路线 web开发前端如何学习
  2. symfony note
  3. [Python]小甲鱼Python视频第32课(except)课后题及参考解答
  4. i350t4和v2区别_I350T4V2 英特尔原装I350网卡 全新千兆电口网卡
  5. 改善深层神经网络:超参数调整、正则化以及优化 —— 3.2 为超范围
  6. 拓端tecdat|Python使用矩阵分解法找到类似的音乐
  7. 关于/r与/n以及 /r/n 的区别总结
  8. Spring Boot 知识笔记(集成zookeeper)
  9. 2022焊工(初级)操作证考试题库及答案
  10. 九、Kali Linux 2 社会工程学工具
  11. 初中计算机授课教案模板,初中课程教案模板
  12. 【渝粤题库】国家开放大学2021春2251团体工作题目
  13. python返回类型为anytype_python - Zeep的SOAP请求(Python) - 堆栈内存溢出
  14. 金字塔原理4个基本原则_如何处理人际关系?复杂不如简单,了解6个基本原则,豁然开朗...
  15. Field not found; typically this occurs with arrays which are not mapped as single value
  16. 基于OpenCV DNN模块给黑白老照片上色(附Python/C++源码)
  17. Android动画-Interpolator(插值器)大全
  18. 扑克牌上四个花色人物的故事,及其代表意义
  19. TM1652控制-2
  20. 大数据技术解决 征信环节中产生的问题

热门文章

  1. 魅族要加入鸿蒙系统,魅族宣布接入鸿蒙系统
  2. 89C52单片机定时器精确延时
  3. 人工智能神经网络视频批量消重软件下载
  4. VMware安装FreeBSD虚拟机
  5. 气质联用(GCMS)
  6. 【LOJ#6202.】 叶氏筛法(EES)
  7. 变频器恒压供水ABB变频器恒压供水触摸屏通讯程序
  8. Python制作一系列倒计时器,倒计时结束播放音乐
  9. 达梦数据库 手册说明
  10. Python基础《华氏温度转换摄氏温度》