参考文章:(感谢辛勤翻译的小哥哥小姐姐诶)

作者: peghoty

出处: http://blog.csdn.net/peghoty/article/details/9361915

本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。

第一部分:中文翻译

第二部分:英文原文

作者: peghoty

出处: http://blog.csdn.net/peghoty/article/details/9361915

欢迎转载/分享, 但请务必声明文章出处

最后附一张算法的伪代码:

王权富贵:强化学习Q-learning相关推荐

  1. 初学者的强化学习q learning和sarsa

    Reinforcement learning is a fast-moving field. Many companies are realizing the potential of RL. Rec ...

  2. 强化学习q学习求最值_通过Q学习更深入地学习强化学习

    强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...

  3. 强化学习q学习求最值_Q学习简介:强化学习

    强化学习q学习求最值 by ADL 通过ADL Q学习简介:强化学习 (An introduction to Q-Learning: reinforcement learning) This arti ...

  4. 强化学习 (Reinforcement Learning)

    强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...

  5. 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)

    强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录 强化学习 Reinforcement Learning(三)-- ...

  6. 强化学习(Reinforcement Learning)入门知识

    强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值 抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...

  7. 强化学习(Reinforcement Learning)入门学习--01

    强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...

  8. 增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)

    接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率PsaPsa 状态值函数的估计是自举的(bootstrapping),即当 ...

  9. 强化学习(Reinforcement Learning)

    背景 当我们思考学习的本质时,我们首先想到的可能是我们通过与环境的互动来学习.无论是在学习开车还是在交谈,我们都清楚地意识到环境是如何回应我们的行为的,我们试图通过行为来影响后续发生的事情.从互动中学 ...

  10. 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!

    文章目录 1. 什么是强化学习 2. 强化学习模型 2.1 打折的未来奖励 2.2 Q-Learning算法 2.3 Deep Q Learning(DQN) 2.3.1 神经网络的作用 2.3.2 ...

最新文章

  1. 深度丨MIT重磅报告:一文看清AI商业化现状与未来
  2. Vue 全家桶 + Express 实现的博客
  3. PhpCms V9调用指定栏目子栏目文章的两种方法
  4. FFMPEG av_frame_move_ref 使用
  5. MongoDB 分片
  6. Elasticsearch -- Java High Level REST Client (RestHighLevelClient) 使用说明文档
  7. 松下NPM服务器怎么备份系统,松下NPM基本操作手册与教程
  8. Jeecg-Boot 1.1 发布,基于 SpringBoot+Ant Design 的快速开发平台
  9. 工具的使用 —— PyCharm/IDEA 常用快捷键
  10. java连接sftp的几种方式_Java使用SFTP和FTP两种连接服务器的方式实现对文件的上传下载...
  11. GRE经验帖——bbs.gter.net
  12. InstallShield常用问题
  13. 摄像头与成像——做图像处理必须了解的数字成像系统原理
  14. 4.46-47访问控制4/5
  15. 树莓派3B+不能连接5G的Wi-Fi热点
  16. 淡雅色系秀丽线条 照常性感十足的鞋履
  17. Nginx推流负载均衡配置
  18. 如何保存或打印出清晰的域名证书
  19. IOS 蓝牙设备断开时间内进行自动链接
  20. 关于csgo的观看录像fps低_《CSGO》FPS低解决办法

热门文章

  1. PDF编辑之添加页码以及去掉水印
  2. elementui Table组件单元格合并功能剖析
  3. Android Open Source Projects 1
  4. java 文件类型判断_Java:判断文件类型(支持网络文件)
  5. 186页13万字智慧能源大数据分析平台建设方案
  6. 小乌龟git如何同步远程分支_git同步远程仓库分支
  7. vue + flv.js 实现多视频播放
  8. 【win10专业版】xp系统电脑静音快捷键是什么
  9. 内蒙古大学计算机考研资料
  10. 这个网站收录了MSDN上基本所有的镜像文件的电驴链接