RL02: Q-Learning, create an autonomous Taxi (Part 2/2)
原文:HTML
作者:Thomas Simonini
翻译:datamonday
本章节的第一部分RL02: Q-Learning, create an autonomous Taxi (Part 1/2)中,我们学习了基于价值的方法,以及蒙特卡洛(Monte Carlo)学习和时间差分(Temporal Difference,TD)学习的区别。
因此,在本部分,我们将学习Q-Learning,并实现第一个RL Agent:一个Q-Learning自主出租车,它需要学习在一个城市中导航,将乘客从A点运送到B点。
如果你想研究深度Q-Learning(第三章),这一章是最基本的:第一个深度RL算法,它能够玩Atari游戏,并在一些游戏上击败人类(breakout, space invaders…)。
文章目录
- Introducing Q-Learning
- What is Q-Learning?
- The Q-Learning algorithm
- Step 1: We initialize the Q-Table
- Step 2: Choose action using Epsilon Greedy Strategy
- Step 3: Perform action At, gets Rt+1 and St+1
- Step 4: Update Q(St, At)
- Off-policy vs On-policy
- An example
- Let’s train our Q-Learning Taxi agent
- Code
- Step 0: Install and import the libraries
RL02: Q-Learning, create an autonomous Taxi (Part 2/2)相关推荐
- python Q learning玩倒立摆(inverted pendulum)
今天使用Q learning实现了一下倒立摆哈,我这里把代码分享给大家学习啦: pendulum环境 # a few packages we need to importimport numpy as ...
- Q学习(Q learning) 强化学习
Q学习(Q learning) 强化学习的简单例子 Matlab实现 可视化_Morty 的挖坑记录-CSDN博客 强化学习(MATLAB) - 叮叮当当sunny - 博客园
- RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...
- RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...
- Q learning
今天继续写RL的exercise2,发现Q learning一直不收敛.本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行.后来发现自己犯了 ...
- [强化学习实战]出租车调度-Q learning SARSA
出租车调度-Q learning & SARSA 案例分析 实验环境使用 同策时序差分学习调度 异策时序差分调度 资格迹学习调度 结论 代码链接 案例分析 本节考虑Gym库里出租车调度问题(T ...
- 强化学习(二):Q learning 算法
强化学习(一):基础知识 强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
- [PARL强化学习]Sarsa和Q—learning的实现
[PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
- Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...
最新文章
- jenkins页面中英文切换配置
- android 重绘如何能不闪一下屏幕_浏览器渲染机制——重绘重排
- JavaIO4--ObjectInputStream和ObjectOutputStream
- Visual Studio 2017 UTF-8 无 BOM 一站式解决办法
- SSM中实现分页与JUnit单元测试
- s6-5 TCP 连接的建立
- MySQL什么是关系_MySQL教程-关系模型
- 每日一题(41)—— 数组和链表的区别
- Spring自学日志01
- java 链表 最小堆优先级队列_Java集合细说
- 大数据面试官别再问闭包了
- BootStrap FileInput 插件实现多文件上传前端功能
- Initramfs 原理和实践
- 使用jQuery Uploadify在ASP.NET 上传附件
- vue中echarts迁徙图
- C++动态库和静态库的使用方法和区别
- oracle 2的22次方,22的2次方(2的22的2次方等于多少)
- c语言用分治法求最大最小值,C语言实现分治法实例
- Butterworth低通滤波器 Matlab实现
- MySQL语法笔记(自用)
热门文章
- python Q learning玩倒立摆(inverted pendulum)
- Step 0: Install and import the libraries