RL02: Q-Learning, create an autonomous Taxi (Part 2/2)

原文：HTML
作者：Thomas Simonini
翻译：datamonday

本章节的第一部分RL02: Q-Learning, create an autonomous Taxi (Part 1/2)中，我们学习了基于价值的方法，以及蒙特卡洛（Monte Carlo）学习和时间差分（Temporal Difference，TD）学习的区别。

因此，在本部分，我们将学习Q-Learning，并实现第一个RL Agent：一个Q-Learning自主出租车，它需要学习在一个城市中导航，将乘客从A点运送到B点。

如果你想研究深度Q-Learning（第三章），这一章是最基本的：第一个深度RL算法，它能够玩Atari游戏，并在一些游戏上击败人类（breakout, space invaders…）。

文章目录

Introducing Q-Learning
- What is Q-Learning?
The Q-Learning algorithm
- Step 1: We initialize the Q-Table
- Step 2: Choose action using Epsilon Greedy Strategy
- Step 3: Perform action At, gets Rt+1 and St+1
- Step 4: Update Q(St, At)
- Off-policy vs On-policy
An example
Let’s train our Q-Learning Taxi agent
Code
- Step 0: Install and import the libraries
  
  RL02: Q-Learning, create an autonomous Taxi (Part 2/2)相关推荐
  1. python Q learning玩倒立摆（inverted pendulum）
    今天使用Q learning实现了一下倒立摆哈,我这里把代码分享给大家学习啦: pendulum环境 # a few packages we need to importimport numpy as ...
  2. Q学习（Q learning）强化学习
    Q学习(Q learning) 强化学习的简单例子 Matlab实现可视化_Morty 的挖坑记录-CSDN博客强化学习(MATLAB) - 叮叮当当sunny - 博客园
  3. RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
  4. RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
  5. Q learning
    今天继续写RL的exercise2,发现Q learning一直不收敛.本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行.后来发现自己犯了 ...
  6. [强化学习实战]出租车调度-Q learning SARSA
    出租车调度-Q learning & SARSA 案例分析实验环境使用同策时序差分学习调度异策时序差分调度资格迹学习调度结论代码链接案例分析本节考虑Gym库里出租车调度问题(T ...
  7. 强化学习（二）：Q learning 算法
    强化学习(一):基础知识强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
  8. [PARL强化学习]Sarsa和Q—learning的实现
    [PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
  9. Deep Q learning: DQN及其改进
    Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化los ...
  最新文章
  热门文章

RL02: Q-Learning, create an autonomous Taxi (Part 2/2)

文章目录

RL02: Q-Learning, create an autonomous Taxi (Part 2/2)相关推荐

最新文章

热门文章