原文:HTML
作者:Thomas Simonini
翻译:datamonday


本章节的第一部分RL02: Q-Learning, create an autonomous Taxi (Part 1/2)中,我们学习了基于价值的方法,以及蒙特卡洛(Monte Carlo)学习和时间差分(Temporal Difference,TD)学习的区别。

因此,在本部分,我们将学习Q-Learning,并实现第一个RL Agent:一个Q-Learning自主出租车,它需要学习在一个城市中导航,将乘客从A点运送到B点。

如果你想研究深度Q-Learning(第三章),这一章是最基本的:第一个深度RL算法,它能够玩Atari游戏,并在一些游戏上击败人类(breakout, space invaders…)。


文章目录