强化学习(Reinforcement Learning)入门学习–01

定义

Reinforcement learning (RL) is an area of machine learning inspired by behaviorist psychology, concerned with how software agents ought to take actions in an environment so as to maximize some notion of cumulative reward. （强化学习是机器学习领域之一，受到行为心理学的启发，主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。） —from Wikipedia

特征

强化学习主要由智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）组成。智能体执行了某个动作后，环境将会转换到一个新的状态，对于该新的状态环境会给出奖励信号（正奖励或者负奖励）。

强化学习方法汇总

理解环境与不理解环境

理解环境是要创造一个虚拟的环境

算法

基于概率和基于价值

连续的基于价值是无能为力的

算法

回合更新与单步更新

在线学习与离线学习

在线（自己玩）

离线看着别人玩

算法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K3DhESMB-1658491318792)(https://s2.loli.net/2022/07/22/XSjoTLskacw7zn2.png)]

Q-Learning

Q-Learning是Value-Based的强化学习算法，所以算法里面有一个非常重要的Value就是Q-Value，也是Q-Learning叫法的由来。这里重新把强化学习的五个基本部分介绍一下。

Agent（智能体）：强化学习训练的主体就是Agent：智能体。Pacman中就是这个张开大嘴的黄色扇形移动体。

Environment（环境）：整个游戏的大背景就是环境；Pacman中Agent、Ghost、豆子以及里面各个隔离板块组成了整个环境。

State（状态）：当前 Environment和Agent所处的状态，因为Ghost一直在移动，豆子数目也在不停变化，Agent的位置也在不停变化，所以整个State处于变化中；State包含了Agent和Environment的状态。

Action（行动）：基于当前的State，Agent可以采取哪些action，比如向左or右，向上or下；Action是和State强挂钩的，比如上图中很多位置都是有隔板的，很明显Agent在此State下是不能往左或者往右的，只能上下；

Reward（奖励）： Agent在当前State下，采取了某个特定的action后，会获得环境的一定反馈就是Reward。这里面用Reward进行统称，虽然Reward翻译成中文是“奖励”的意思，但其实强化学习中Reward只是代表环境给予的“反馈”，可能是奖励也可能是惩罚。比如Pacman游戏中，Agent碰见了Ghost那环境给予的就是惩罚。

算法分析

-1658491318792)]

算法分析

[外链图片转存中…(img-3ADmrcqS-1658491318793)]