强化学习

强化学习通常用马尔可夫决策过程（Markov Decision Process）MDP

E = < X , A , P , R > E = <X,A,P,R> E=<X,A,P,R>

X:state enviroment

A:action

P:move function

R:reward

K-摇臂赌博机

最大化单步奖赏，仅考虑一步操作

最大化单步奖赏需要考虑两个方面：一是需要知道每一个动作所带来的奖赏。二是要执行奖赏最大的动作

仅探索（exploration-only）：若仅仅为了获知每一个摇臂的期望奖赏，将所有的尝试机会平均分配给每一个摇臂，最后以每一个摇臂各自的平均吐币率作为其奖赏期望的近似

估算

仅利用（exploitation-only）：若仅仅为了执行奖赏最大的动作，按照目前最优的摇臂，若多个摇臂同为最优，则从中随机选择一个。

ϵ − 贪心 \epsilon -\text{贪心} ϵ−贪心

该方法基于一个概率对探索以及利用进行折中，每次尝试的时候，以 ϵ \epsilon ϵ的概率进行探索，即以均匀概率随机选择一个摇臂，以 1 − ϵ 1 - \epsilon 1−ϵ 的概率进行利用，即选

择当前平均奖赏最高的摇臂。

增量式计算（类似于动态规划）

Q n ( k ) = 1 n [ ( n − 1 ) ∗ Q n − 1 ( k ) + v n ] Q_n(k) = \frac{1}{n}[(n-1) * Q_{n-1}(k) + v_n] Qn(k)=n1[(n−1)∗Qn−1(k)+vn]

softmax

softmax算法基于当前已知的摇臂平均奖赏对探索和利用进行折中，若各个摇臂的平均奖赏相当，则选取的各个摇臂的概率也相当，若某些摇臂的平均奖赏明显高于其他摇臂，则他

们被选取的概率也明显增高。

有模型学习

策略评估

V π ( x ) V^{\pi}(x) Vπ(x)

Q π ( x , a ) Q^{\pi}(x,a) Qπ(x,a)

MDP具有马尔可夫性质，即系统的下一个状态仅由当前时刻的状态决定，类似于动态规划的思想

策略改进

对于某一个策略的累积奖赏进行评估后，若发现它并非最优，则当然希望对其进行改进，理想的策略应该是最大化累积奖赏，只能用于当策略空间为无约束条件

免模型学习

蒙特卡罗强化学习

一种直接的想法是进行多次采样，然后求取平均累积奖赏作为期望累计奖赏的近似

时序差分学习

蒙特卡罗强化学习算法通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，此类算法需要完成一个采样轨迹后更新策略的值的估计，而我们更希望她类似于动态规划的思想，基于前一个状态就可以推出当前状态的状态。这里的主要问题就是蒙特卡罗强化学习没有充分利用强化学习任务的MDP结构。时序差分（TD）学习则结合了动态规划与蒙特卡罗方法的思想，能够做到高效的免模型学习。

值函数近似学习

之前的强化学习都是在有限的状态空间中进行相关的策略学习的，但是，在现实生活中，通常情况下，状态空间通常是无限的，这时候就要值函数近似学习。不是对状态空间进行离散化，而是直接对连续状态空间的值函数进行学习

模仿学习

直接模仿学习

直接模仿人类专家的（状态-动作）对

逆强化学习

在很多的任务中，设计奖赏函数往往相当困难，从人类专家提供的实例数据中反推出奖赏函数有助于解决问题。

人工智能(强化学习)相关推荐

2019年上半年收集到的人工智能强化学习干货文章
2019年上半年收集到的人工智能强化学习干货文章从0到1-强化学习篇关于人工智能中强化学习的扫盲强化学习简介深度强化学习探索强化学习算法背后的思想起源! 强化学习基础什么是强化学习?强化学 ...
人工智能强化学习汽车标定领域探讨
人工智能强化学习汽车标定方案汽车标定领域尤其是柴油车的排放标定,需要花费大量的测试时间和人力,测试成本比较高,非常拖延新车型的上市时间. 随着国六标准的实施,RDE测试也在不断提高要求.通过强化学习 ...
人工智能-强化学习|无地图探索
这一期我们来分享一份干货,这是一篇讲解移动机器人面对陌生环境如何去探索的论文.移动机器人在面对路无地图陌生环境时的探索行为,一直以来都是一个比较难解决的问题,这个议题要求机器人在陌生环境中自行寻路寻找 ...
人工智能-强化学习(2)
一.简介在本章中,我们将学习将深度神经网络与强化学习相结合的效果.如果你关注AI新闻,那么你可能会听说一些没有任何特定编程就AI无法完成的工作: 1)了解如何从原始图像像素播放atari 2)了解如 ...
人工智能-强化学习-算法：Critic 【用于评价一个 Actor/Policy π】--＞ Q-Learning【用于训练出来一个最优 Actor/Policy π，擅长处理离散型 actions】
一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...
人工智能-强化学习：Imitation Learning（模仿学习）= Learning by Demonstration（示范学习）【每一步action都没有reward】
Imitation Learning(模仿学习)是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward. 在某些任务上,也很难定义 reward.如:自动驾 ...
深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述翻译说明综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
强化学习应用简述---强化学习方向优秀科学家李玉喜博士创作
强化学习 (reinforcement learning) 经过了几十年的研发,在一直稳定发展,最近取得了很多傲人的成果,后面会有越来越好的进展.强化学习广泛应用于科学.工程.艺术等领域. 下面简单列 ...
强化学习 --- 概述
C. 人工智能 - 强化学习 - 概述概述思路 Agent -> Action -> Environment Environment -> Reward -> Agent ...

人工智能(强化学习)