David Silver强化学习公开课自学笔记—

本笔记摘自知乎博主旺财的搬砖历险记和叶强，仅用于自学

1.背景介绍

（1）背景

强化学习是多学科多领域交叉的产物，本质是解决决策问题，即学会自动决策，在各个领域体现不同，但都归结为人类如何且为什么能做出最优决策：

计算机科学领域体现为机器学习算法
工程领域体现为决定序列行为来进行最优控制
在神经科学领域体现为理解人类大脑做出决策，主要研究反馈系统
在心理学领域研究动物如何做出决策、动物的行为由什么导致
在经济学领域体现博弈论的研究。

（2）原理

强化学习作为一个序列决策问题，连续选择一些行为，从这些行为完成后得到最大的收益作为最好的结果。
在没有任何标签告诉算法如何做的情况下，先尝试作出一些行为，然后得到一个结果，通过判断这个结果来对之前的行为进行反馈。
通过这个反馈来调整之前的行为，通过不断调整算法，学习到在什么情况下选择哪种行为可以得到最好的结果。

（3）强化学习与其他机器学习的区别

1）RL的挑战和考虑

《Reinforcement Learning: An Introduction》书中指出

RL领域存在一个挑战，即需要在探索未知的领域（exploration）和利用现有的知识（exploitation）之间做权衡

One of the challenges that arise in reinforcement learning, and not in other kinds of learning, is the trade-off between exploration and exploitation.

RL考虑，以目标为导向的agent，与不确定的环境之间交互的整个问题，其他机器学习更多将大问题分解成子问题，且不考虑它们如何使用，所以存在很多限制。

Another key feature of reinforement learning is that it explicitly considers the whole problem of a goal-directed agent interacting with an uncertain environment.

2）与监督学习的区别

There is no supervisor, only a reward signal.
- 监督学习有标签告诉算法输入对应何种输出（如分类、回归问题）
- 强化学习没有标签，只有一系列行为后最终反馈回来的reward signal来判断当前行为好坏
Feedback is delayed, not instantaneous.
- RL的结果反馈有延时，有时需要走好多步才知道之前某步的好坏
- 监督学习的选择好坏立即反馈给算法
Time really matters (sequential, non i.i.d data)
- RL具有强时间相关性
- 作为序列决策问题，属于非独立同分布数据[[数学基础#7.独立同分布]]
Agent’s actions affect the subsequent data it receives
- RL的输入总在变化，每当算法做出一个行为，它就影响下一次决策的输入
- 监督学习中的输入是独立分布的

3）与非监督学习的区别

《Reinforcement Learning: An Introduction》书中指出
非监督学习主要是为了挖掘无标签数据之间的内部关联（如聚类问题），RL则是为了最大化奖励

Reinforce learning is also different from what machine learning researchers call unsupervised learning, which is typically about finding structure hidden in collections of unlabeled data.

4）举例

数据：人脸图片

监督学习：给定标签（人名），学习这些人脸是谁的脸。监督学习要求带标签的数据，如何标注数据是一门学问。数据较难获得。
非监督学习：没有标签，判断哪些图片是同一个人。数据数量庞大容易获得。
强化学习：没有标签信号，只有奖励信号。即时奖励：只告诉分对还是分错；延迟奖励：分类完毕以后，得到总分数。

2.RL构成

（1）奖励Rewards

1）RL奖励假设

可以没有观测，但是必须有奖励！！！奖励是RL区别于其他机器学习的标志特征。

奖励 R t R_t Rt是一个标量反馈信号
反映了agent在时刻t行为的好坏
agent的目的是最大化累积回报

RL奖励假设：所有的目标都可以表示为最大化期望累计回报

【如果一个问题不满足奖励假设，就不能用强化学习解决！】

2）Rewards举例

场景	+奖励	-奖励
无人机和无人车控制	按预定轨迹运行	碰撞或翻车
下围棋	赢了	输了
Atari游戏	得分增加	得分减少
机械臂控制	抓住东西	没抓住东西

只有正奖励，或只有负奖励，也可以。

（2）序列决策 Sequential Decision Making

目标：挑选动作，以最大化将来的累计回报
动作可能会产生长期后果
奖励会有延迟（eg.下围棋只有在最后才能获得奖励）
可能牺牲即时回报来获得长期回报更高，即贪心策略不可行。

（3）智能体和环境

agent
- 强化学习需要优化的部分，是我们能够精确控制的部分
environment
- 我们不能直接控制的部分
在每个步骤 t t t，agent的表现：
- 执行动作 A t A_t At，如决定围棋的落子位置，机器人下一步怎么走
- 接受观察 O t O_t Ot，如摄像头拍摄到一副快照——当前场景
- 接收标量奖励 R t R_t Rt，表明agent在第t步做出的决策有多好/坏
- David Silver强化学习公开课自学笔记——Lec1强化学习简介相关推荐
  1. David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程
    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 0.数学规范大写字母表示随机变量:S,A,RS,A,RS,A,R等小写字母表示具体的值:s,a,rs,a,rs,a,r等空心字母表示统计运算 ...
  2. 学习：深度学习公开课
    [转] http://www.leiphone.com/news/201701/0milWCyQO4ZbBvuW.html 导语:入门机器学习不知道从哪着手?看这篇就够了. 在当下的机器学习热潮,人才 ...
  3. 【David Silver强化学习公开课之一】强化学习入门
    本文是David Silver强化学习公开课第一课的总结笔记.第一课主要解释了强化学习在多领域的体现,主要解决什么问题,与监督学习算法的区别,完整的算法流程由哪几部分组成,其中的agent又包含什么内 ...
  4. HTML4基本编译原理,Stanford公开课《编译原理》学习笔记(1~4课)
    课程里涉及到的内容讲的还是很清楚的,但个别地方有点脱节,任何看不懂卡住的地方,请自行查阅经典著作<Compilers--priciples, Techniques and Tools>(也 ...
  5. 谷歌深度学习公开课任务 5: Word2VecCBOW
    为什么80%的码农都做不了架构师?>>> 本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/ml/cbow-word2vec.html 课上讲的 ...
  6. 百度 AI 再发福利！不仅有实战营，还有手把手教学的“深度学习公开课”
    点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! 百度 AI 开发者实战营第二季强势回归,你期待的技术干货.成功案例与大咖演讲都将如期而至,甚 ...
  7. 相约AIIA！百度飞桨深度学习公开课预约中
    11月1日,AIIA2019人工智能开发者大会即将以"'源'开则行,'机'智则灵"为题于杭州拉开帷幕.据悉,此次大会将继续邀请国内外人工智能产业知名人士.国家政府主管部门.行业内顶 ...
  8. 转：深度学习课程及深度学习公开课资源整理
    http://www.52nlp.cn/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E8%AF%BE%E7%A8%8B%E6%B7%B1%E5%BA%A6%E5%AD%A ...
  9. 【David Silver强化学习公开课】-8：Integrating Learning and Planning
    一.Model-based RL Model-Free RL,从经验中学习价值函数(以及/或者策略). Model-based RL,从经验中直接学习环境的MDP模型.(状态转移概率P以及奖励矩阵R) ...
  最新文章
  热门文章

David Silver强化学习公开课自学笔记——Lec1强化学习简介