David Silver强化学习公开课自学笔记——Lec1强化学习简介
本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学
1.背景介绍
(1)背景
强化学习是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做出最优决策:
- 计算机科学领域体现为机器学习算法
- 工程领域体现为决定序列行为来进行最优控制
- 在神经科学领域体现为理解人类大脑做出决策,主要研究反馈系统
- 在心理学领域研究动物如何做出决策、动物的行为由什么导致
- 在经济学领域体现博弈论的研究。
(2)原理
- 强化学习作为一个序列决策问题,连续选择一些行为,从这些行为完成后得到最大的收益作为最好的结果。
- 在没有任何标签告诉算法如何做的情况下,先尝试作出一些行为,然后得到一个结果,通过判断这个结果来对之前的行为进行反馈。
- 通过这个反馈来调整之前的行为,通过不断调整算法,学习到在什么情况下选择哪种行为可以得到最好的结果。
(3)强化学习与其他机器学习的区别
1)RL的挑战和考虑
《Reinforcement Learning: An Introduction》书中指出
- RL领域存在一个挑战,即需要在探索未知的领域(exploration)和利用现有的知识(exploitation)之间做权衡
One of the challenges that arise in reinforcement learning, and not in other kinds of learning, is the trade-off between exploration and exploitation.
- RL考虑,以目标为导向的agent,与不确定的环境之间交互的整个问题,其他机器学习更多将大问题分解成子问题,且不考虑它们如何使用,所以存在很多限制。
Another key feature of reinforement learning is that it explicitly considers the whole problem of a goal-directed agent interacting with an uncertain environment.
2)与监督学习的区别
- There is no supervisor, only a reward signal.
- 监督学习有标签告诉算法输入对应何种输出(如分类、回归问题)
- 强化学习没有标签,只有一系列行为后最终反馈回来的reward signal来判断当前行为好坏
- Feedback is delayed, not instantaneous.
- RL的结果反馈有延时,有时需要走好多步才知道之前某步的好坏
- 监督学习的选择好坏立即反馈给算法
- Time really matters (sequential, non i.i.d data)
- RL具有强时间相关性
- 作为序列决策问题,属于非独立同分布数据[[数学基础#7.独立同分布]]
- Agent’s actions affect the subsequent data it receives
- RL的输入总在变化,每当算法做出一个行为,它就影响下一次决策的输入
- 监督学习中的输入是独立分布的
3)与非监督学习的区别
《Reinforcement Learning: An Introduction》书中指出
非监督学习主要是为了挖掘无标签数据之间的内部关联(如聚类问题),RL则是为了最大化奖励
Reinforce learning is also different from what machine learning researchers call unsupervised learning, which is typically about finding structure hidden in collections of unlabeled data.
4)举例
数据:人脸图片
- 监督学习:给定标签(人名),学习这些人脸是谁的脸。监督学习要求带标签的数据,如何标注数据是一门学问。数据较难获得。
- 非监督学习:没有标签,判断哪些图片是同一个人。数据数量庞大容易获得。
- 强化学习:没有标签信号,只有奖励信号。即时奖励:只告诉分对还是分错;延迟奖励:分类完毕以后,得到总分数。
2.RL构成
(1)奖励Rewards
1)RL奖励假设
可以没有观测,但是必须有奖励!!!奖励是RL区别于其他机器学习的标志特征。
- 奖励 R t R_t Rt是一个标量反馈信号
- 反映了agent在时刻t行为的好坏
- agent的目的是最大化累积回报
RL奖励假设:所有的目标都可以表示为最大化期望累计回报
【如果一个问题不满足奖励假设,就不能用强化学习解决!】
2)Rewards举例
场景 | +奖励 | -奖励 |
---|---|---|
无人机和无人车控制 | 按预定轨迹运行 | 碰撞或翻车 |
下围棋 | 赢了 | 输了 |
Atari游戏 | 得分增加 | 得分减少 |
机械臂控制 | 抓住东西 | 没抓住东西 |
只有正奖励,或只有负奖励,也可以。
(2)序列决策 Sequential Decision Making
- 目标:挑选动作,以最大化将来的累计回报
- 动作可能会产生长期后果
- 奖励会有延迟(eg.下围棋只有在最后才能获得奖励)
- 可能牺牲即时回报来获得长期回报更高,即贪心策略不可行。
(3)智能体和环境
- agent
- 强化学习需要优化的部分,是我们能够精确控制的部分
- environment
- 我们不能直接控制的部分
- 我们不能直接控制的部分
- 在每个步骤 t t t,agent的表现:
- 执行动作 A t A_t At,如决定围棋的落子位置,机器人下一步怎么走
- 接受观察 O t O_t Ot,如摄像头拍摄到一副快照——当前场景
- 接收标量奖励 R t R_t Rt,表明agent在第t步做出的决策有多好/坏
-
David Silver强化学习公开课自学笔记——Lec1强化学习简介相关推荐
- David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程
本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 0.数学规范 大写字母表示随机变量:S,A,RS,A,RS,A,R等 小写字母表示具体的值:s,a,rs,a,rs,a,r等 空心字母表示统计运算 ...
- 学习:深度学习公开课
[转] http://www.leiphone.com/news/201701/0milWCyQO4ZbBvuW.html 导语:入门机器学习不知道从哪着手?看这篇就够了. 在当下的机器学习热潮,人才 ...
- 【David Silver强化学习公开课之一】强化学习入门
本文是David Silver强化学习公开课第一课的总结笔记.第一课主要解释了强化学习在多领域的体现,主要解决什么问题,与监督学习算法的区别,完整的算法流程由哪几部分组成,其中的agent又包含什么内 ...
- HTML4基本编译原理,Stanford公开课《编译原理》学习笔记(1~4课)
课程里涉及到的内容讲的还是很清楚的,但个别地方有点脱节,任何看不懂卡住的地方,请自行查阅经典著作<Compilers--priciples, Techniques and Tools>(也 ...
- 谷歌深度学习公开课任务 5: Word2VecCBOW
为什么80%的码农都做不了架构师?>>> 本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/ml/cbow-word2vec.html 课上讲的 ...
- 百度 AI 再发福利!不仅有实战营,还有手把手教学的“深度学习公开课”
点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! 百度 AI 开发者实战营第二季强势回归,你期待的技术干货.成功案例与大咖演讲都将如期而至,甚 ...
- 相约AIIA!百度飞桨深度学习公开课预约中
11月1日,AIIA2019人工智能开发者大会即将以"'源'开则行,'机'智则灵"为题于杭州拉开帷幕.据悉,此次大会将继续邀请国内外人工智能产业知名人士.国家政府主管部门.行业内顶 ...
- 转:深度学习课程及深度学习公开课资源整理
http://www.52nlp.cn/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E8%AF%BE%E7%A8%8B%E6%B7%B1%E5%BA%A6%E5%AD%A ...
- 【David Silver强化学习公开课】-8:Integrating Learning and Planning
一.Model-based RL Model-Free RL,从经验中学习价值函数(以及/或者策略). Model-based RL,从经验中直接学习环境的MDP模型.(状态转移概率P以及奖励矩阵R) ...
最新文章
- Android组件化打造知乎日报系列(一)—— 项目架构搭建
- 用分类映射的办法分类两条夹角为0.3度的直线
- jQuery UI - Accordion 手风琴组件的使用
- 重构(Refactoring)技巧读书笔记 之二
- 将一个字段分成3个 php,整理几个方法
- postgresql,pgadmin4安装后出错,界面只有文字
- 一步一步写算法(之单向链表)
- Eclipse 的控制台console乱码
- SolarWinds与安稳特加强合作关系,携手助力中国IT专业人士应对挑战
- 用 python 实现各种排序算法(转)
- 看不到日志_迷之 crontab 异常:不运行、不报错、无日志?
- android 一位小数_android如何保留小数点后x位数字
- 药店管理系统设计方案开发
- 现代控制理论(一)控制系统的状态空间描述
- 2021不堪回首,2022满路荆棘,但依然乐观努力
- Codeforces 272C Dima and Staircase 思维 or 线段树
- AR Engine光照估计能力,让虚拟物体在现实世界更具真实感
- 基于JAVA响应式交友网站计算机毕业设计源码+数据库+lw文档+系统+部署
- 深度学习入门 ---稀疏自编码器
- RISC-V 指令架构 -- 模式切换
热门文章
- Linux+Nginx+PHP 宝塔配置GetwayWorker 踩过的坑
- 《袁老师访谈录》第二十期[百万对话]@盐城
- 简单的课程表小程序(仿超级课程表),加入自定义背景功能
- 《计算机工程与应用》投稿详解
- 【cocos2d-x官方文档】Chipmunk(转)
- 基于VC++PNG按钮的实现
- [软件工程程序修复论文阅读]基于代码感知机器翻译的程序修复
- UVALive 7139 Rotation(模拟)
- php数据库心得体会,学习数据库心得
- 春晚“不差钱”,网管“不差包”
- David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程