大三小学期进阶课程第二十一课:reinforcement learning and data driven approaches
第21课、reinforcement learning and data driven approaches
解决规划问题,不能一上来就开始data driven,而是一步步来从rule based这些基本规则开始
RL的本质是建立mapping 的过程,是遇到了问题再解决的思路
(1)我遇到一个case,但我解决不了
(2)看是不是什么地方解决不了
(3)把这个地方进行拓展RL的思想就是不断的通过在目标不变的情况下,随机地去找一个action,然后看结果怎么样,不好的话就进行修正,或者说策略进行修正,逐渐收敛到一个mapping,使得这个mapping能够optimize reward function given all states
RL的问题就是在学习的过程中成绩会不断提高,但在真的遇到一个没见过的case的情况下难以解决问题
observed state:
(1)有些时候环境感知并不是完全感知的,有些hidden的状态并不是完全能够知道的
(2)用POMDP这个model去model一些uncertainty
(3)图的意思就是看到老虎之后应该向左还是向右还是跑到他嘴里的模型end to end imitation learning
(1)证明在一定情况下,在一定data量的情况下,可以得到一个能接受的结果
(2)本质上来讲,还是一个imitation learningdistribution shifting problem蝴蝶效应问题
(1)在研究的时候,一个一点点的变化,就会引起周围环境的发生很剧烈的变化
(2)所以在进行训练的时候,随着数据量的增加,本身系统是很脆弱的,因为没法证明他有李亚普诺富稳定性,即到t时间的时候无法控制它的误差其他问题
(1)容易产生平均值,而无法得到最优值
如何进行修正:
(1)我们通过寻找一个action的mapping,使得他的那个maximize的reward function,这是整个RL中最关心的问题
(2)data driven只是加速总结,让系统变得更快
大三小学期进阶课程第二十一课:reinforcement learning and data driven approaches相关推荐
- 大三小学期进阶课程第二十课:Understand More on the MP Difficulty
第20课.Understand More on the MP Difficulty EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术,EM的算法流程如下: (1)初始化分布参数: (2)重 ...
- 大三小学期进阶课程第二十九课:感知概貌
第29课.感知概貌 人类开车与机器开车在感知上的区别 (1)感知是机器人学科的问题,机器人要做的即是像人类学习,但不是完全模仿,应做到扬长避短.例如飞机的飞行不需要和鸟的飞行一样,而是要根据自己的特性 ...
- 大三小学期进阶课程第十二课:apollo地图采集方案
第12课.apollo地图采集方案 TomTom的移动测量车队通过配备有1台Velodyne激光雷达相机.1台360度全景相机.2台SICK雷达和兼容GPS/GLONASS的高精度天线的福特翼虎,让驾 ...
- 大三小学期入门课程第六课:规划
在规划中,我们通过结合高精度地图,定位和预测来构建车辆轨迹,规划的第一步是路线导航,侧重于如何从地图上的A前往B,在进行路线规划时,将地图数据作为输入并输出可行驶路径 轨迹规划的目标是生成免碰撞和舒适 ...
- NeHe OpenGL教程 第二十一课:线的游戏
转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...
- 【麦可网】Cocos2d-X跨平台游戏开发学习笔记---第二十一课:Cocos2D-X网格特效1-3
[麦可网]Cocos2d-X跨平台游戏开发---学习笔记 第二十一课:Cocos2D-X网格特效1-3 ================================================ ...
- 实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)
系列文章目录 实践数据湖iceberg 第一课 入门 实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式 实践数据湖iceberg 第三课 在sqlclient中,以sql ...
- OpenGL教程翻译 第二十一课 聚光灯
第二十一课 聚光灯 原文地址:http://ogldev.atspace.co.uk/(源码请从原文主页下载) 背景 聚光灯是第三个也是最后一个我们将要介绍的光源类型(至少在一段时间内).他比平行光和 ...
- Python界面编程第二十一课:Pyside2 (Qt For Python)打印预览QTextEdit内容
Pyside2 的QPrintSupport类中的QPrinter 和 QPrintPreviewDialog支持打印功能. 先看完整代码: from PySide2.QtWidgets import ...
最新文章
- Apache + Tomcat 负载均衡 session复制
- 如何根据C编程语言标准初始化结构
- 用原生JavaScript实现图片瀑布流的浏览效果
- 万级 K8S 集群背后,etcd 如何保持稳定性?
- 02 | 日志系统:一条SQL更新语句是如何执行的? 笔记(转)
- 超252万市民预约报名 北京数字人民币红包中签结果公布啦
- idea在java文件中查找_Java开发工具IntelliJ IDEA使用源代码系列教程(四):在文件中搜索目标...
- a73*2+a53*2指的是什么_篮球内外线是什么意思?篮球外线是什么位置-百科-
- vue 数据劫持 响应式原理 Observer Dep Watcher
- 简单的maven自定义webapp目录
- 4k hidpi 黑苹果_黑苹果如何开启HiDPI? 黑苹果一键开启 macOS HiDPI教程
- html邮件和英文邮件,英文邮件中Best wishes和Best regards的区别
- python读取excel文件数据并且画折线图(入门级)
- 郭霖老师的组合模式讲解
- 单链表的简单操作与演示
- 小白记录——识别RNA编辑位点
- 华氏摄氏度与摄氏度的换算
- http系列---OpenSSL生成根证书CA及签发子证书
- Node.js的卸载
- 火狐浏览器自动加滚动条,如何去除?
热门文章
- 程序员励志视频_5个最适合程序员的励志视频
- Obi - Advanced Rope Simulation 绳索插件学习文档
- 一步步教你轻松学KNN模型算法
- 使用 Let‘s Encrypt 为 Zimbra-8.8.15 安装可信任的SSL证书
- Flying-Saucer使用HTML或者FTL(Freemarker模板)生成PDF
- 全国计算机一级学科博士点,一级学科博士点高校排名
- 中秋节后如何有面子的带女票回家?
- Java有序数组——原地去重——不使用额外空间
- LOG4J2-MDC-全链路跟踪等功能研究
- 按F12,你真的会准确定位前后端问题吗?