Planning with Goal-Conditioned Policies读书笔记
本文主要解决高维问题(比如image state)里的goal-planning问题。用temporal difference models(TDMs)得到goal-conditioned value function,可以作为goal reachable的衡量。在planning的时候,目标是使sub-goal序列的reachable尽可能大,并且最后一个sub-goal是最终的goal即可。
sub-goal选取可以采用cross entropy method(CEM),但是高维空间的选择太多,直接用CEM是不可行的,本文通过先学习一个VAE,再在latent空间中做planning
V⃗(s,z,t,g)=[Vi]′\vec{V}(s,z,t,g)=[V_i]' V(s,z,t,g)=[Vi]′
where Vi=V(s,ψ(zi),ti)V_i = V(s,\psi(z_i), t_i)Vi=V(s,ψ(zi),ti) and ψ(z)=arg maxg′pθ(g′∣z)\psi(z) = \argmax_{g'} p_\theta(g'|z)ψ(z)=g′argmaxpθ(g′∣z)
目标是LLEAP(z)=∥V⃗∥−λ∑k=1Klogp(zk)L_{LEAP}(z)=\Vert \vec{V} \Vert - \lambda \sum_{k=1}^K \mathop{log} p(z_k)LLEAP(z)=∥V∥−λ∑k=1Klogp(zk)
每次到达第一个sub-goal后,再做re-planning
Planning with Goal-Conditioned Policies读书笔记相关推荐
- 《Cognitive Mapping and Planning for Visual Navigation》读书笔记
原文链接:Cognitive Mapping and Planning for Visual Navigation 他山之石:学界 | 谷歌提交新论文提出认知型地图构建器和规划器:同时应对视觉导航的几 ...
- Testing Process - 读书笔记
看到 Wikipedia 上面有一篇对于软件测试的综述,挺有总结性,做下读书笔记. Wikipedia 的这篇文章,可以通过下面的 URL 访问: http://en.wikipedia.org/wi ...
- 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq
文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...
- [原创]Maven实战-读书笔记
Maven读书笔记 Maven读书笔记 依赖 快捷键:Alt+Shift+X M 使用ArcheType来创建Maven项目骨架: Maven中坐标的定义 依赖范围 依赖传递 依赖调解 可选依赖 ...
- 敏捷个人:提供更多文档下载,并转载一篇敏捷个人读书笔记
这两周一直忙着OpenExpressApp的自动化测试支持了,对于敏捷个人最近在思考作为新手如何学习的问题,后期我会写篇blog与大家分享一下.在敏捷个人项目中我发布了敏捷个人-认识自我,管理自我.p ...
- 读书笔记--Android Gradle权威指南(上)
本篇文章已授权微信公众号 dasu_Android(大苏)独家发布 最近看了一本书<Android Gradle 权威指南>,对于 Gradle 理解又更深了,但不想过段时间就又忘光了,所 ...
- 考试全程指导读书笔记1 -Chap1 信息系统基础
考试全程指导读书笔记 1 Chap1 信息系统基础 1.1 霍尔提出的系统方法的三维结构体系:霍尔三维结构 逻辑维.时间维.知识维组成的立体空间结构: 逻辑维:7个步骤:明确问题.系统指标设计.系 ...
- 小啊呜产品读书笔记001:《邱岳的产品手记-07》第13讲 无用却必要:产品规划【上】 第14讲 留白与节奏:产品规划【下】
小啊呜产品读书笔记001:<邱岳的产品手记-07>第13讲 无用却必要:产品规划[上] & 第14讲 留白与节奏:产品规划[下] 一.今日阅读计划 二.泛读&知识摘录 1. ...
- Oracle 19c VLDB and Partitioning Guide 第5章:管理和维护基于时间的信息 读书笔记
本文为Oracle 19c VLDB and Partitioning Guide第5章Managing and Maintaining Time-Based Information的读书笔记. Or ...
- 《自律100天,穿越人生盲点》读书笔记
大家好,我是烤鸭: <自律100天,穿越人生盲点>,读书笔记. 第一章 "自律100天"的华丽开启 第一节 "自律100天"的底层逻辑 习惯 ...
最新文章
- python 面板数据分析_科学网—Python中的结构化数据分析利器-Pandas简介 - 郑俊娟的博文...
- 程序员必须知道的几个Git代码托管平台(转)
- 【其它】我博客的个性化代码
- layui table 分页 记住之前勾选的数据
- 部署及配置Lync Server 2013存档功能
- Linux光盘检测,qpxtool
- python读取数据库绘图_获取博客积分排名,存入数据库,读取数据进行绘图(python,selenium,matplotlib)...
- Python网页分析,分析网站的日志数据
- python缩进问题idle_Python IDLE中的缩进问题
- java与数据库连接的几个步骤
- win7系统不能加入工作组计算机,技术员教你解决win7系统工作组计算机无法访问的修复办法...
- Spring Boot拦截器配置拦截登陆
- Maven安装教程配置
- MikuMikuDance V7.39 汉化版
- cdr添加节点快捷键_CorelDRAW常用热键|cdr快捷键大全
- 抱歉,当前存在网络问题或服务器繁忙错误代码:20003问题解决方法
- JAVA读取Excel行数问题
- Unity 实现圆圈调节
- 损失函数,mse,cee
- 天没有塌下来,这里有GitHub之外的五个最佳选择