本文主要解决高维问题(比如image state)里的goal-planning问题。用temporal difference models(TDMs)得到goal-conditioned value function,可以作为goal reachable的衡量。在planning的时候,目标是使sub-goal序列的reachable尽可能大,并且最后一个sub-goal是最终的goal即可。
sub-goal选取可以采用cross entropy method(CEM),但是高维空间的选择太多,直接用CEM是不可行的,本文通过先学习一个VAE,再在latent空间中做planning
V⃗(s,z,t,g)=[Vi]′\vec{V}(s,z,t,g)=[V_i]' V(s,z,t,g)=[Vi​]′
where Vi=V(s,ψ(zi),ti)V_i = V(s,\psi(z_i), t_i)Vi​=V(s,ψ(zi​),ti​) and ψ(z)=arg max⁡g′pθ(g′∣z)\psi(z) = \argmax_{g'} p_\theta(g'|z)ψ(z)=g′argmax​pθ​(g′∣z)
目标是LLEAP(z)=∥V⃗∥−λ∑k=1Klogp(zk)L_{LEAP}(z)=\Vert \vec{V} \Vert - \lambda \sum_{k=1}^K \mathop{log} p(z_k)LLEAP​(z)=∥V∥−λ∑k=1K​logp(zk​)
每次到达第一个sub-goal后,再做re-planning

Planning with Goal-Conditioned Policies读书笔记相关推荐

  1. 《Cognitive Mapping and Planning for Visual Navigation》读书笔记

    原文链接:Cognitive Mapping and Planning for Visual Navigation 他山之石:学界 | 谷歌提交新论文提出认知型地图构建器和规划器:同时应对视觉导航的几 ...

  2. Testing Process - 读书笔记

    看到 Wikipedia 上面有一篇对于软件测试的综述,挺有总结性,做下读书笔记. Wikipedia 的这篇文章,可以通过下面的 URL 访问: http://en.wikipedia.org/wi ...

  3. 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq

    文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...

  4. [原创]Maven实战-读书笔记

    Maven读书笔记  Maven读书笔记 依赖 快捷键:Alt+Shift+X M 使用ArcheType来创建Maven项目骨架: Maven中坐标的定义 依赖范围 依赖传递 依赖调解 可选依赖 ...

  5. 敏捷个人:提供更多文档下载,并转载一篇敏捷个人读书笔记

    这两周一直忙着OpenExpressApp的自动化测试支持了,对于敏捷个人最近在思考作为新手如何学习的问题,后期我会写篇blog与大家分享一下.在敏捷个人项目中我发布了敏捷个人-认识自我,管理自我.p ...

  6. 读书笔记--Android Gradle权威指南(上)

    本篇文章已授权微信公众号 dasu_Android(大苏)独家发布 最近看了一本书<Android Gradle 权威指南>,对于 Gradle 理解又更深了,但不想过段时间就又忘光了,所 ...

  7. 考试全程指导读书笔记1 -Chap1 信息系统基础

    考试全程指导读书笔记 1 Chap1 信息系统基础 1.1   霍尔提出的系统方法的三维结构体系:霍尔三维结构 逻辑维.时间维.知识维组成的立体空间结构: 逻辑维:7个步骤:明确问题.系统指标设计.系 ...

  8. 小啊呜产品读书笔记001:《邱岳的产品手记-07》第13讲 无用却必要:产品规划【上】 第14讲 留白与节奏:产品规划【下】

    小啊呜产品读书笔记001:<邱岳的产品手记-07>第13讲 无用却必要:产品规划[上] & 第14讲 留白与节奏:产品规划[下] 一.今日阅读计划 二.泛读&知识摘录 1. ...

  9. Oracle 19c VLDB and Partitioning Guide 第5章:管理和维护基于时间的信息 读书笔记

    本文为Oracle 19c VLDB and Partitioning Guide第5章Managing and Maintaining Time-Based Information的读书笔记. Or ...

  10. 《自律100天,穿越人生盲点》读书笔记

    大家好,我是烤鸭:     <自律100天,穿越人生盲点>,读书笔记. 第一章 "自律100天"的华丽开启 第一节 "自律100天"的底层逻辑 习惯 ...

最新文章

  1. python 面板数据分析_科学网—Python中的结构化数据分析利器-Pandas简介 - 郑俊娟的博文...
  2. 程序员必须知道的几个Git代码托管平台(转)
  3. 【其它】我博客的个性化代码
  4. layui table 分页 记住之前勾选的数据
  5. 部署及配置Lync Server 2013存档功能
  6. Linux光盘检测,qpxtool
  7. python读取数据库绘图_获取博客积分排名,存入数据库,读取数据进行绘图(python,selenium,matplotlib)...
  8. Python网页分析,分析网站的日志数据
  9. python缩进问题idle_Python IDLE中的缩进问题
  10. java与数据库连接的几个步骤
  11. win7系统不能加入工作组计算机,技术员教你解决win7系统工作组计算机无法访问的修复办法...
  12. Spring Boot拦截器配置拦截登陆
  13. Maven安装教程配置
  14. MikuMikuDance V7.39 汉化版
  15. cdr添加节点快捷键_CorelDRAW常用热键|cdr快捷键大全
  16. 抱歉,当前存在网络问题或服务器繁忙错误代码:20003问题解决方法
  17. JAVA读取Excel行数问题
  18. Unity 实现圆圈调节
  19. 损失函数,mse,cee
  20. 天没有塌下来,这里有GitHub之外的五个最佳选择

热门文章

  1. 阿里云推出云呼叫中心,助力企业强势打造端到端的一站式热线服务
  2. 产品思维30讲(梁宁)-- 整体
  3. PHP:编写标准体重计算器
  4. python爬虫国家企业信息网_国家企业信用信息公示系统爬虫
  5. python hist alpha_matplotlib可视化篇hist()--直方图
  6. Qt报错 error: C1083
  7. 超详细总结:python的转义字符及用法
  8. 如何添加二级域名(图文超级详细)
  9. JavaScript框架的四个时代
  10. Deepin20(1002版本)安装LBP2900打印机