• 论文题目:Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods

所解决的问题?

  将策略搜索方法用于直升机控制(外环控制)。并建立了一个对所学得的model鲁棒性更强的框架。

背景

  传统的基于模型的强化学习算法make a certainty equivalence assumption on their learned models,然后使用动态规划的算法进行求解,然而将其用于实际问题还是会存在许多问题:

  1. 实际问题状态观测通常是非完美的,是POMDP问题。
  2. Physical Systems 通常具有较高维度的状态空间,存在维度灾难问题(curse of dimensionality)。并且不管你使用何种学习算法,其都不能学习到控制系统的微妙之处,因此我们期望控制算法对undermodeling(model bias)具有一定的鲁棒性。
  3. 在实际的问题中采样成本比较高。算法需要权衡探索和利用的关系,用于最大程度减少采样。

所采用方法

modeling

控制器

  控制器用的PD和贝叶斯优化什么的,作者在总结中提到了将策略搜索用于内层循环,也就是Dyna框架。

  感兴趣的看原文吧,我已经看地晕晕地。看早些年的论文经常都是看得不明不白。

【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制相关推荐

  1. [论文]基于强化学习的无模型水下机器人深度控制

    基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...

  2. 1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器人要如何完成这样一个动作? 我们一般会基于强化学习,在仿真环境中进行模拟训练. 这时,如果在一台机器的CPU环境下进行模拟训练,那么需要 ...

  3. 智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型...

    原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型 国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...

  4. 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型

    国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%.其中滴滴共有四篇论文入选 KDD 2018,涵 ...

  5. 基于强化学习的图像配准 - Image Registration: Reinforcement Learning Approaches

    配准定义 给定参考图像 I_f 和浮动图像 I_m ,所谓的配准就是寻找一个图像变换T,将浮动图像I_m变换到和 I_f 相同的坐标空间下,使得两个图像中对应的点处于同一坐标下,从而达到信息聚合的目的 ...

  6. 基于强化学习的质量AI在淘系互动业务的实践之路

    导读:AI人工智能的概念由来已久,因为alphago在围棋领域击败李世石掀起了全世界范围内的AI热潮,最近又随着DeepMind破解蛋白质折叠难题这一诺奖级成果再次让我们发现AI已经进化到了如此强大的 ...

  7. 基于强化学习的自动化剪枝模型

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨AI科技评论 编辑丨极市平台 导读 GitHub上最新开源的一 ...

  8. 华为诺亚ICLR 2020满分论文:基于强化学习的因果发现算法

    2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...

  9. 【实践】基于强化学习的 Contextual Bandits 算法在推荐场景中的应用

    文章作者:杨梦月.张露露 内容来源:滴滴科技合作 出品平台:DataFunTalk 导读:本文是对滴滴 AI Labs 和中科院大学联合提出的 WWW 2020 Research Track 的 Or ...

  10. 【强化学习与机器人控制论文 2】基于强化学习的五指灵巧手操作

    基于强化学习的五指灵巧手操作 1. 引言 2. 论文解读 2.1 背景 2.2 论文中所用到的强化学习方法 2.3 实验任务和系统 2.4 仿真到实物的迁移 2.5 分布式RL训练--从状态中学到控制 ...

最新文章

  1. OpenCV3.3中主成分分析(Principal Components Analysis, PCA)接口简介及使用
  2. 计算机网络实验仿真系统设计,计算机网络实验课程仿真系统平台的研究与设计...
  3. CentOS VS Ubuntu,谁才是更好的 Linux 版本?
  4. 利用envi对landsat8数据进行处理
  5. RE2正则表达式引擎资料
  6. 高颜值的故宫介绍html源码
  7. Namomo Spring Camp Div2 Week1 - 第一次打卡
  8. visio studio调试 字符串断点
  9. Vim 可视化模式入门
  10. 峰值信噪比PSNR~均方差MSE matlab实现
  11. idea登录页面ajax验证,IDEA如何实现登录注册页面 IDEA实现登录注册页面代码示例...
  12. php 生成电话名片二维码
  13. paypal android sdk,Android Paypal SDK错误:商家不接受此类付款
  14. Aspect基础使用方法
  15. 2021年全国大学生计算机能力挑战赛(Java)决赛试题代码(外加部分试题)
  16. foxmai邮件服务器pop,全球邮企业邮箱Foxmail POP3/IMAP协议设置方法
  17. sql根据出生日期计算当前年龄 函数TIMESTAMPDIFF()
  18. 软件(程序)编写通法
  19. 超详细markdown语法和typora教程
  20. Android 音视频开发实践系列-04-Android WebRTC推流到SRS服务器实现直播功能

热门文章

  1. lesson6 DAAD转换与单片机接口
  2. 静态路由实现路由过滤
  3. linux安装mysql配置,linux安装mysql,配置mysql文件
  4. Tomcat详解(二)——tomcat安装与配置
  5. Linux(CentOS7)虚拟机安装详解
  6. 使用Popup窗口创建无限级Web页菜单(4)
  7. hdu - 5033 - Building(单调栈)
  8. 解读2016之Golang篇:极速提升,逐步超越
  9. [转]如何:定义和处理 SOAP 标头
  10. 在vs2010中mfc,C++的一些小经验