【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制

论文题目：Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods

所解决的问题？

将策略搜索方法用于直升机控制(外环控制)。并建立了一个对所学得的model鲁棒性更强的框架。

背景

传统的基于模型的强化学习算法make a certainty equivalence assumption on their learned models，然后使用动态规划的算法进行求解，然而将其用于实际问题还是会存在许多问题：

实际问题状态观测通常是非完美的，是POMDP问题。
Physical Systems 通常具有较高维度的状态空间，存在维度灾难问题(curse of dimensionality)。并且不管你使用何种学习算法，其都不能学习到控制系统的微妙之处，因此我们期望控制算法对undermodeling(model bias)具有一定的鲁棒性。
在实际的问题中采样成本比较高。算法需要权衡探索和利用的关系，用于最大程度减少采样。

所采用方法

modeling

控制器

控制器用的PD和贝叶斯优化什么的，作者在总结中提到了将策略搜索用于内层循环，也就是Dyna框架。

感兴趣的看原文吧，我已经看地晕晕地。看早些年的论文经常都是看得不明不白。

【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制相关推荐

[论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制摘要介绍问题公式 A.水下机器人的坐标框架 B.深度控制问题马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
1个GPU几分钟搞定强化学习训练，谷歌新引擎让深度学习提速1000倍丨开源
博雯发自凹非寺量子位报道 | 公众号 QbitAI 机器人要如何完成这样一个动作? 我们一般会基于强化学习,在仿真环境中进行模拟训练. 这时,如果在一台机器的CPU环境下进行模拟训练,那么需要 ...
智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型...
原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...
滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型
国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%.其中滴滴共有四篇论文入选 KDD 2018,涵 ...
基于强化学习的图像配准 - Image Registration: Reinforcement Learning Approaches
配准定义给定参考图像 I_f 和浮动图像 I_m ,所谓的配准就是寻找一个图像变换T,将浮动图像I_m变换到和 I_f 相同的坐标空间下,使得两个图像中对应的点处于同一坐标下,从而达到信息聚合的目的 ...
基于强化学习的质量AI在淘系互动业务的实践之路
导读:AI人工智能的概念由来已久,因为alphago在围棋领域击败李世石掀起了全世界范围内的AI热潮,最近又随着DeepMind破解蛋白质折叠难题这一诺奖级成果再次让我们发现AI已经进化到了如此强大的 ...
基于强化学习的自动化剪枝模型
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源丨AI科技评论编辑丨极市平台导读 GitHub上最新开源的一 ...
华为诺亚ICLR 2020满分论文：基于强化学习的因果发现算法
2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...
【实践】基于强化学习的 Contextual Bandits 算法在推荐场景中的应用
文章作者:杨梦月.张露露内容来源:滴滴科技合作出品平台:DataFunTalk 导读:本文是对滴滴 AI Labs 和中科院大学联合提出的 WWW 2020 Research Track 的 Or ...
【强化学习与机器人控制论文 2】基于强化学习的五指灵巧手操作
基于强化学习的五指灵巧手操作 1. 引言 2. 论文解读 2.1 背景 2.2 论文中所用到的强化学习方法 2.3 实验任务和系统 2.4 仿真到实物的迁移 2.5 分布式RL训练--从状态中学到控制 ...

【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制

所解决的问题？

背景

所采用方法

modeling

控制器

【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制相关推荐

最新文章

热门文章