深度强化学习控制移动机器人
联系方式:860122112@qq.com
一、实验目的
使用深度强化学习控制移动机器人在复杂环境中避障、收集物品到指定点。所用到的算法包括DQN、Deuling-DDQN、A3C、DDPG、NAF。
二、环境和模型
1. 实验环境:
ROS、Gazebo
2. 移动机器人模型
安装有Kinect的Pioneer3移动机器人
三、训练
机器人从Kinect获取State,通过reward训练出合适的Action。
问题:
- 在Atari或Mujoco环境下训练网络时,可以读取一帧State然后暂停模拟器,训练一次网络后再启动模拟器执行Action。而在ROS/Gazebo或者真实环境下不可能暂停,控制器和传感器时刻都在变化,所以对实时性要求非常高,也就是说当你读取一帧State,训练一次网络后还未执行Action,此时的State已经发生了变化,这就不满足强化学习的马尔可夫性了。
- 在Atari或Mujoco里可以对环境变化的模拟进行加速。而ROS/Gazebo或者真实环境下不可能做到,这就造成了收集样本的速度非常慢,想训练好一个网络势必会比在Atari或Mujoco花费更多的时间。
解决方案:
多移动机器人异步训练。(相同思想的论文Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates)
即,多个移动机器人(collector threads)负责收集样本,一个training thread负责训练网络。
四、实验视频
移动机器人需要避开障碍物(或其他机器人)同时收集绿色的方块到达出口。
src="http://player.youku.com/embed/XMjgxNDc1NzE0MA==" width="800" height="500">
部分代码:https://github.com/DajunZhou/DRL_P3K
深度强化学习控制移动机器人相关推荐
- 【论文笔记】基于分层深度强化学习的移动机器人导航方法
目录 摘要 关键词 0 引言 1 基于分层深度强化学习的导航方法 1.1 模型框架 1.1.1 避障控制模型 1.1.2 目标驱动控制模型 1.1.3 行为选择模型 1.2 模型训练 2 实验分析 2 ...
- 人群环境中基于深度强化学习的移动机器人避障算法
摘要: 为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法.首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人 ...
- 深度强化学习控制六足机器人移动个人学习笔记(一)
深度强化学习控制六足机器人移动个人学习笔记(一) 注意事项 ubuntu18对应的ros版本不是Kinect gym算法执行中部分包要求Python不低于3.6 conda虚拟环境安装gym-gaze ...
- 深度强化学习下移动机器人导航避障
前言 这篇博客不是试图去创造轮子,而是运用现有的技术更好的解决问题,或者说仅仅是解决问题,同时也是对自己现阶段工作记录,以便日后查看. 一.运行环境 macOS High Sierra 10.13.6 ...
- 汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实
作者 | 陈彩娴 深度强化学习的故事,可以追溯到2015年: 当时,位于英国伦敦的一家小公司 DeepMind 在<Nature>上发表了一篇文章"Human-level con ...
- 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论 作者 | 陈彩娴 深度强 ...
- 深度强化学习(资源篇)(更新于2020.11.22)
理论 1种策略就能控制多类模型,华人大二学生提出RL泛化方法,LeCun认可转发 | ICML 2020 AlphaGo原来是这样运行的,一文详解多智能体强化学习的基础和应用 [DeepMind总结] ...
- 首个深度强化学习AI,能控制核聚变,成功登上《Nature》
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 最近,DeepMind 开发出了世界上第一个深度强化学习 AI ,可以在模拟环境和真正的核聚变装置中实现对等离子体的自主控制. ...
- DeepMind成功使用深度强化学习技术完美控制核聚变反应堆!
本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处. 本文约1400字,建议阅读5分钟 DeepMind开发出世界上第一个深度强化学习AI. DeepMind在蛋白质折叠问题上 ...
最新文章
- linux 阶段作业领导者,Linux入职基础-5.22_命令ps显示进程状态(应用实战6)
- 随身风暴英雄接入云信,玩家即时通讯轻松搞定
- 比MySQL快6倍 深度解析国内首个云原生数据库POLARDB的“王者荣耀”
- 小师妹学JVM之:深入理解JIT和编译优化-你看不懂系列
- 在虚机上安装WIN2003
- 深入浅出《设计模式》之工厂模式(C++)
- linux龙芯自动挂载u盘,Windows Subsystem for Linux (WSL)挂载移动硬盘U盘
- 建立简单的VLAN通信
- 堆排序,为什么升序排列要建大堆,降序排列要建小堆
- 不可忽视的MySQL字符集
- 在Unity中实现屏幕空间反射Screen Space Reflection(2)
- 应用Rational工具简化基于J2EE项目(五)架构与设计
- 【mysql】mysql常用语句
- pdf 分形 张济忠_清华大学出版社-图书详情-《分形(第2版)》
- 数学建模之微分方程模型详解
- OpenLinux平台学习(参照Neoway N720/N75 系列产品)
- java中object是什么_Java中的Object是什么?
- 电子发票撤销 java_已确认的发票如何撤销
- java rnn生成古诗_Char-RNN生成古诗
- 一个RecyclerView实现QQ空间相册布局
热门文章
- %@ taglib uri=“http://java.sun.com/jsp/jstl/core” prefix=“c”% 报错!!!!JSP
- 分数加减乘除混合运算带答案_人教版小学六年级分数乘除法和混合运算专项训练(含答案)...
- 计算机网络八:网线种类(同轴电缆、双绞线、光缆)
- 蓝桥杯C/C++VIP试题每日一练之回形取数
- opencv包络圆_砂土地基上圆形浅基础三维破坏包络面的理论研究
- win7怎么调屏幕自动休眠时间
- 出门问问智能音箱发布,Tichome为什么能活到最后?
- 青云系列网络中控HDMI视频矩阵在视频会议中的作用
- Java代码简单模仿银行ATM功能
- 同步助手64位 v3.2.7.2 官方最新版