写在最前:科研小废物一枚,在搞强化学习+无人机,以下内容均为我的导师在github上给我找到的开源项目/工具包,仅供参考。P.s:目前只是做一个汇总,并没有按个安装与尝试,DDDD。如果有类似研究方向的老铁请务必留言,交流学习。

1.引导式策略搜索

此代码是引导策略搜索算法和基于 LQG 的轨迹优化的重新实现,旨在帮助其他人理解、重用和构建现有工作。它包括通过 ROS 为 PR2 机器人提供的完整机器人控制器和传感器接口,以及用于 Box2D 和 MuJoCo 中模拟代理的接口。源代码可在GitHub 上获得。

GitHub - cbfinn/gps: Guided Policy Search

相关论文:

  • Sergey Levine*, Chelsea Finn*, Trevor Darrell, Pieter Abbeel. End-to-End Training of Deep Visuomotor Policies. JMLR 2016. [pdf]
  • William Montgomery, Sergey Levine. Guided Policy Search as Approximate Mirror Descent. NIPS 2016. [pdf]
  • Marvin Zhang, Zoe McCarthy, Chelsea Finn, Sergey Levine, Pieter Abbeel. Learning Deep Neural Network Policies with Continuous Memory States. ICRA 2016. [pdf]
  • Chelsea Finn, Xin Yu Tan, Yan Duan, Trevor Darrell, Sergey Levine, Pieter Abbeel. Deep Spatial Autoencoders for Visuomotor Learning. ICRA 2016. [pdf]
  • Sergey Levine, Nolan Wagener, Pieter Abbeel. Learning Contact-Rich Manipulation Skills with Guided Policy Search. ICRA 2015. [pdf]
  • Sergey Levine, Pieter Abbeel. Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics. NIPS 2014. [pdf]

2.Minimal Policy Search是Matlab的工具箱,提供RL算法的实现。该存储库最初专注于策略搜索(因此得名),尤其是 REPS 和策略梯度,但现在它包含多种算法(PPO、TRPO、DQN、DPG、FQI ......)。它还具有多目标 RL 算法、基准 MDP 和优化问题,以及常见的策略类。

GitHub - sparisi/mips: Minimal Policy Search Toolbox

3.Pilco软件包V0.9:该包实现了 PILCO RL 策略搜索框架。学习框架可以应用于具有连续状态和控制/动作的 MDP,并且基于动态的概率建模和用于政策评估和改进的近似贝叶斯推理。

GitHub - ICL-SML/pilco-matlab: PILCO policy search framework (Matlab version)

参考文献:

MP Deisenroth 和 CE Rasmussen:PILCO:A Data-Efficient and Model-based Approach to Policy Search (ICML 2011) MP Deisenroth:Efficient Reinforcement Learning Using Gaussian Processes (KIT Scientific Publishing, 2010)

4.策略搜索的变分推理(Variational Inference by Policy Search)

策略搜索的变分推理 (VIPS) 是一种学习高斯混合模型近似的方法,用于推理(例如采样)的难处理概率密度函数。
VIPS 不需要有关梯度或归一化常数的知识。优化利用来自策略搜索(因此得名)的见解,通过使用信息几何信任区域以受控方式改进近似值,以实现更好的稳定性和探索性。

https://github.com/OlegArenz/VIPS

参考文献:

Arenz, O.; Zhong, M.; Neumann, G. Efficient Gradient-Free Variational Inference using Policy Search. Proceedings of the 35th International Conference on Machine Learning. 2018.

5.深度MPC

策略搜索和深度神经网络的结合有望实现各种决策任务的自动化。模型预测控制 (MPC) 通过利用系统的动态模型并在较短的规划范围内在线解决优化问题,为机器人控制任务提供稳健的解决方案。策略搜索和模型预测控制 (MPC) 是机器人控制的两种不同范式:策略搜索具有使用经验数据自动学习复杂策略的优势,而 MPC 可以使用模型和轨迹优化提供最佳控制性能。一个开放的研究问题是如何利用和结合两种方法的优势。

GitHub - AYUSH-ISHAN/Deep-RL-Policy-Search-for-MPC: This repo is related to UAV Confrontation using Heirarchial MultiAgent Reinforcement Learning

参考文献:

[1.] Y. Song and D. Scaramuzza, "Policy Search for Model Predictive Control with Application to Agile Drone Flight," IEEE Transaction on Robotics (T-RO), 2021.
[2.] Y. Song and D. Scaramuzza, "Learning High-Level Policies for Model Predictive Control," IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, 2020.
[3.] Aravind Venugopal 1 , Elizabeth Bondi 2 , Harshavardhan Kamarthi 3 , Keval Dholakia 1 , Balaraman Ravindran 1 , Milind Tambe 2 Reinforcement Learning for Unified Allocation and Patrolling in Signaling Games with Uncertainty
[4.] Baolai Wang , Shengang Li ,Xianzhong Gao ,and Tao Xie UAV Swarm Confrontation Using Hierarchical Multiagent Reinforcement Learning
[5.] Brandon Amos, J. Zico Kolter OptNet: Differentiable Optimization as a Layer in Neural Networks
[6.] Jacopo Panerati (1 and 2), Hehui Zheng (3), SiQi Zhou (1 and 2), James Xu (1), Amanda Prorok (3), Angela P. Schoellig (1 and 2) ((1) University of Toronto Institute for Aerospace Studies, (2) Vector Institute for Artificial Intelligence, (3) University of Cambridge) Learning to Fly -- a Gym Environment with PyBullet Physics for Reinforcement Learning of Multi-agent Quadcopter Control
[7.] Brandon Amos, Ivan Dario Jimenez Rodriguez, Jacob Sacks, Byron Boots, J. Zico Kolter Differentiable MPC for End-to-end Planning and Control
[8.] Ahmad Taher Azar, Anis Koubaa, Nada Ali Mohamed, Habiba A. Ibrahim, Zahra Fathy Ibrahim, Muhammad Kazim, Adel Ammar, Bilel Benjdira, Alaa M. Khamis, Ibrahim A. Hameed and Gabriella Casalino : Drone Deep Reinforcement Learning: A Review

6.无人机深度强化学习自主避障算法项目

这是一个关于无人机深度强化学习自主避障算法的项目。整个工程包括静态环境避障和动态环境避障。在静态环境下,多智能体强化学习人工势场算法相结合。在动态环境下,该项目采用了扰动流场算法单智能体强化学习算法相结合的方式。

GitHub - ZYunfeii/UAV_Obstacle_Avoiding_DRL: This is a project about deep reinforcement learning autonomous obstacle avoidance algorithm for UAV.

7.具有时间注意的深度循环强化学习的无人机避障

GitHub - abhiksingla/UAV_obstacle_avoidance_controller: UAV Obstacle Avoidance using Deep Recurrent Reinforcement Learning with Temporal Attention

该项目中致谢的Atari中的深度循环注意强化学习

GitHub - yilunc2020/Attention-DQN: Deep Recurrent Attention Reinforcement Learning in Atari

8.深度强化学习无人机控制

这是一个基于深度强化学习的无人机控制系统,用 python (Tensorflow/ROS) 和 C++ (ROS) 实现。要对其进行测试,神经网络模型是端到端的,是 A3C 模型的非异步实现(https://arxiv.org/pdf/1602.01783.pdf),因为凉亭模拟器(gazebo)无法并行运行多个副本。训练是基于监督学习任务的预训练权重进行的,因为模拟器非常耗费资源并且训练非常耗时。

GitHub - tobiasfshr/deep-reinforcement-learning-drone-control: A drone control system based on deep reinforcement learning with Tensorflow and ROS

9.复杂行为的分层强化学习(无人机包)

GitHub - MickyDowns/deep-theano-rnn-lstm-car: Pack of Drones: Layered reinforcement learning (Q-learning w/ RNN) for complex "hunt" behaviors

10.学习飞行:具有强化学习的混合无人机的计算控制器设计

GitHub - eanswer/LearningToFly: [SIGGRAPH 2019] Learning to Fly: Computational Controller Design for Hybrid UAVs with Reinforcement Learning

参考文献:

Jie Xu, Tao Du, Michael Foshey, Beichen Li, Bo Zhu, Adriana Schulz, Wojciech Matusik

ACM Transactions on Graphics, 38(4) 42:1-42:12 (SIGGRAPH), 2019

This repository implements the code for the paper Learning to Fly: Computational Controller Design for Hybrid UAVs with Reinforcement Learning (SIGGRAPH 2019).

11.自主无人机深度强化学习的长期规划

在本文中,我们研究了一个基于现实生活中举行的无人机竞赛的长期规划方案。我们在 NeurIPS 2019 上为“无人机游戏:无人机赛车比赛”创建的框架上进行了这项实验。赛车环境是使用微软的 AirSim 无人机赛车实验室创建的。一个强化学习代理,在我们的例子中是一个模拟四旋翼,经过策略近端优化(PPO)算法训练,能够成功地与另一个运行经典路径规划算法的模拟四旋翼竞争。代理观察包括来自 IMU 传感器的数据、通过模拟获得的无人机 GPS 坐标和对手无人机 GPS 信息。在训练期间使用对手无人机 GPS 信息有助于处理复杂的状态空间,作为专家指导,可以实现高效稳定的培训过程。本文中进行的所有实验都可以在我们的 GitHub 存储库中找到并使用代码进行复制

GitHub - ugurkanates/NeurIRS2019DroneChallengeRL: Long-Term Planning with Deep Reinforcement Learning on Autonomous Drones

参考文献:

https://arxiv.org/abs/2007.05694

12.使用Tube的鲁棒模型预测控制

该存储库包括管模型预测控制 (tube-MPC)[1] 以及用 MATLAB 编写的通用模型预测控制 (MPC) 的示例。

GitHub - lucattycord/uav-tube-mpc

13.双引擎卫星固定翼无人机的模型预测控制设计

GitHub - Astik-2002/Design-of-a-model-predictive-control-for-a-twin-engine-micro-fixed-wing-UAV: The following project is an implementation of "Hakan Ülker, Cemal Baykara, Can Özsoy, "Design of MPCs for a fixed wing UAV", Aircraft Engineering and Aerospace Technology, https://doi.org/10.1108/AEAT-08-2015-0198".

参考文献:

The following project is an implementation of "Hakan Ülker, Cemal Baykara, Can Özsoy, "Design of MPCs for a fixed wing UAV", Aircraft Engineering and Aerospace Technology, Design of MPCs for a fixed wing UAV | Emerald Insight".

14.MPC(模型预测控制)+RL

MPC-GPS—强化学习算法控制无人机 - 知乎

模型预测控制(MPC)和基于模型的强化学习(Model-based RL)之间的联系是什么? - 知乎

无人机+强化学习开源项目、工具包汇总相关推荐

  1. 无人机+强化学习开源项目、工具包汇总(二)

    1.IEEE无人机竞赛2022 https://github.com/engcang/ieee_uav_2022 相关论文: E. Lee.D. Lee.H. Lim.S. Song 和 H. Myu ...

  2. python 换脸 github_人脸识别和换脸相关深度学习开源项目github汇总

    openface github:https://github.com/cmusatyalab/openface openface是一个基于深度神经网络的开源人脸识别系统.该系统基于谷歌的文章<F ...

  3. 【重磅整理】提前看287篇ICLR-2021 深度强化学习领域论文得分汇总列表

    深度强化学习实验室 来源:ICLR2021 编辑:DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S ...

  4. 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室 来源:整理自https: ...

  5. Android开源项目分类汇总-转载

    太长了,还是转载吧... 今天在看博客的时候,无意中发现了@Trinea在GitHub上的一个项目Android开源项目分类汇总,由于类容太多了,我没有一个个完整地看完,但是里面介绍的开源项目都非常有 ...

  6. Android开源项目分类汇总[转]

    Android开源项目分类汇总 如果你也对开源实现库的实现原理感兴趣,欢迎 Star 和 Fork Android优秀开源项目实现原理解析 欢迎加入 QQ 交流群:383537512(入群理由需要填写 ...

  7. 如何学习开源项目及Ceph的浅析

    摘要:开源技术的学习和采用确实存在着一定门槛,然而学习各种开源项目已经成为许多开发者不可回避的工作内容.那么,对于类似OpenStack的大型开源项目,开发者该如何着手,这里我们看章宇的分享. [编者 ...

  8. 2016年GitHub上史上最全的Android开源项目分类汇总

    以下内容为转载 版主原网址 http://itindex.net/detail/51896-github-android-开源 GitHub上史上最全的Android开源项目分类汇总 今天在看博客的时 ...

  9. Android 开源项目分类汇总(下)

    Android 开源项目分类汇总(下) 九.ScrollView Discrollview 支持滚动时 Item 淡入淡出,平移,缩放效果的 ScrollView 项目地址:https://githu ...

  10. Android系统(168)---Android 开源项目分类汇总

    Android开源项目分类汇总 原网址:https://blog.csdn.net/prince77qiqiqq/article/details/51338330 Android 开源项目第一篇--个 ...

最新文章

  1. Java中 Iterable 和 Iterator 的区别
  2. 一顿骚操作!我将 SQL 耗时从 30248.271s 优化到 0.001s
  3. confd_confd + Nacos | 无代码侵入的配置变更管理
  4. 【编译原理】学习LUA
  5. 一篇博客读懂设计模式之---工厂模式
  6. Java描述设计模式(04):抽象工厂模式
  7. Qt-按钮无文本显示
  8. vue、cnpm不是内部文件_UBoot链接文件 搞懂程序内部长什么样
  9. Element-UI-的登录页面_改进---Element-UI工作笔记006
  10. ASP.NET MVC 5 SmartCode Scaffolding for Visual Studio.Net
  11. 计算机 大文件查找,win7笔记本电脑如何快速查找大文件
  12. Sql Server系列:数据表操作
  13. 机器学习中的算法——决策树模型组合之随机森林与GBDT
  14. oracle sap 英克,中普审计软件内置350多个财务软件接口(新)-2015.9.16
  15. Springboot 集成帆软报表(finereport10.0)详细步骤
  16. Centos7安装elasticsearch7.14.0遇到问题(无法远程访问;内存小;bootstrap checks failed)
  17. cartographer源码解析(二)node_main.cc文件详解
  18. 关于android删除语音搜索功能的基本操作方法
  19. 天嵌TQ335X开发板学习-1
  20. 认证模式之Digest模式

热门文章

  1. w10系统 计算机快捷键大全,Win10电脑快捷键汇总_Win10系统快捷键大全_玩游戏网...
  2. 步道乐跑(最新版本)
  3. 怎么设置计算机键盘数字键,电脑右边的数字键不能用怎么办_电脑右边数字键盘用不了的修复方法...
  4. 兼容性视图html页面,浏览器兼容性视图设置在哪
  5. 将移动硬盘变为与系统硬盘等同的存在
  6. 《苹果Mac OS X 10.6 Snow Leopard雪豹操作系统8BT下载地址》
  7. MSP430学习笔记(一)--从点灯说起
  8. Java 计量单位换算 工具类
  9. python3爬虫实战-requests+beautifulsoup-爬取下载顶点网站的小说
  10. html怎么做彩虹渐变,PS彩虹怎么做?|渐变工具制作彩虹方法教程