17种深度强化学习算法用Pytorch实现(附链接)
来源:新智元
本文约1300字,建议阅读5分钟。
本文为你介绍一个用PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法。
[ 导读 ]深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个用PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法。
已实现的算法包括:
- Deep Q Learning (DQN) (Mnih et al. 2013)
- DQN with Fixed Q Targets(Mnih et al. 2013)
- Double DQN (DDQN) (Hado van Hasselt et al. 2015)
- DDQN with Prioritised Experience Replay (Schaul et al. 2016)
- Dueling DDQN(Wang et al. 2016)
- REINFORCE(Williams et al. 1992)
- Deep Deterministic Policy Gradients (DDPG) (Lillicrap et al. 2016 )
- Twin Delayed Deep Deterministic Policy Gradients (TD3) (Fujimoto et al. 2018)
- Soft Actor-Critic (SAC & SAC-Discrete) (Haarnoja et al. 2018)
- Asynchronous Advantage Actor Critic (A3C) (Mnih et al. 2016)
- Syncrhonous Advantage Actor Critic (A2C)
- Proximal Policy Optimisation (PPO) (Schulman et al. 2017)
- DQN with Hindsight Experience Replay (DQN-HER) (Andrychowicz et al. 2018)
- DDPG with Hindsight Experience Replay (DDPG-HER) (Andrychowicz et al. 2018 )
- Hierarchical-DQN (h-DQN) (Kulkarni et al. 2016)
- Stochastic NNs for Hierarchical ReinforcementLearning (SNN-HRL) (Florensa et al. 2017)
- Diversity Is All You Need (DIAYN) (Eyensbach et al. 2018)
- Bit Flipping 游戏 (Andrychowicz et al. 2018)
- Four Rooms 游戏 (Sutton et al. 1998)
- Long Corridor 游戏 (Kulkarni et al. 2016)
- Ant-{Maze, Push, Fall} (Nachum et al. 2018)
存储库的高级结构是:
├── agents ├── actor_critic_agents ├── DQN_agents ├── policy_gradient_agents └── stochastic_policy_search_agents
├── environments
├── results └── data_and_graphs
├── tests
├── utilities └── data structures
git clone https://github.com/p-christ/Deep_RL_Implementations.git
cd Deep_RL_Implementations conda create --name myenvname
y
conda activate myenvname pip3 install -r requirements.txt python Results/Cart_Pole.py
GitHub地址:
https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch
编辑:于腾凯
校对:龚力
17种深度强化学习算法用Pytorch实现(附链接)相关推荐
- openssl 添加自定义算法_GitHub:用PyTorch实现17种深度强化学习算法
[新智元导读]深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一.本文推荐一个用 PyTorch 实现了 17 种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度 R ...
- 【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 来源:深度强化学习实验室 作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...
- 两种深度强化学习算法在网络调度上的应用与优化(DQN A3C)
首先给出论文地址和代码, Reinforcement Learning Based Scheduling Algorithm for Optimizing Age of Information in ...
- 【招聘推荐】启元世界招聘深度强化学习算法工程师
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑.排版:DeepRL 深度强化学习算法工程师 ...
- 近端策略优化深度强化学习算法
PPO:Proximal Policy Optimization Algorithms,其优化的核心目标是: ppo paper 策略梯度 以下是马尔可夫决策过程MDP的相关基础以及强化学习的优化目标 ...
- 深度强化学习算法调参
深度强化学习调参技巧:以D3QN.TD3.PPO.SAC算法为例 这个参考链接. 如何选择深度强化学习算法? 参考链接. 影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现) 主要 ...
- 基于值的深度强化学习算法
目录 DQN2013 -- Playing Atari with Deep Reinforcement Learning DQN2015 -- Human-level control through ...
- 学界 | 量化深度强化学习算法的泛化能力
来源:AI 科技评论 OpenAI 近期发布了一个新的训练环境 CoinRun,它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标,而且还可以解决一项长期存在于强化学习中的疑难问题--即使是 ...
- 【假期学习计划】深度强化学习算法与应用培训班
深度强化学习应用与实战培训班内容 一.强化学习概述 二.马尔科夫决策过程 1.马尔可夫性 2.马尔可夫决策过程 3.策略与价值 4.最优化原理 5.MDPs扩展 三.动态规划 1.动态规划 2.价值迭 ...
最新文章
- WPF判断两个时间大小避免误差
- ZOJ3261并查集逆向处理
- 初等数论--二次剩余与二次同余方程--既约剩余系中二次剩余的个数
- hdu 1147(线段相交)
- linux-centos连网
- OpenCV中的「透视变换 / 投影变换 / 单应性」—cv.warpPerspective、cv.findHomography
- POJ2155 Matrix二维线段树经典题
- Android获取CPU信息(CPU名字和主频)
- mstsc 中文打不了_伟大的中文!(妙不可言)
- 小米手机插上android找不到驱动,小米手机连接电脑不显示文件怎么办?
- 华为手机如何更新鸿蒙系统_华为鸿蒙系统怎么升级?升级鸿蒙系统步骤
- Mono.Cecil FAQ文档翻译
- 计算机游戏cpu,千元级战斗机游戏CPU体验,大学4年够你天天开黑了
- 我自己制作的导航页网站,源码分享~
- 机器学习数据分析极简思路及sklearn算法小试
- django问题研讨:由master=true引发的奇怪现象
- APP运营如何实现流量变现,获取更高收益?
- html使用highcharts绘制饼图,饼图.html · 赵文博/Highcharts - Gitee.com
- 2021CCPC上海省赛题解ABCDEGHIJK
- 计算机科学与技术一级学科硕士点,计算机科学与技术一级学科(硕士)、软件工程一级学科(硕士)和计算机技术、软件工程专业硕士学位授权点通过专家评审...
热门文章
- 大专生自学Java到找到工作的过程
- HTML和javascript 第二天
- 好雨云帮近期问答集锦(1.16~2.5)
- 使用 PHP 构建的 Web 应用如何避免 XSS 攻击
- 微信小店 API 手册
- linux RedHat AS5(x86_64)安装oracle10g
- 收藏:SqlServer
- Guidance Package Manager button doesn’t appear in the VS menu
- c语言编程所得票数,C语言编程求1X2X3····Xn所得的数末尾有多少个零
- java怎么创建子程序_JVM执行子程序