背景:

官方给的simple_tag环境,障碍物位置是随机的,对于需要修改障碍物的初始位置,让其保持固定,对于障碍物的位置坐标进行设置。


修改内容:

找到simple_tag.py文件,在reset_world()函数中找到改语句

for i, landmark in enumerate(world.landmarks):landmark.state.p_pos = np.random.uniform(-0.9, +0.9, world.dim_p)landmark.state.p_vel = np.zeros(world.dim_p)`

这里是生成一个随机的初始坐标。将循环内的语句注释,改成下列(我设置的障碍物数量是3,所以设置3次)

for i, landmark in enumerate(world.landmarks):if not landmark.boundary:if i == 0:landmark.state.p_pos = np.array([-0.6,0.65])landmark.state.p_vel = np.zeros(world.dim_p)if i == 1:landmark.state.p_pos = np.array([0.5,0.45])landmark.state.p_vel = np.zeros(world.dim_p)if i == 2:landmark.state.p_pos = np.array([0.2,-0.6])landmark.state.p_vel = np.zeros(world.dim_p)

np.array([-0.6,0.65])中的值为障碍物的 x, y 的坐标值,在-1~1之间,坐标的设定规则见下图:

多智能体环境MPE simple_tag障碍物位置修改相关推荐

  1. 【MADDPG(MPE)——环境配置与用法详细介绍(多智能体强化学习))】

    MADDPG(MPE)--环境配置与用法详细介绍(多智能体强化学习) MADDPG(MPE) 介绍 MPE环境安装教程 前期准备 MPE 安装包介绍 MPE 安装环境要求 开始安装 环境测试 MPE环 ...

  2. PettingZoo:多智能体游戏环境库入门

    文章目录 概述 游戏环境 安装 PettingZoo 导入包 初始化环境 与环境交互 概述 PettingZoo1 类似于 Gym 的多智能体版本.Gym2是 OpenAI 开发的一个著名的强化学习库 ...

  3. Yoshua Bengio团队最新强化学习研究:智能体通过与环境交互,「分离」变化的独立可控因素

    原文来源:arXiv 作者:Valentin Thomas.Emmanuel Bengio∗.William Fedus.Jules Pondard.Philippe Beaudoin.Hugo La ...

  4. 多智能体强化学习(MARL)训练环境总结

    目前开源的多智能体强化学习项目都是需要在特定多智能体环境下交互运行,为了更好的学习MARL code,需要先大致了解一些常见的MARL环境以及库 文章目录 1.Farama Foundation 2. ...

  5. 基于通用学习环境和多智能体深度强化学习的列车运行图

    ‍ 1. 文章信息 <Train timetabling with the general learning environment and multi-agent deep reinforce ...

  6. Retro-用于强化学习智能体训练的各种有趣的游戏环境集合

    目录 步骤 安装 测试 查看游戏列表 issue 一.单智能体环境 90后大概都玩过的游戏环境 冒险岛系列 忍者神龟 二.多智能体环境 https://openai.com/blog/gym-retr ...

  7. 多智能体强化学习-MADDPG

    论文地址:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments. 代码地址:Multi-Agent Deep ...

  8. 多智能体强化学习——相关论文

    多智能体深度强化学习研究综述 作者:孙 彧,曹 雷,陈希亮,徐志雄,赖 俊 摘 要:多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法.规则.框架,并广泛应用于自动驾驶.能 ...

  9. 多智能体强化学习:基本概念,通信方式,IPPO,MADDPG

    1,基本概念 1.1,简介 单个RL智能体通过与外界的交互来学习知识,具体过程是根据当前环境的状态,智能体通过策略给出的动作来对环境进行响应,相应地,智能体会得到一个奖励值以反馈动作的好坏程度.RL最 ...

最新文章

  1. 如何将c语言改写成汇编语言,如何把汇编语言转换成C语言
  2. 5个基本概念,从统计学到机器学习
  3. python 程序1【登录接口】
  4. Ubuntu 安装配置NFS网络文件系统服务器
  5. 汇编语言学习笔记(五)
  6. 利用VSTS跟Kubernetes整合进行CI/CD
  7. python 合并word文件,在Python上的WordCloud中,我想合并两种语言
  8. android 支付模块封装,Android集成支付----支付宝支付总结与封装
  9. Oracle之ROW_NUMBER() OVER函数
  10. Qt5类之QLine and QLineF
  11. websphere Error 404:SRVE0190E: File not found: index.action
  12. 基于SSM的家具商城系统
  13. 企业财务报表分析【1】
  14. 买书排序问题-------C语言算法
  15. 百位活跃天使投资人名单
  16. sqlserver连接池及查看连接数相关
  17. mysql sus bench_测量性能 (Benchmarking)
  18. 订阅切换按钮(subscribe toggle button)
  19. HDU 2276 Kiki Little Kiki 2
  20. [nlp] 车载语音助手

热门文章

  1. 《JavaScript 高级程序设计》
  2. 封神英雄榜java_封神英雄榜云霄仙子
  3. H5游戏定制,4大优势助力企业曝光10W+
  4. 机器学习正负样本失衡时的评估指标参考,及代码实现
  5. 完整教程:AI孙燕姿翻唱《交换余生》
  6. 程序员防脱发保养三字经
  7. 你知道不同U盘在ARM+Linux下的读写速率吗?
  8. 小学职称计算机考试,中小学职称计算机考试
  9. SPI协议(二):SPI_Flash(M25P16)擦除操作
  10. GridView(网格视图)