Gym-Fetch-Robotics-obs-reward解析

文章目录

  • Gym-Fetch-Robotics-obs-reward解析
  • 前言
    • 简单介绍:
    • 流程图:
    • 原作者的博客:

前言

简单介绍:


一共八个环境,但是它的dense-reward,都简单的离谱。
就直接计算:

-np.linalg.norm(object_pos- goal_pos, axis=-1)

这不是离谱嘛,任务完成得靠三个值的配合:

gripper_pos: move by step action.
object_pos: move by gripper.
goal_pos:sample from self._sample_goal()

而自带的reward shape只考虑了后面两个值的相对位置关系。
在初始化探索的时候,对于夹爪是否要接触Object来说,仍然是比较稀疏的任务。
因此训练pick-and-place任务的时候,特别难训练。
参考Robosuite的pick-and-place-task,可以看到奖励函数的设计如下:

Un-normalized components if using reward shaping, where the maximum is returned if not solved:
- Reaching: in [0, 0.1], proportional to the distance between the gripper and the closest object
- Grasping: in {0, 0.35}, nonzero if the gripper is grasping an object
- Lifting: in {0, [0.35, 0.5]}, nonzero only if object is grasped; proportional to lifting height
- Hovering: in {0, [0.5, 0.7]}, nonzero only if object is lifted; proportional to distance from object to bin
- Completed: in{1}.

流程图:

图太难画了,选择放弃。

原作者的博客:

https://medium.com/@Amritpal001/intro-to-robotics-in-openai-fetch-reach-env-automating-robotics-with-reinforcement-learning-part-2b7452f3a5e9

摘录一些重要的信息如下:
Object position: The object is placed randomly on the table in the 30cm x 30cm (20c x 20cm for sliding) square with the center directly under the gripper (both objects are 5cm wide).

Goal state:
For pushing, the goal state is sampled uniformly from the same square as the box position.
In the pick-and-place task the target is located in the air in order to force the robot to grasp (and not just push). The x and y coordinates of the goal position are sampled uniformly from the mentioned square and the height is sampled uniformly between 10cm and 45cm.
For sliding the goal position is sampled from a 60cm x 60cm square centered 40cm away from the initial gripper position.
For all tasks we discard initial state-goal pairs in which the goal is already satisfied.

Step -
Step defines individual action by the agent that leads to change in the state of the environment.
Each step consists of 4 parts — observations , reward , done , info

Gym-Fetch-Robotics-obs-reward解析相关推荐

  1. 【openai_ros】10 - Training a Fetch Robot. Part 2【fail】

    文章目录 Task Environment Initialization of the class Methods needed by the Task Environment Training Sc ...

  2. 强化学习环境库 Gym 发布首个社区发布版,全面兼容 Python 3.9

    作者:肖智清 来源:AI科技大本营 强化学习环境库Gym于2021年8月中旬迎来了首个社区志愿者维护的发布版Gym 0.19.该版本全面兼容Python 3.9,增加了多个新特性. 强化学习环境库的事 ...

  3. 零基础创建自定义gym环境——以股票市场为例

    零基础创建自定义gym环境--以股票市场为例 翻译自medium上的一篇文章Create custom gym environments from scratch - A stock market e ...

  4. 基于自定义gym环境的强化学习

    本文实现了一个简单的基于gym环境的强化学习的demo,参考了博客使用gym创建一个自定义环境. 1. 依赖包版本 gym == 0.21.0 stable-baselines3 == 1.6.2 2 ...

  5. 强化学习使用gym时出现错误:ValueError: too many values to unpack (expected 4)

    目录 1.问题描述 2.问题分析 (1)env.step()的返回值问题 (2)ale-py包问题 3.问题解决 4.总结 1.问题描述 最近在学强化学习,用parl和gym实现Pong游戏的策略梯度 ...

  6. openai的gym baseline spiningup 深度强化学习环境安装 手撸gym环境demo

    按照spiningup我们学习DRL,链接 https://github.com/openai/gym https://github.com/openai/baselines 1. 安装anacond ...

  7. 从零实践强化学习之RL初印象(GYM+PARL)

    昨天听了曾两度夺得NeurIPS强化学习赛事冠军的飞桨强化学习PARL团队核心成员科老师的课程,不得不说,满满的干货,于是今天打算再看一遍回放,并好好地做一下笔记. 在学习强化学习之前,我们先思考一下 ...

  8. dqn在训练过程中loss越来越大_强化学习笔记:OpenAI Gym+DQN+Tensorflow2实现

    参考了一些文章,针对OpenAI gym环境,使用tf2.x实现了DQN算法:加上了一些没有太大必要(?)的小功能,比如:自动保存视频,保存训练日志从而利用TensorBoard实现数据可视化,保存和 ...

  9. react+Ts+批量上传华为云OBS

    文章目录 前言 一.华为云OBS 二.开发步骤 1.使用npm安装(推荐) 2.使用源码安装 3.直接上代码(npm方式) 4.示例图 5.12.22 新增进度条优化 6.如果限制单个大文件上传进度条 ...

  10. Grid2op文档 reward类总结

    这里写自定义目录标题 定义 用法 & 实例 对reward类的概述 BaseReward 静态变量 方法 BridgeReward CloseToOverflowReward Combined ...

最新文章

  1. 人工智能和机器学习在治安管理方面意义重大
  2. Java多线程高并发学习笔记(一)——ThreadRunnable
  3. psw和fr微型计算机,微型计算机技术及应用习题答案
  4. 吴裕雄--天生自然 人工智能机器学习实战代码:线性判断分析LINEARDISCRIMINANTANALYSIS...
  5. canvas整体放大_【HTML5】Canvas 实现放大镜效果
  6. python数值计算guess_【python】猜数字game,旨在提高初学者对Python循环结构的使用...
  7. vue2实践揭秘pdf_《Vue2实践揭秘》源码
  8. Common Sort - 排序 - Java
  9. 中国人去日本买电饭煲令人痛心!董明珠:难道我泱泱大国造不出吗?
  10. SendMessage 函数
  11. Java的System.out.println并不等于C的printf
  12. 惠普136nw打印机清零_惠普136nw打印机清零_HP惠普打印机清零大全
  13. Unity3DShader基础(CG)
  14. python系统学习:第三周之文件操作
  15. ffmpeg gif拆分成多张jpg
  16. catalan 数。。
  17. 【Android Camera1】Camera1 Parameters参数详解(一)—— Size (preview/picture/thumbnail)
  18. 《Solar Energy》期刊介绍(SCI 2区)
  19. R语言使用ggplot2可视化甜甜圈图(Donut chart)
  20. ubuntu挂载U盘

热门文章

  1. Origin2021科研绘图神器
  2. Linux系统优化命令mpstat
  3. 服务器安装操作系统明细,服务器操作系统安装手册.doc
  4. MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI
  5. python中的pypinyin库
  6. 分享:易中天教授讲座十句人生感言!
  7. 济南外国语学校计算机社团,济南外国语学校三“学霸”考入西安交大少年班
  8. linux运行input文件路径,new FileInputStream(filePath)方法在linux下执行不正确 | ZPY博客...
  9. 电脑更新后黑屏卸载最近功能更新
  10. BREW(BUIW)是怎么刷屏的?IDISPLAY_Update()