Reward Shaping

Sparse Reward

  • 许多场景中,大多数情况下并没有奖励,像是:

    • 围棋: 平常落子没有奖励,只有棋局结束时才有奖励(输/赢)
    • 机器人栓螺丝: 大多数动作都没有奖励,只有成功栓螺丝才有奖励
  • 人类可以想办法设计额外的奖励来帮助学习,类似短期目标

Reward Shaping

  • 游戏中的得分机制,只有杀死敌人或是被敌人杀死会影响分数
  • 这表示大部分的行为没有奖励
  • 可以设计短期目标,帮助机器学习:
    • 移动、吃补给包、补包加分
    • 扣血: 负奖励 (更容易死亡)
    • 待在原地: 负奖励 (因为模型可能会避免移动,失去探索的机会)
    • 活着: 负奖励 (因为模型可能会移动但避免战斗,失去探索的机会)
  • 需要人类的领域知識介入,才能设计良好的奖励

Curiosity

  • 当模型,看到有意义的新发现时,会获得奖励
  • 有意义的新发现,是为了避免无用的新发现,让模型放弃探索
  • 如何避免无意义的新发现,详情请看论文

参考

  1. ​李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (四)

[課程筆記] 機器學習2021(李弘毅) L32.概述增強式學習(四)相关推荐

  1. [課程筆記] 機器學習2021(李弘毅) L29.概述增強式學習(一)

    目录 A. What is RL ? 1. Machine learning ~ Looking for a Function 2. Example: Playing Video Game 3. Ex ...

  2. [課程筆記] 機器學習基石 - W7. The VC Dimension

    目录 Video1: Definition of VC Dimension Recap: More on Growth Function Recap: More on VC bound VC Dime ...

  3. [課程筆記] 強化學習(李弘毅) L1. Policy Gradient

    1. 強化學習的基本組件 Actor : 負責操縱行為 (我們可以控制調整) Env : 環境,Actor 行為會與之互動  (我們無法控制調整) Reward : Actor 在 Env 中做出特定 ...

  4. 人工智能 java 坦克机器人系列: 强化学习_人工智能 Java 坦克機器人系列: 強化學習...

    級別:中級 2006 年 7 月13日 本文中,我們將使用強化學習來實現一個機器人.使用強化學習能創建一個自適應的戰斗機器人.這個機器人能在戰斗中根據環境取得最好的策略,並盡力使戰斗行為最佳.並在此過 ...

  5. 潭州python学院12306案例_人工智慧時代來臨,潭州教育開設Python課程帶學員入門機器學習...

    當今時代,隨著人工智慧科技的飛速發展,人工智慧逐漸深入社會生活生産的方方面面.根據<2019中國人工智慧發展報告>相關數據顯示,人工智慧行業的融資規模呈上升趨勢.在當紅的人工智慧領域,機器 ...

  6. Gazebo機器人仿真學習探索筆記(二)基本使用說明

    在完成Gazebo7安裝後,需要熟悉Gazebo,方便之後使用. 部分源代碼可以參考:https://bitbucket.org/osrf/gazebo/src/ 如果還沒有安裝請參考之前內容完成安裝 ...

  7. Gazebo機器人仿真學習探索筆記(三)機器人模型

    gazebo_models:https://bitbucket.org/osrf/gazebo_models 模型庫下載,可以參考如下命令: ~/Rob_Soft/Gazebo7$ hg clone ...

  8. 從turtle海龜動畫學習Python-高中彈性課程1

    Goal: 藉由有趣的「海龜動畫繪圖」學會基礎的 Python 程式設計 本篇介紹本彈性課程之開設由來, 以及一些供後續查閱之Python 之細節, 方便後面再回頭交叉索引之內容, 文獻等 " ...

  9. 【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介

    机器学习 2021 - Introduction of Machine / DeepLearning \qquadLinear 的 Model 也許太過簡單了,怎麼說它太過簡單呢?我們可以想像說 x1 ...

最新文章

  1. TensorFlow练习27: 验证码生成器-从文本生成图像
  2. TF之pix2pix之dataset:基于TF利用自己的数据集训练pix2pix模型之DIY自己的数据集
  3. spring boot 整合web开发之文件上传、静态资源访问、异常处理、返回JSON数据
  4. mac 无法ssh localhost,错误提示:bash: /usr/local/bin/ssh_session: Permission denied
  5. 5.1 vim—5.4vim编辑器
  6. 肌电信号的包络matlab程序_基于matlab的肌电信号处理程序
  7. Web作业:specific word count (index of )
  8. System.out和System.err的区别
  9. 6.企业安全建设指南(金融行业安全架构与技术实践) --- 安全培训
  10. 【学习笔记】在KEIL中stm32移植51代码时位定义变量的替换
  11. 论文之生成对抗U-Net
  12. Windows下查看Android手机APP日志
  13. 估值470亿美元的WeWork,到底是什么?
  14. 中国计算机学会会刊变动公告
  15. oracle错误代码大全(超详细)
  16. 【Scrapy pipeline 存入数据到mysql 】mysql的实践笔记,以及模板代码
  17. leetcode 买卖股票系列题目总结
  18. 将oracle 转换 bak格式,MSSQL数据库文件MS.BAK转换为ORACLE数据库文件OR.dmp
  19. Python之常用模块及安装方法
  20. oracle在服务器断电重启后启动报错ORA-00600: internal error code, arguments: [kcm_headroom_warn_1], []

热门文章

  1. fpdf.php教程,fpdf使用教程 - ican2089的个人空间 - OSCHINA - 中文开源技术交流社区
  2. 关于jxls2.6.0后的版本使用的jexl3学习使用
  3. 成交量指标OBV详解及应用
  4. 开源项目piwik搭建
  5. 【D3.js数据可视化实战】--(3)桑基图(sankey)的绘制
  6. 计算机网络信息安全总结报告,信息安全自查工作总结报告
  7. previous implicit declaration of some_function was here
  8. 风控决策矩阵的开发与场景应用
  9. 美团财报:一边赚钱,一边烧钱
  10. 计算机视觉:图片数据的预处理