Reinforcement Learning from Simultaneous Human and MDP Reward个人理解
1.介绍
TAMER+RL的含义:TAMER+RL用于改善传统的RL算法,它是一种能从MDP 和人类反馈中学习的方法。
当下论文的不足:以前的TAMER+RL只能测试一个单个的域,且从人的反馈中学习必须先于RL,就是我们所说的顺序TAMER+RL。
改善方法:
- 测试:前一个TAMER+RL任务和新的任务。
- 检查:提供一种多需求的检查方式,检查在一定参数值的技术表现。
- 引入一种心得算法:基于之前的TAMER+RL的工作,但是从人和MDP中同时学习
2.预备知识
- RL
本篇论文中我们采用基于RL算法的值函数法—SARSA(入)。原因是他比较保险稳妥。 - TAMER 框架
TAMER框架是一种解决方法,关于代理人如何从人训练给的数字映射中学习。效仿行为值(Q—value)我们用人返回值函数H表示:H:SXA,H是一个真实的回归。每个人的反馈信号为最新的状态值对创造一个标签。其中贪婪行为的选择为:
3.顺序TAMER+RL
TAMER比MDP 学习的要快,而Sarsa能从长远角度帮你选择一个更好的策略。模型H一定程度上影响后面的RL算法,所以称为顺序TAMER+RL。
实验
- 在先前被测的数据中重新产生结果
- 在不同的任务中估计算法的有效性
- 分析数据,在一个大范围的集合参数中去分析在没有先前数据的情况下设置参数值的困难。
这两种结合的方法只影响行为选择—行为偏置和控制共享—两者之间没有清晰的主导,并且他们是在Q增加和反馈之后。
反馈之所以这么弱是因为人的反馈被间接的用于指导探索,而行为偏置和控制共享被直接的用于探索,没有人为操控
Q增强和行为选择时的偏差一样,通过对人类奖励的加权预测增加每个行为的Q值,Q增强来改变Q值还可以通过sarsa更新的TD error。
4.同步TAMER+RL
在顺序TAMER+RL的基础上,允许训练者根据需要介入整个过程中的RL的过程,我们称这种情况和解决他的算法为同步TAMER+RL。
当沿着学习曲线训练时应该对代理人有利,我们会在代理人达到最佳状态并且训练者的反馈没有帮助的时候,我们要对这个学习进行削弱。
同步TAMER+RL的理想特征
稳定的行为:若代理人行为不稳定,反馈的没有什么质量
训练者的快速响应:代理人可以快速的证明她正在从人类的奖励中学习保持交互,过程更高效。
训练者能对MDP策略提供反馈:训练者中途捕捉学到好的方面,批评坏的方面。
训练者的影响被适当的应用:H对RL算法学习的影响或行为选择在状态行为空间最近的训练区域应该更大,在最近训练较少的区域更小。
同步TAMER+RL允许训练者在学习过程的任何时刻插入自己。H的影响应该在状态行动的空间中增加,但不是在反馈区域中,在没有训练的情况下应该减少。那如何确定H的影响?
通过对强化学习中经常使用的资格迹来确定H的影响。(我们为每个状态—行为特征维护一个资格跟踪,规范化在0~1之间,表示该特征处在活动状态时训练的新近度,资格迹和一个时间步长的特征向量一起计算相似特征向量中的训练新近度)
公式讲解:略
资格迹合资格模块的区别:
资格模块和资格迹一样维护一条迹线矢量
但是,与资格迹不同,资格模块只增加训练处的痕迹。我们使用跟踪来确定每个要素的相应Q值参数的更新程度,然后使用它们输出一个粗略指示近期状态近期训练的度量。
Reinforcement Learning from Simultaneous Human and MDP Reward个人理解相关推荐
- critic法计算_强化学习(Reinforcement learning)中Actor-Critic算法该如何深入理解?...
A3C(Asynchronous Advantage Actor-Critic)中的3个A是什么意思? Asynchronous(异步): 传统的DQN用一张网络代表一个Agent,而且Agent只与 ...
- 强化学习(一)Fundamentals of Reinforcement Learning
强化学习(一)Fundamentals of Reinforcement Learning 第〇章 An Introduction to Sequential Decision-Making 0.1 ...
- 李宏毅Reinforcement Learning强化学习入门笔记
文章目录 Concepts in Reinforcement Learning Difficulties in RL A3C Method Brief Introduction Policy-base ...
- Reinforcement learning book 学习笔记 第一章
RL学习 写在前面: 本专栏是学习由Richard S. Sutton and Andrew G. Barto 所著 <Reinforcement learning>的学习笔记,如有指正请 ...
- RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】
HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理--RLHF. 笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带 ...
- Learning reward machines for partially observable reinforcement learning论文阅读
Abstract 这篇文章是基于前面两篇RM文章进行的工作.Reward Machine是一种对reward function基于自动机,结构化的表示,将问题分解成多个子问题,并通过off-polic ...
- Reward Machines for Cooperative Multi-Agent Reinforcement Learning论文阅读
Abstract 本文提出了一种使用Reward Machine作为reward function编码任务的方法.其实就是把传统人为定义的reward function替代了.使用reward Mac ...
- Hybrid Reward Architecture for Reinforcement Learning
用于强化学习的混合奖励架构 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, ...
- Deep Reinforcement Learning: Pong from Pixels
这是一篇迟来很久的关于增强学习(Reinforcement Learning, RL)博文.增强学习最近非常火!你一定有所了解,现在的计算机能不但能够被全自动地训练去玩儿ATARI(译注:一种游戏机) ...
- 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...
最新文章
- uva 1610 聚会游戏
- Oracle管理拾遗(长期更新)
- hive mysql hdfs关系_Hive中的数据库、表、数据与HDFS的对应关系
- IDEA查看Scala的源码
- android中的websocket 应用
- Python学习笔记之类(四)
- milantgh php安全,PHP漏洞全解(一)-PHP网站的安全性问题
- 重磅!腾讯正式开源 Spring Cloud Tencent
- 发那科机器人编码器_发那科M-420iA系列机器人驱动器报警编码器报警维修
- Java中PDF转WORD
- 一文钱憋死英雄汉!给Unix-Center.Net 的建议
- 处理反走样常用的四种技术
- redis查看集合中元素的数量,scard
- Flume+kafka+Spark Steaming demo2
- 使用Docker安装MySQL
- 传说中的补丁比较...很好玩啊..
- JIRA的安装、破解、汉化(适用于4.0.1、4.0.2、4.1.1版本
- 机器视觉系列(五)——镜头部分
- C++函数指针与成员函数指针
- 24.大数据学习之旅——spark手把手带你入门
热门文章
- BFM模型和Landmarks可视化
- 【数据分析可视化】股票市场分析实战之风险分析
- Android8.1 修改音量级别和默认音量
- Session Cookies Not Marked as Secure
- 二年级课程表(4月18日-4月22日)
- SpringBoot----即时聊天(webSocket)
- 计算机大赛鼓励语录,比赛前的鼓励的话
- openstack下创建windows虚机出现do_hivex_close
- 一个整人的vbs脚本(yzy原创)
- 凝思系统激活序列号_凝思磐石安全操作系统