强化学习提纲(reinforcement learning notebook)
强化学习(reinforcement learning)被认为是人类通往通用人工智能(AGI)的有效途径。从以Deepmind为代表的研发团队对强化学习在游戏博弈中的突出表现来看,强化学习的无监督的学习方法所展现的效果惊人。
强化学习的特点
不断试错,也就是通过尝试与环境的交互,来解决策略评估的问题。
强化学习的精髓在于“算”,即:通过大量数据的迭代运算,从大量的运算结果样本集中选取最优策略,从而实现Agent在某一行为领域的智能。
经典算法
强化学习的经典算法Q-Learning、SARSA。
SARSA算法和Q-Learning算法最明显的表现是在公式上的不同,实际上这两种算法代表了两种策略评估的方式.分别是On-Policy和Off-Policy.
On-Policy对值函数的更新是完全依据交互序列进行的,我们在计算时认为,价值可以直接使用采样的序列估计得到;
Off-Policy在更新值函数时并不完全遵循交互序列,而是选择来自其他策略的交互序列的子部分替换了原本的交互序列,
从算法的思想上来说,Q-Learning的思想更复杂,它结合了子部分的最优价值,更像是结合了价值迭代的更新算法。
e-greedy策略 ,一开始策略以100%的概率随机产生行动,随着训练的不断进行,这个概率将不断衰减,最终衰减至10%,
也就是说有90%的概率执行当前最优策略,以探索为主的策略逐渐转变为以利用为主的策略,两者得到了很好的结合.
Q-Table 简介
通过各状态的回报,我们可以为每一个状态(state)上进行的每一个动作(action)计算出最大的未来奖励(reward)的期望。
最优价值算法 ,将重点放在值函数上,通过交互序列的信息学习价值模型,并通过价值模型更新策略,其中的思想和价值迭代法十分相似.。
随着强化学习和深度学习的共同发展,基于Q-Learning的算法获得了很大的突破,甚至达到了专家水平。
强化学习提纲(reinforcement learning notebook)相关推荐
- 强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同?
强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同? 目录
- 学习笔记|强化学习(Reinforcement Learning, RL)——让AlphaGo进化得比人类更强
文章目录 1. 题外话:人类棋手的最后赞礼 2. 强化学习概述 2.1 强化学习的目标也是要找一个Function 2.2 强化学习的三个基本步骤 2.2.1 定义一个function 2.2.2 定 ...
- 深度强化学习 Deep Reinforcement Learning 学习整理
这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制'自动驾驶',在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操 ...
- Sam Altman 山姆奥特曼:强化学习进展 Reinforcement Learning Progress
目录 Reinforcement Learning Progress 强化学习进展 PPO(近端策略优化)
- RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】
HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理--RLHF. 笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带 ...
- 强化学习(Reinforcement Learning)背景介绍
强化学习前世今生 如今机器学习发展的如此迅猛,各类算法层出不群,特别是深度神经网络的发展,为非常经典的强化学习带来了新的思路,虽然强化学习一直在发展中,但在2013年这个关键点,DeepMind大神D ...
- 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
- 强化学习(Reinforcement learning)综述
文章目录 Reinforcement learning 综述 强化学习的分类 环境(Model-free,Model-based) Based(Policy-Based RL & Value- ...
- 强化学习系列(1):强化学习(Reinforcement Learning)
强化学习前世今生 也可以直接查看本博主强化学习专栏的简介: https://blog.csdn.net/gsww404/article/details/79763003 [直接点击查看完整版] 如今机 ...
- 模仿学习:逆向强化学习(Inverse Reinforcement Learning, IRL)
1 逆向强化学习的基本设定 1.1 智能体&奖励 IRL 假设智能体可以与环境交互,环境会根据智能体的动作更新状态,但是不会给出奖励. 这种设定非常符合物理世界的实际情况. ...
最新文章
- Dynamics CRM 导入用户数据错误 could not retrieve salesperson role
- 【Python基础教程】for循环用法详解
- Unicode utf8等编码类型的原理
- leetcode102
- python算24点穷举法_关于24点去重的算法?
- 求大素数 - 埃拉托斯特尼筛法
- 【Python】Python中的引用和赋值
- do not back up文件夹属性
- 卷积,DFT,FFT,图像FFT,FIR 和 IIR 的物理意义。
- WavePad如何在音乐文件上录制声音
- VML编程之------background背景《VML极道教程》原著:沐缘华
- MATLAB——DEMATEL代码(转载)
- 有哪些好用的实时网络流量监控软件
- lv官网编码查询_申购比近3:1!这个单价2万的共产房审核结果可查询
- Halo博客 -- ③ 本地运行
- 以太坊源码分析(37)eth以太坊协议分析
- 免费pdf转word网页版
- java win7 管理员权限_win7系统一键取得管理员权限的操作方法
- java截图+中文图片识别
- 【网站备案】2018年以后的阿里云备案以及公安备案流程最佳实践