强化学习（reinforcement learning）被认为是人类通往通用人工智能（AGI）的有效途径。从以Deepmind为代表的研发团队对强化学习在游戏博弈中的突出表现来看，强化学习的无监督的学习方法所展现的效果惊人。

强化学习的特点

不断试错,也就是通过尝试与环境的交互,来解决策略评估的问题。
强化学习的精髓在于“算”，即：通过大量数据的迭代运算，从大量的运算结果样本集中选取最优策略，从而实现Agent在某一行为领域的智能。

经典算法

强化学习的经典算法Q-Learning、SARSA。
SARSA算法和Q-Learning算法最明显的表现是在公式上的不同,实际上这两种算法代表了两种策略评估的方式.分别是On-Policy和Off-Policy.
On-Policy对值函数的更新是完全依据交互序列进行的,我们在计算时认为,价值可以直接使用采样的序列估计得到;
Off-Policy在更新值函数时并不完全遵循交互序列,而是选择来自其他策略的交互序列的子部分替换了原本的交互序列,
从算法的思想上来说,Q-Learning的思想更复杂,它结合了子部分的最优价值,更像是结合了价值迭代的更新算法。

e-greedy策略 ，一开始策略以100%的概率随机产生行动,随着训练的不断进行,这个概率将不断衰减,最终衰减至10%,
也就是说有90%的概率执行当前最优策略,以探索为主的策略逐渐转变为以利用为主的策略,两者得到了很好的结合.
Q-Table 简介
通过各状态的回报，我们可以为每一个状态（state）上进行的每一个动作（action）计算出最大的未来奖励（reward）的期望。
最优价值算法 ，将重点放在值函数上,通过交互序列的信息学习价值模型,并通过价值模型更新策略,其中的思想和价值迭代法十分相似.。
随着强化学习和深度学习的共同发展,基于Q-Learning的算法获得了很大的突破,甚至达到了专家水平。

强化学习提纲（reinforcement learning notebook）相关推荐

强化学习（Reinforcement Learning）是什么？强化学习（Reinforcement Learning）和常规的监督学习以及无监督学习有哪些不同？
强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同? 目录
学习笔记|强化学习（Reinforcement Learning, RL）——让AlphaGo进化得比人类更强
文章目录 1. 题外话:人类棋手的最后赞礼 2. 强化学习概述 2.1 强化学习的目标也是要找一个Function 2.2 强化学习的三个基本步骤 2.2.1 定义一个function 2.2.2 定 ...
深度强化学习 Deep Reinforcement Learning 学习整理
这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制'自动驾驶',在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操 ...
Sam Altman 山姆奥特曼：强化学习进展 Reinforcement Learning Progress
目录 Reinforcement Learning Progress 强化学习进展 PPO(近端策略优化)
RLHF：基于人类反馈（Human Feedback）对语言模型进行强化学习【Reinforcement Learning from Human Feedback】
HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理--RLHF. 笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带 ...
强化学习（Reinforcement Learning）背景介绍
强化学习前世今生如今机器学习发展的如此迅猛,各类算法层出不群,特别是深度神经网络的发展,为非常经典的强化学习带来了新的思路,虽然强化学习一直在发展中,但在2013年这个关键点,DeepMind大神D ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
强化学习（Reinforcement learning）综述
文章目录 Reinforcement learning 综述强化学习的分类环境(Model-free,Model-based) Based(Policy-Based RL & Value- ...
强化学习系列（1）：强化学习（Reinforcement Learning）
强化学习前世今生也可以直接查看本博主强化学习专栏的简介: https://blog.csdn.net/gsww404/article/details/79763003 [直接点击查看完整版] 如今机 ...
模仿学习：逆向强化学习(Inverse Reinforcement Learning， IRL)
1 逆向强化学习的基本设定 1.1 智能体&奖励 IRL 假设智能体可以与环境交互,环境会根据智能体的动作更新状态,但是不会给出奖励. 这种设定非常符合物理世界的实际情况. ...

强化学习提纲（reinforcement learning notebook）

强化学习的特点

经典算法

强化学习提纲（reinforcement learning notebook）相关推荐

最新文章

热门文章