强化学习(reinforcement learning)被认为是人类通往通用人工智能(AGI)的有效途径。从以Deepmind为代表的研发团队对强化学习在游戏博弈中的突出表现来看,强化学习的无监督的学习方法所展现的效果惊人。

强化学习的特点

不断试错,也就是通过尝试与环境的交互,来解决策略评估的问题。
强化学习的精髓在于“算”,即:通过大量数据的迭代运算,从大量的运算结果样本集中选取最优策略,从而实现Agent在某一行为领域的智能。

经典算法

强化学习的经典算法Q-Learning、SARSA。
SARSA算法和Q-Learning算法最明显的表现是在公式上的不同,实际上这两种算法代表了两种策略评估的方式.分别是On-Policy和Off-Policy.
On-Policy对值函数的更新是完全依据交互序列进行的,我们在计算时认为,价值可以直接使用采样的序列估计得到;
Off-Policy在更新值函数时并不完全遵循交互序列,而是选择来自其他策略的交互序列的子部分替换了原本的交互序列,
从算法的思想上来说,Q-Learning的思想更复杂,它结合了子部分的最优价值,更像是结合了价值迭代的更新算法。

e-greedy策略 ,一开始策略以100%的概率随机产生行动,随着训练的不断进行,这个概率将不断衰减,最终衰减至10%,
也就是说有90%的概率执行当前最优策略,以探索为主的策略逐渐转变为以利用为主的策略,两者得到了很好的结合.
Q-Table 简介
通过各状态的回报,我们可以为每一个状态(state)上进行的每一个动作(action)计算出最大的未来奖励(reward)的期望。
最优价值算法 ,将重点放在值函数上,通过交互序列的信息学习价值模型,并通过价值模型更新策略,其中的思想和价值迭代法十分相似.。
随着强化学习和深度学习的共同发展,基于Q-Learning的算法获得了很大的突破,甚至达到了专家水平。

强化学习提纲(reinforcement learning notebook)相关推荐

  1. 强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同?

    强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同? 目录

  2. 学习笔记|强化学习(Reinforcement Learning, RL)——让AlphaGo进化得比人类更强

    文章目录 1. 题外话:人类棋手的最后赞礼 2. 强化学习概述 2.1 强化学习的目标也是要找一个Function 2.2 强化学习的三个基本步骤 2.2.1 定义一个function 2.2.2 定 ...

  3. 深度强化学习 Deep Reinforcement Learning 学习整理

    这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制'自动驾驶',在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操 ...

  4. Sam Altman 山姆奥特曼:强化学习进展 Reinforcement Learning Progress

    目录 Reinforcement Learning Progress 强化学习进展 PPO(近端策略优化)

  5. RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

    HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理--RLHF. 笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带 ...

  6. 强化学习(Reinforcement Learning)背景介绍

    强化学习前世今生 如今机器学习发展的如此迅猛,各类算法层出不群,特别是深度神经网络的发展,为非常经典的强化学习带来了新的思路,虽然强化学习一直在发展中,但在2013年这个关键点,DeepMind大神D ...

  7. 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术

    原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

  8. 强化学习(Reinforcement learning)综述

    文章目录 Reinforcement learning 综述 强化学习的分类 环境(Model-free,Model-based) Based(Policy-Based RL & Value- ...

  9. 强化学习系列(1):强化学习(Reinforcement Learning)

    强化学习前世今生 也可以直接查看本博主强化学习专栏的简介: https://blog.csdn.net/gsww404/article/details/79763003 [直接点击查看完整版] 如今机 ...

  10. 模仿学习:逆向强化学习(Inverse Reinforcement Learning, IRL)

    1 逆向强化学习的基本设定 1.1 智能体&奖励 IRL 假设智能体可以与环境交互,环境会根据智能体的动作更新状态,但是不会给出奖励.         这种设定非常符合物理世界的实际情况.   ...

最新文章

  1. Dynamics CRM 导入用户数据错误 could not retrieve salesperson role
  2. 【Python基础教程】for循环用法详解
  3. Unicode utf8等编码类型的原理
  4. leetcode102
  5. python算24点穷举法_关于24点去重的算法?
  6. 求大素数 - 埃拉托斯特尼筛法
  7. 【Python】Python中的引用和赋值
  8. do not back up文件夹属性
  9. 卷积,DFT,FFT,图像FFT,FIR 和 IIR 的物理意义。
  10. WavePad如何在音乐文件上录制声音
  11. VML编程之------background背景《VML极道教程》原著:沐缘华
  12. MATLAB——DEMATEL代码(转载)
  13. 有哪些好用的实时网络流量监控软件
  14. lv官网编码查询_申购比近3:1!这个单价2万的共产房审核结果可查询
  15. Halo博客 -- ③ 本地运行
  16. 以太坊源码分析(37)eth以太坊协议分析
  17. 免费pdf转word网页版
  18. java win7 管理员权限_win7系统一键取得管理员权限的操作方法
  19. java截图+中文图片识别
  20. 【网站备案】2018年以后的阿里云备案以及公安备案流程最佳实践

热门文章

  1. xshell登陆虚拟机Linux系统ubunto
  2. 扭矩大好还是马力大好_买车首选马力大的,还是选扭矩高的?这居然是道送分题...
  3. 太美医疗ctms和etmf可以解决什么问题
  4. 英语考试指南参考答案及解析
  5. 蚂蚁全媒体中心刘鑫炜解答:产品软文推广怎么写,如何写好软文
  6. 会计计算机管理和会计区别,财务会计与管理会计的八大区别
  7. 小福利,如何用python解方程
  8. 卫星信号处理跟踪流程
  9. Lumion8.0中文版安装教程(附软件下载)
  10. 无线局域网基础——WLAN