强化学习(Reinforcement Learning)入门学习–01

定义

Reinforcement learning (RL) is an area of machine learning inspired by behaviorist psychology, concerned with how software agents ought to take actions in an environment so as to maximize some notion of cumulative reward. (强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。) —from Wikipedia

特征

强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态,对于该新的状态环境会给出奖励信号(正奖励或者负奖励)。

强化学习方法汇总

理解环境与不理解环境

理解环境是要创造一个虚拟的环境

算法

基于概率和基于价值


连续的基于价值是无能为力的

算法

回合更新与单步更新

在线学习与离线学习

在线(自己玩)

离线看着别人玩

算法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K3DhESMB-1658491318792)(https://s2.loli.net/2022/07/22/XSjoTLskacw7zn2.png)]

Q-Learning

Q-Learning是Value-Based的强化学习算法,所以算法里面有一个非常重要的Value就是Q-Value,也是Q-Learning叫法的由来。这里重新把强化学习的五个基本部分介绍一下。

Agent(智能体): 强化学习训练的主体就是Agent:智能体。Pacman中就是这个张开大嘴的黄色扇形移动体。

Environment(环境): 整个游戏的大背景就是环境;Pacman中Agent、Ghost、豆子以及里面各个隔离板块组成了整个环境。

State(状态): 当前 Environment和Agent所处的状态,因为Ghost一直在移动,豆子数目也在不停变化,Agent的位置也在不停变化,所以整个State处于变化中;State包含了Agent和Environment的状态。

Action(行动): 基于当前的State,Agent可以采取哪些action,比如向左or右,向上or下;Action是和State强挂钩的,比如上图中很多位置都是有隔板的,很明显Agent在此State下是不能往左或者往右的,只能上下;

Reward(奖励): Agent在当前State下,采取了某个特定的action后,会获得环境的一定反馈就是Reward。这里面用Reward进行统称,虽然Reward翻译成中文是“奖励”的意思,但其实强化学习中Reward只是代表环境给予的“反馈”,可能是奖励也可能是惩罚。比如Pacman游戏中,Agent碰见了Ghost那环境给予的就是惩罚。

算法分析

-1658491318792)]

算法分析

[外链图片转存中…(img-3ADmrcqS-1658491318793)]

强化学习(Reinforcement Learning)入门学习--01相关推荐

  1. 强化学习(Reinforcement Learning)入门知识

    强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值 抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...

  2. 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)

    强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录 强化学习 Reinforcement Learning(三)-- ...

  3. 强化学习 (Reinforcement Learning)

    强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...

  4. deep learning入门学习

    根据知乎的一些大牛的回答总结出的deep learning入门学习的一些material: BE NOTED THAT SOME VIDEOS ARE ON YOUTUBE! I BELIEVE TH ...

  5. 强化学习 (Reinforcement Learning) 基础及论文资料汇总

    持续更新中... 书籍 1. <Reinforcement Learning: An Introduction>Richard S. Sutton and Andrew G.Barto , ...

  6. 强化学习Reinforcement Learning

    Abstract Abstract 背景 强化学习算法概念 背景 (1) 强化学习的历史发展 1956年Bellman提出了动态规划方法. 1977年Werbos提出只适应动态规划算法. 1988年s ...

  7. 强化学习(Reinforcement Learning)

    背景 当我们思考学习的本质时,我们首先想到的可能是我们通过与环境的互动来学习.无论是在学习开车还是在交谈,我们都清楚地意识到环境是如何回应我们的行为的,我们试图通过行为来影响后续发生的事情.从互动中学 ...

  8. 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!

    文章目录 1. 什么是强化学习 2. 强化学习模型 2.1 打折的未来奖励 2.2 Q-Learning算法 2.3 Deep Q Learning(DQN) 2.3.1 神经网络的作用 2.3.2 ...

  9. ​李宏毅机器学习——强化学习Reinforcement Learning

    目录 应用场景 强化学习的本质 以电脑游戏为例 强化学习三个步骤 第一步:有未知参数的函数 第二步:定义Loss 第三步:Optimization RL的难点 类比GAN Policy Gradien ...

最新文章

  1. patch -p0 和patch -p1的区别
  2. IDEA创建方法时快速添加注释
  3. 计算机常用英文句子,英文简历常用句子
  4. 4月9日51CTO.com编辑部训练
  5. python 数据库中文乱码 Excel
  6. java实现打印功能_Js 打印功能的实现(Java)
  7. 关于SubSonic3.0插件使用SubSonic.Query.Select查询时,字段类型为tinyint时列丢失问题的Bug修复...
  8. matlab中如何画柱状图,matlab如何画柱状图?matlab绘制柱状图教程
  9. videojs播放rtmp视频流,解决TypeError: this.el_.vjs_getProperty is not a function错误
  10. 关于DEV-c++ 运行窗口闪退的解决办法
  11. EVO Evaluation of SLAM 4 --- ORB-SLAM3 编译和利用数据集运行
  12. CentOS下安装EDM工具
  13. 9大代理服务器软件的比较与分析之校园局域网代理蝴蝶
  14. MacBook系统升级问题
  15. 2020-05-13
  16. 英文视频字幕生成和翻译工具、AI拟声工具
  17. 如何使用Bootstrap 5从jQuery切换到Vanilla JavaScript
  18. Lunch Time
  19. linux rm无法删除权限不够,linux下的文件用root用户rm -rf命令无法删除解决方案
  20. c语言版生日祝福程序,C语言如何编程生日快乐代码

热门文章

  1. PHP AES 加密解密实现
  2. 苹果蓝牙耳机怎么接电话_除了苹果AirPods,真无线蓝牙耳机到底怎么选?
  3. 编程新技术实务实验二HTML以及J2EE简单编程
  4. 电子漫画系列更新10张!古老的示波器,USB hub萌妹,超级酷的焊接壁画
  5. Daily Scrum Meeting 11.05
  6. 深入浅出Flask PIN
  7. 树莓派的ssh连接配置
  8. 分析股票怎么进行量化交易?
  9. python实现简单的神经网络,python的神经网络编程
  10. 天罡现世,Balong出海,华为这波5G动作666!