确定的数值用小写字母表示,还不知道的就是大写字母

state:当前的状态

state transition:状态转移,做出动作后state(状态)变了的过程。

有状态转移函数:p(s’|s,a)=p(S'=s’|S=s,A=a)表示原本状态为s,做出a的动作,得到为s'的新状态的概率。

action:动作

agent:做动作的个体

reward:奖励,做完一个动作就会有一个奖励,会影响强化学习的好坏。eg:打超级马里奥,吃金币有金币+1,赢游戏有金币+10000,死了金币-100那这样的奖励就可以更加激励ai去赢游戏,而不是吃路途中的金币。

environment:环境,也就是程序

policy:根据state决定agent做什么动作

policy function:policy对应的函数。eg:π(a|s)为在s状态时做a动作的概率。

强化学习就是学policy function,让电脑自动操作任务打赢游戏。

状态转移可以是随机也可以是确定,随机性取决于环境。

eg:

up往上跳之后,状态还取决于w.p,取决于下面的小蘑菇运动方向,而他的运动方向是有概率的,所以新s是随机的。

(state,action,reward)trajectory:循环s,a,r。(state,action,reward)

return:(aka cumulative future reward)未来的每次奖励

Ut=Rt + Rt+1 + Rt+2 + Rt+3....。表示将t时刻开始的每次奖励都加起来

由于未来具有不确定性,因此给未来的reward带上权重。

所以有discounted return 折扣回报。

discounted return:

Ut=Rt + yRt+1 + y平方Rt+2 + y三次方Rt+3....。由未来的奖励的重要程度决定y的取值,1

为和该时刻同样重要。

Value function(价值函数)Qπ:

因为未来的动作发生有概率,你也不知道会做哪一个动作,所以用Qπ来表示,做期望。

Qπ(st,at)=E[Ut|St=st,At=at]。表示根据未来每个动作发生的概率做期望

对policy function和state function做积分,积掉At+1,At+2...,就可以得到基于当前st,at并对未来发生各动作的平均情况的期望,得到未来的平均价值,这就是价值函数。就可以知道当前状态下做哪个动作好与不好。这跟policy function有关。

Optimal action-value function:最优价值函数

当前st,at的max的Qπ。

state-value function(状态价值函数):

表示Qπ的期望。可以把A作为随机变量,对A求期望,把A消掉。也就是基于目前状态做任何动作的期望,可以衡量目前的胜率,情况。π只和s有关。

对Qπ求期望也就是累加或积分每个权重乘Qπ,在这里权重就是概率,也就是π函数(决策函数)。

深度学习-强化学习专业术语解释相关推荐

  1. 最新!李飞飞提出深度进化强化学习新框架

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习> ...

  2. 深度进化强化学习第一弹~

    hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Embodied Intelligence via Learning and Evolution ,这是一篇李飞飞等提出深度进化RL,我们一起看看吧 ...

  3. 李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | 外媒 编辑 | Yaxin, LQ 6亿 ...

  4. 2020人工智能课程超级大列表:深度学习-强化学习-图神经网络-自然语言处理等...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本篇博文主要为大家介绍一个课程网站,汇集了机器学习,深度学习.强化学习的各个方面, ...

  5. 2022主流Nivida显卡深度学习/强化学习/AI算力汇总

    2022主流Nivida显卡深度学习/强化学习/AI算力汇总一览表 总结自国外多个网站

  6. 深度学习强化学习进化计算 入门资源整理

    深度学习&强化学习&进化计算 入门资源整理 深度学习 在线课程 在线书籍 学习Python 强化学习 在线课程 在线书籍 更多资源 进化计算 后记 深度学习 在线课程 深度学习是机器学 ...

  7. 深度学习 - 强化学习 -迁移学习(杨强教授报告)

    李宏毅机器学习课程-Transfer Learning 深度学习 -> 强化学习 ->迁移学习(杨强教授报告) 链接: http://pan.baidu.com/s/1nu6DMRn 密码 ...

  8. 强化学习q学习求最值_通过Q学习更深入地学习强化学习

    强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...

  9. AI 自动研发机器学习系统,DeepMind 让算法学习强化学习

    人工智能研发的一个大方向是用AI系统来自动化开发AI系统.虽然这一目标尚未实现,但目前的进展让已足够令人人震惊.本文介绍了最新的一些进展,包括伯克利让算法自我优化.MIT自动生成神经网络架构,以及在这 ...

  10. 强化学习——强化学习概述

    文章目录 1. 强化学习 2. 序列决策(Sequential decision making) 3. 动作空间 4. 智能体的组成和类型 4.1 策略 问题:比较随机性策略和确定性策略的优缺点 4. ...

最新文章

  1. 万字干货|逻辑回归最详尽解释
  2. 网络爬虫--之爬起校招信息代码
  3. nginx看最大并发量_Nginx高并发配置思路(轻松应对1万并发量)
  4. JDK安装及java环境配置_JDK安装及Java环境变量配置
  5. java书籍_2020年java从入门到进阶书籍推荐,基础\自学\编程\数据结构\后端\虚拟机\网络\设计模式书籍...
  6. Linux 末路,Kubernetes 崛起!
  7. python教程-Python入门教程完整版(懂中文就能学会)
  8. java 权限管理框架
  9. 快速搭建一个前端模板
  10. 服务器哪个位置插网线,服务器网线接线图
  11. oppo android root工具箱,oppo R11(全网通 安卓8.1)手机完美获取root教程,最强root工具,亲测可用!...
  12. 显卡测试软件velmon,furmark显卡测试工具
  13. 千古第一文人苏轼的众CP
  14. Whatsapp注册步骤
  15. Solana代码解析
  16. op 圣诞节活动_圣诞节到了–这是我们精选的IT饼干笑话
  17. 谈个人价值观与企业价值观(2014年收官之作,值得深思)
  18. warnings模块
  19. java批量发短信软件_如何获得批量短信的发送短信
  20. 筛法求素数 (20分)

热门文章

  1. CentOS8安装artifactory社区版
  2. 如何设置WORD中图片自动编号
  3. 旺店通·企业奇门与金蝶云星空对接集成查询销售出库单连通[旺店通][销售出库单标准新增]-v1(旺店通->金蝶销售出库单--零售销售(手工运维))
  4. 关于UBNT 8.5.1版本无法从有线端管理设备的bug
  5. [网络广播] SQL Server 主数据管理结合 BizTalk Server SOA 架构实现保险行业 ECIF 解决方案
  6. BDC 3种方法综述
  7. 呼叫中心mvb事件方法总结草稿
  8. Java String API 常用的String方法详解
  9. 【Jodd】Jodd工具
  10. CAD看图软件,打印黑白CAD图纸