【Nature论文浅析】基于模型的AlphaGo Zero
文章目录
- 所解决的问题?
- 背景
- 所采用的方法?
- 取得的效果?
- 所出版信息?作者信息?
- 论文题目:Mastering Atari, Go, chess and shogi by planning with a learned model
所解决的问题?
规划planning
一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo
这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一个完美的环境模型,这个条件在真实的世界中是很难被满足的。
背景
基于模型的强化学习方法先学一个环境模型,然后基于所学的这个环境模型去规划能够解决无法在真实环境交互过多的问题。以往的经典的规划算法往往都会依赖被控对象的模型,这样对于实际地落地就存在很大的阻碍。现在做的比较好的基于模型的强化学习算法,都不会聚焦在重建整个的环境,也就是说一般不会重构整个的观测序列。像abstract mdp
和latent space
这类方法都能够比较高效地做值函数的估计。
所采用的方法?
MuZero
是基于AlphaZero
的改进版本。MuZero
扩展AlphaZero
到单个智能体领域以及非终止奖励的控制对象上。
算法主要的思想是预测未来,主要是预测那些可以直接用来规划未来的数据,比如预测未来的值函数。之后就可以基于预测数据进行规划。
- MuZero算法
具体做法是:模型接收一个观测数据(比如游戏的一帧像素),然后将其编码到隐藏状态空间。在隐藏状态空间可以通过给定动作和自回归的方式进行学习和训练。在每一步,模型需要产生(或者说去预测)一个策略,一个值函数(预测的累计奖励),和一个即时奖励的预测(当前步的奖励预测)。模型端到端直接训练好,并且作者这里并不采用dreamer
和planet
学习环境模型的方法,认为模型没有必要具有从隐状态复原到原像素这种能力。隐状态只要能够去正确地估计策略、值函数和即时奖励即可。
如上图所示:图a:1. 给定一个隐藏状态sk−1s^{k-1}sk−1和一个候选动作aka^{k}ak,动态模型ggg需要产生一个即时奖励rkr^{k}rk和一个新的隐藏状态sks^{k}sk。2. 策略pkp^{k}pk和值函数vkv^{k}vk由预测函数fff通过输入sks^{k}sk计算得到vk=fθ(sk)v^{k}=f_{\theta}\left(s^{k}\right)vk=fθ(sk)。动作at+1a_{t+1}at+1从搜索策略πt\pi_{t}πt中采样得到。初始的状态s0s_{0}s0是由过去的观测输入到表示函数hhh中得到的,比如输入空的棋盘。图b:动作at+1a_{t+1}at+1由搜索策略πt\pi_{t}πt产生。环境接收到动作之后产生一个新的观测ot+1o_{t+1}ot+1和即时奖励ut+1u_{t+1}ut+1。图c:MuZero训练整个模型,基于a和b两步,我们已近能够采样到一些数据了。拿到这些数据就可以训练模型了:策略模型pk≈πt+kp^{k} \approx \pi_{t+k}pk≈πt+k;值函数vk≈zt+kv^{k} \approx z_{t+k}vk≈zt+k;和奖励模型rk=≈ut+kr^{k} = \approx u_{t+k}rk=≈ut+k。
给定一个时间步ttt,对于每一步k=0,⋯,Kk=0,\cdots,Kk=0,⋯,K步,一个带有θ\thetaθ参数的模型μθ\mu_{\theta}μθ,基于给定的过去的观测数据条件o1,⋯,oto_{1}, \cdots,o_{t}o1,⋯,ot和未来的动作at+1,⋯,at+ka_{t+1}, \cdots, a_{t+k}at+1,⋯,at+k(其中K>0K>0K>0)来预测未来的:
策略
ptk≈π(at+k+1∣o1,…,ot,at+1,…,at+k)p_{t}^{k} \approx \pi\left(a_{t+k+1} \mid o_{1}, \ldots, o_{t}, a_{t+1}, \ldots, a_{t+k}\right)ptk≈π(at+k+1∣o1,…,ot,at+1,…,at+k)
值函数
vtk≈E[ut+k+1+γut+k+2+…∣o1,…,ot,at+1,…,at+k]v_{t}^{k} \approx \mathbb{E}\left[u_{t+k+1}+\gamma u_{t+k+2}+\ldots \mid o_{1}, \ldots, o_{t}, a_{t+1}, \ldots, a_{t+k}\right]vtk≈E[ut+k+1+γut+k+2+…∣o1,…,ot,at+1,…,at+k]
即时奖励
rtk≈ut+kr_{t}^{k} \approx u_{t+k}rtk≈ut+k
其中uuu是真实地观测奖励,π\piπ是策略,γ\gammaγ是折扣因子。
说白了就是拿到过去的观测数据,编码到当前的隐藏状态,然后再给定未来的动作,就可以在隐藏状态空间中进行规划了。
- 想要实现上述功能,与基于模型的算法一样,两部走;学环境模型和策略规划。
环境模型需要提供的是:1. 状态转移;2. 每个节点允许搜索的动作(减少搜索空间);3. 终止节点。用神经网络来做就好了,环境模型其实是由两部分组成,表示模型和动态模型gθg_{\theta}gθ:
rk,sk=gθ(sk−1,ak)r^{\mathrm{k}}, s^{k}=g_{\theta}\left(s^{k-1}, a^{k}\right)rk,sk=gθ(sk−1,ak)
表示函数hθh_{\theta}hθ对过去的观测进行编码s0=hθ(o1,…,ot)s^{0}=h_{\theta}\left(o_{1}, \ldots, o_{t}\right)s0=hθ(o1,…,ot),得到当前根节点s0s^{0}s0。给定这样一个模型之后,对于一个未来假设的轨迹a1,…,aka^{1}, \ldots, a^{k}a1,…,ak,和给定的过去的观测o1,…,oto_{1}, \ldots, o_{t}o1,…,ot。
- 策略用的是与
AlphaGo Zero
一样的MCTS
策略,需要搜索一个策略πt=P[at+1∣o1,…,ot]\pi_{t}=\mathrm{P}\left[a_{t+1} \mid o_{1}, \ldots, o_{t}\right]πt=P[at+1∣o1,…,ot]和一个值函数vt=E[ut+1+γut+2+…∣o1,…,ot]v_{t} = \mathbb{E} \left[u_{t+1}+\gamma u_{t+2}+\ldots \mid o_{1}, \ldots, o_{t}\right]vt=E[ut+1+γut+2+…∣o1,…,ot]。loss
由策略、值和奖励这三部分的loss
组成:
lt(θ)=∑k=0Klp(πt+k,ptk)+∑k=0Klv(zt+k,vtk)+∑k=1Klr(ut+k,rtk)+c∥θ∥2l_{t}(\theta)=\sum_{k=0}^{K} l^{\mathrm{p}}\left(\pi_{t+k}, p_{t}^{k}\right)+\sum_{k=0}^{K} l^{\mathrm{v}}\left(z_{t+k}, v_{t}^{k}\right)+\sum_{k=1}^{K} l^{\mathrm{r}}\left(u_{t+k}, r_{t}^{k}\right)+c\|\theta\|^{2}lt(θ)=k=0∑Klp(πt+k,ptk)+k=0∑Klv(zt+k,vtk)+k=1∑Klr(ut+k,rtk)+c∥θ∥2
取得的效果?
- 实验结果总之就是很厉害啦!
所出版信息?作者信息?
Julian Schrittwieser
谷歌大脑软件工程师!AlphaGo
和AlphaZero
的项目组成员。
【Nature论文浅析】基于模型的AlphaGo Zero相关推荐
- Nature论文解读 | 基于深度学习和心脏影像预测生存概率
作者丨Peter 单位丨某基因科技公司生物信息工程师 研究方向丨生物信息 本文解读的文章来自今年 2 月份的 Nature 杂志新子刊 Machine Intelligence,标题为:Deep-le ...
- 滴滴KDD2017论文:基于组合优化的出租车分单模型 By 机器之心2017年8月14日 10:29 数据挖掘顶会 KDD 2017 已经开幕,国内有众多来自产业界的论文被 KDD 2017 接收。
滴滴KDD2017论文:基于组合优化的出租车分单模型 By 机器之心2017年8月14日 10:29 数据挖掘顶会 KDD 2017 已经开幕,国内有众多来自产业界的论文被 KDD 2017 接收.本 ...
- 【论文阅读】保守和适应性惩罚+基于模型的安全强化学习
[论文阅读]保守和适应性惩罚+基于模型的安全强化学习 Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Lear ...
- [论文]基于模型的细长体欠驱动水下机器人输出反馈控制:理论与实验
[论文]基于模型的细长体欠驱动水下机器人输出反馈控制:理论与实验 摘要 本文介绍了一种新型细长体水下机器人输出反馈控制器的设计和实验结果.控制器是使用基于模型的设计技术得到的.采用了两个独立的控制设备 ...
- wps 模拟分析 规划求解_【论文】基于双层规划的应急物资邮政运输模型优化方法研究...
戳上面的蓝字关注我们哦! 基于双层规划的应急物资邮政运输模型优化方法研究 周海霞1,2, 梅育荣1,2, 吕福如1,2, 孙知信1,2 1 南京邮电大学国家邮政局邮政行业技术研发中心(物联网技术),江 ...
- 考虑动态响应性能的社区综合能源系统基于模型预测控制的双层调度控制策略论文阅读分享
目录 摘要: 主要内容: 所得结果: 结论: 摘要: 由于环境污染加剧和化石能源短缺,综合能源系统最近吸引了人们对能源开发和利用的兴趣.然而,系统中高比例的可再生能源和可控负载的集成显著增加了系统运行 ...
- “深度学习不能拿来乱用”,Nature论文引发激烈争论
地应栗 发自 凹非寺 量子位 报道 | 公众号 QbitAI "登上Nature的研究,就是重要的研究,还能有这样的缺陷?" 最近几天,哈佛一篇用深度学习预测余震位置的Natur ...
- 研究阿尔茨海默病最经典的Nature论文涉嫌造假
一篇被引用2300多次的Nature论文,竟然涉嫌造假.论文的通讯作者是一名华裔教授(Karen K. Hsiao Ashe). 昨天,Science发表了一篇历时6个月的调查报告,指称美国明尼苏达大 ...
- 【nature论文精读】Impedance-based forecasting of lithium-ion battery performance amid uneven usage
[nature论文精读] Impedance-based forecasting of lithium-ion battery performance amid uneven usage 文章目录 [ ...
- 奇点到来,超越人类 《Nature论文:人工智能从0-1自学打败阿法狗 》论文翻译
翻译前言 阿法狗 ZERO以100:0打败阿法狗 ,引起轰动,论文在Nature发表. 阿法狗 ZERO引起轰动的原因: 1.完全自学,超越人类. 2.发展出超越人类认知的新知识,新策略. 3.能够快 ...
最新文章
- 如果知道一个控件类型的对话框句柄是编辑框控件
- 程序员求职之道(《程序员面试笔试宝典》)之面试官箴言?
- SpringBoot配置在应用启动后立即执行某些方法代码案例
- 【Java代码】坐标系说明+WGS84\GCJ02\BD09坐标系转换工具+Java坐标系转换及验证源代码分享(粘贴可用)
- java8 lambda maplist排序_「java8系列」流式编程Stream
- java停启was集群_shell脚本实现weblogic 节点启停,应用部署
- 深入理解Magento – 第四章 – 模型和ORM基础
- 基础知识—条件判断语句-switch语句
- 20210119:力扣第42周双周赛(下)
- Hexo + github 打造个人博客
- 拉格朗日中值定理ξ怎么求_微分学核心定理——中值定理
- 设计模式(一)----简单工厂、工厂方法和抽象工厂区别
- Effective C# Item47:选择安全代码
- Codejock Xtreme Calendar 最新版下载试用2021版本
- 日语五十音平假名 识读卡片 笔顺
- 计算机删除程序后不能上网,把所有驱动程序全部卸载后电脑还能用吗?还能 – 手机爱问...
- hexo博客yilia-puls主题使用aplayer音乐插件
- 【​观察】机遇和挑战并存 智能手环需要来一次华丽的蜕变
- 文化网页设计成品 web网页设计实例作业 ——古典中国风工艺美术(9页) html+css+javascript网页设计实例
- Opencv去除高光
热门文章
- Java 多线程 简单实例 (Thread)
- H3C 路由备份与IP聚合
- pyqt5 实现右键自定义_Python界面(GUI)编程PyQt5事件和信号
- Linux PXE详解
- HTTP、HTTP2、HTTPS、SPDY等的理解及在spring-boot中的使用
- 20180312顺序查找
- js多个(N)个数组的的元素组合排序算法,多维数组的排列组合或多个数组之间的排列组合...
- 使用group by rollup和group by cube后的辅助函数
- 由于本机的限制,该操作已被取消。请与系统管理员联系
- 垂直搜索引擎模块设计