文章目录

  • 所解决的问题?
  • 背景
    • MCTS
    • Maximum Entropy Policy Optimization
    • Softmax Value Estimationin Stochastic Bandit
  • 所采用的方法?
  • 取得的效果?
  • 论文题目:Maximum Entropy Monte-Carlo Planning

所解决的问题?

  1. 作者提出了一个新的stochastic softmax bandit框架;
  2. 将其扩展到MCTS上,得到了Maximum Entropy for Tree Search (MENTS)算法。

  将softmax state value引入,在back-propaganda过程中会更容易收敛。作者在理论和实验部分都验证了这两个想法。

背景

MCTS

   Monte Carlo Tree Search (MCTS)是一种非常好的能够获取全局最优的算法,同时也可以通过引入先验知识对其进行加强。它的核心问题在于exploitationexploration的平衡。而MCTS的收敛性高度依赖于state valueestimation。而MCTS通过simulation获得当前状态的估计这种做法并不是非常高效,因此在sample的过程中你的policy会发生改变,导致你的序列期望收益会发生漂移(drift),因此 UCT can only guarantee a polynomial convergence rate of finding the best action at the rootMCTS主要可以分为两步:1. tree policy选择action,直到到达叶子节点。2. 一个evaluation function需要评估simulation return,你可以选择近函数近似的方式来逼近这个值,但是在MCTS中采用的是roll-out policy获取simulation return

  maximum upper confidence bound(UCB)算法用于平衡探索和利用:

UCB⁡(s,a)=Q(s,a)+clog⁡N(s)N(s,a)\operatorname{UCB}(s, a)=Q(s, a)+c \sqrt{\frac{\log N(s)}{N(s, a)}}UCB(s,a)=Q(s,a)+cN(s,a)logN(s)​​

  其中N(s)=∑aN(s,a)N(s)=\sum_{a}N(s,a)N(s)=∑a​N(s,a),ccc是控制exploration的参数。

Maximum Entropy Policy Optimization

  最大熵的策略优化问题其实就是在expected reward目标上引入一个entropy的约束。可表示为:

max⁡π{π⋅r+τH(π)}\max _{\pi}\{\pi \cdot \mathbf{r}+\tau \mathcal{H}(\pi)\}πmax​{π⋅r+τH(π)}

  其中τ\tauτ是控制exploration的参数。定义softmax Fτ\mathcal{F_{\tau}}Fτ​和soft indmaxfτ\mathbf{f}_{\tau}fτ​:

fτ(r)=exp⁡{(r−Fτ(r))/τ}\mathbf{f}_{\tau}(\mathbf{r})=\exp \left\{\left(\mathbf{r}-\mathcal{F}_{\tau}(\mathbf{r})\right) / \tau\right\} fτ​(r)=exp{(r−Fτ​(r))/τ}

Fτ(r)=τlog⁡∑aexp⁡(r(a)/τ)\quad \mathcal{F}_{\tau}(\mathbf{r})=\tau \log \sum_{a} \exp (r(a) / \tau)Fτ​(r)=τloga∑​exp(r(a)/τ)

  其中的关系为:

Fτ(r)=max⁡π{π⋅r+τH(π)}=fτ(r)⋅r+τH(fτ(r))\mathcal{F}_{\tau}(\mathbf{r})=\max _{\pi}\{\pi \cdot \mathbf{r}+\tau \mathcal{H}(\pi)\}=\mathbf{f}_{\tau}(\mathbf{r}) \cdot \mathbf{r}+\tau \mathcal{H}\left(\mathbf{f}_{\tau}(\mathbf{r})\right)Fτ​(r)=πmax​{π⋅r+τH(π)}=fτ​(r)⋅r+τH(fτ​(r))

  因此用softmax value function去替代hard-max operator可以得到softmax operator

Qsft∗(s,a)=R(s,a)+Es′∣s,a[Vsft∗(s′)]Q_{\mathrm{sft}}^{*}(s, a)=R(s, a)+\mathbb{E}_{s^{\prime} | s, a}\left[V_{\mathrm{sft}}^{*}\left(s^{\prime}\right)\right]Qsft∗​(s,a)=R(s,a)+Es′∣s,a​[Vsft∗​(s′)]

Vsft∗(s)=τlog⁡∑aexp⁡{Qsft∗(s,a)/τ}V_{\mathrm{sft}}^{*}(s)=\tau \log \sum_{a} \exp \left\{Q_{\mathrm{sft}}^{*}(s, a) / \tau\right\}Vsft∗​(s)=τloga∑​exp{Qsft∗​(s,a)/τ}

  最后可以得到optimal softmax policy

πsft∗(a∣s)=exp⁡{(Qsft∗(s,a)−Vsft∗(s))/τ}\pi_{\mathrm{sft}}^{*}(a | s)=\exp \left\{\left(Q_{\mathrm{sft}}^{*}(s, a)-V_{\mathrm{sft}}^{*}(s)\right) / \tau\right\}πsft∗​(a∣s)=exp{(Qsft∗​(s,a)−Vsft∗​(s))/τ}

Softmax Value Estimationin Stochastic Bandit

  在stochastic bandit中,环境给定的reward是随机的,或者说会满足一个分布。stochastic softmax bandit 问题与传统的stochastic bandits问题的区别在于,它不是期望去找到最大化期望奖励的policy,而是去估计softmax value Vsft∗=Fτ(r)V_{sft}^{*} = \mathcal{F}_{\tau}(\mathbf{r})Vsft∗​=Fτ​(r)。定义Ut=∑aexp⁡{r^t(a)/τ}U_{t}=\sum_{a} \exp \left\{\hat{r}_{t}(a) / \tau\right\}Ut​=∑a​exp{r^t​(a)/τ},U∗=∑aexp⁡{rt(a)/τ}U^{*}=\sum_{a} \exp \left\{r_{t}(a) / \tau\right\}U∗=∑a​exp{rt​(a)/τ}。因此会有Vt=Fτ(r^t)=τlogUtV_{t} = \mathcal{F}_{\tau}(\hat{r}_{t})=\tau logU_{t}Vt​=Fτ​(r^t​)=τlogUt​,我们的目标就变成了最小化均方差误差E\mathcal{E}E。

Et=E[(U^∗−Ut)2]\mathcal{E}_{t}=\mathbb{E}\left[\left(\hat{U}^{*}-U_{t}\right)^{2}\right]Et​=E[(U^∗−Ut​)2]

  基于上述讨论作者提出了一种解决序贯决策中softmax value估计的办法(Empirical Exponential Weight (E2W) ),直观的理解就是期望足够的探索用于保证得到较好的估计值,进而使得policy收敛于最优策略π∗\pi^{*}π∗。动作的采样分布如下所示:

πt(a)=(1−λt)fτ(r^)(a)+λt1∣A∣\pi_{t}(a)=\left(1-\lambda_{t}\right) \mathbf{f}_{\tau}(\hat{\mathbf{r}})(a)+\lambda_{t} \frac{1}{|\mathcal{A}|}πt​(a)=(1−λt​)fτ​(r^)(a)+λt​∣A∣1​

  其中 λt=ε∣A∣/log⁡(t+1)\lambda_{t}=\varepsilon|\mathcal{A}| / \log (t+1)λt​=ε∣A∣/log(t+1),表示探索的衰减系数。

所采用的方法?

  作者将MCTSmaximum entropy policy结合起来,得到MENTS算法,能够获得更快的收敛速度。两点创新:

  1. 使用E2W算法作为树搜索的策略;

πt(a∣s)=(1−λs)fτ(Qsft(s))(a)+λs1∣A∣\pi_{t}(a | s)=\left(1-\lambda_{s}\right) \mathbf{f}_{\tau}\left(\mathbf{Q}_{\mathrm{sft}}(s)\right)(a)+\lambda_{s} \frac{1}{|\mathcal{A}|}πt​(a∣s)=(1−λs​)fτ​(Qsft​(s))(a)+λs​∣A∣1​

  1. 使用softmax value评估每个节点并用于simulations的反向传播。

  其中Q-Value的估计使用softmax backup

Qsft(st,at)={r(st,at)+Rt=T−1r(st,at)+Fτ(Qsft(st+1))t<T−1Q_{\mathrm{sft}}\left(s_{t}, a_{t}\right)=\left\{\begin{array}{ll} r\left(s_{t}, a_{t}\right)+R & t=T-1 \\ r\left(s_{t}, a_{t}\right)+\mathcal{F}_{\tau}\left(\mathrm{Q}_{\mathrm{sft}}\left(s_{t+1}\right)\right) & t<T-1 \end{array}\right.Qsft​(st​,at​)={r(st​,at​)+Rr(st​,at​)+Fτ​(Qsft​(st+1​))​t=T−1t<T−1​

取得的效果?


我的微信公众号名称:深度学习先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

【NeurIPS 2019】最大熵的蒙特卡洛规划算法相关推荐

  1. 商汤插帧算法让视频顺滑如丝丨NeurIPS 2019 Spotlight论文

    点击我爱计算机视觉标星,更快获取CVML新技术 自相机被发明以来,人们对更高画质视频的追求就没有停止过. 分辨率从480p,720p,再到1080p,现在有了2K.4K:帧率也从25FPS到60FPS ...

  2. 蚂蚁金服提新概率图模型GLN,正确率提升8.2%,具备可解释性 | NeurIPS 2019

    作者 | 蚂蚁金服 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) [导读]一年一度的国际顶级学术会议NeurIPS 2019将于12月8日至14日在加拿大温哥华举行.作为人 ...

  3. 创新工场论文入选NeurIPS 2019,研发最强“AI蒙汗药”

    9月4日,被誉为机器学习和神经网络领域的顶级会议之一的 NeurIPS 2019 揭晓收录论文名单,创新工场人工智能工程院的论文<Learning to Confuse: Generating ...

  4. 将特定像素点在图像上连接起来_(NeurIPS 2019) Gated CRF Loss-一种用于弱监督图像语义分割的新型损失函数...

    本文已经被NeurIPS 2019(2019 Conference and Workshop on Neural Information Processing Systems)接收,论文为弱监督图像语 ...

  5. NeurIPS 2019 | 17篇论文,详解图的机器学习趋势

    来源:深度学习自然语言处理 本文约7400字,建议阅读10+分钟 可高深,也可接地气. 本文来自德国Fraunhofer协会IAIS研究所的研究科学家Michael Galkin,他的研究课题主要是把 ...

  6. 研究你为啥看着淘宝想剁手,阿里达摩院论文登上NeurIPS 2019

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 乾明 编辑整理  量子位 报道 | 公众号 QbitAI 打开淘宝后,你为什么抑制不住 ...

  7. 7 papers | NeurIPS 2019获奖论文;OpenAI刀塔2论文公布

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 目录: Distribution-Independent PAC Learning o ...

  8. NeurIPS 2019 少样本学习研究亮点全解析

    作者:Angulia Chao 编辑:Joni Zhong 少样本学习(Few-Shot Learning)是近两年来非常有研究潜力的一个子方向,由于深度学习在各学科交叉研究与商业场景都有比较普遍的应 ...

  9. 深度学习浪潮下的自然语言处理,百度NeurIPS 2019展现领域新突破

    2019 年 12 月8 日-14 日,机器学习领域国际顶级会议 NeurIPS 2019于加拿大温哥华拉开帷幕.此次大会共吸引了全球1万余名专家学者共赴盛会.本年度,自然语言处理领域在深度学习浪潮下 ...

  10. NeurIPS 2019 获奖论文出炉,微软华人学者Lin Xiao 获经典论文奖

    导语:历史之最,参会1.3万人~ 作为最久负盛名的机器学习顶会之一,今年 NeurIPS 2019 在召开之前就消息不断:在今年论文审稿期间,NeurIPS 2019 程序委员会主席专门发布声明称,1 ...

最新文章

  1. 【TJOJI\HEOI2016】求和
  2. AI公开课:19.04.17杨松帆—好未来AI Lab负责人《为人工智能时代打造一个AI老师》课堂笔记以及个人感悟
  3. 无风险对冲组合的设计
  4. Boost:基于Boost的阻塞udp echo的测试程序
  5. 爬虫python能做游戏吗_一入爬虫深似海,从此游戏是路人!总结我的python爬虫学习笔记!...
  6. 《一本书》文字展示网站Typecho主题
  7. ad6怎么画电阻_德国人怎么学电机——浅谈电机模型(十七):同步电机(四)永磁电机(二)...
  8. 主键和外键举例_mysql 基础篇之主键和外键
  9. C语言 循环群,数学函数符号
  10. Javascript模块化编程 (附WebTrends的dcsMultiTrack方法浅述)
  11. 谷歌浏览器安装 elasticsearch-head 插件
  12. 计算理论基础 第2版 Harry R. Lewis 第1章
  13. android11.0 Launcher3 高端定制之时钟动态图标
  14. 谈谈我在创业公司的感悟
  15. 程序员如何增加收入?
  16. win10下,扩展屏不清晰模糊。
  17. 微信怎么屏蔽他人的朋友圈?图文教学,1分钟学会
  18. 最后一周 | 微生物组-宏基因组分析(线上/线下同时开课,2021.1)
  19. 中企海外周报 | 银联业务拓展到171个国家和地区;徐工集团向非洲客户提供定制化设备...
  20. 活期理财每日计算利率

热门文章

  1. Ext-数据交换-ajax
  2. Python Project Euler 013:100个50位数和
  3. axios 取消请求_封装 axios 取消重复请求
  4. anaconda的python文件打包失败的问题解决方案
  5. 面试之js 数组插入删除
  6. javascript数据结构与算法--散列
  7. 聊聊 Java 中 HashMap 初始化的另一种方式
  8. hdoj1000解题报告
  9. LINUX下用select实现串口通讯示例
  10. android 的NDK在Windwos环境搭建(一)