“敢于尝试,才有突破”

2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此机会,介绍一下AlphaGo背后的秘密——增强学习技术。

增强学习(Reinforcement Learning),也称强化学习,是一种在过程中学习提高机器智能的框架。该框架通常可用马尔可夫决策过程(Markov Decision Process)概念来描述,即假设存在智能体(Agent)在约束环境下执行某动作(Action),动作的执行会改变智能体状态(State),其结果会带来奖赏或惩罚。基于此,智能体通过探索最优策略(Policy)或是最大化长期回报(Reward),进而选择最优的执行动作序列。

增强学习应用的核心是建立智能体模型,包括几个核心概念:
- 状态:智能体内在属性的定量描述
- 动作:使智能体状态迁移的行为
- 策略:状态和动作的映射转移函数,例如状态转移概率等
- 回报:评价智能体执行某动作好坏的价值函数
- 环境:与智能体交互的模型,例如建立的马尔可夫决策模型等

根据问题不同,智能体常常使用一个或多个上述概念进行建模,进而可将增强学习粗略分为基于策略的增强学习、基于值(回报)的增强学习,以及基于模型的增强学习。

基于智能体模型,增强学习以“状态”作为输入,通过可能的“动作”与环境进行交互,以“回报”作为动作的评价,利用该过程中累积的“尝试”数据进行训练,从而学习得到最优的策略函数。

相比于经典的有监督学习方法,增强学习无需标注数据,某种意义上可以看作“延迟标注数据”的监督学习方法。增强学习更关注于在线决策的性能,在难以计算最优解时可给出次优解。

相对于经典的近似动态规划方法,增强学习无需显式的建立马尔可夫决策数学模型,更适合求解计算状态空间更加复杂的问题,即人类操作层次的任务,例如游戏AI、无人驾驶、机器人等。

然而,对于语音识别、NLP、计算机视觉等一些很难定义长期回报的应用,增强学习便难以适用。另一方面,智能体建模常常过于抽象,因此一些增强学习的应用距离实际相差还较大。

回到开头,战胜柯洁的Alpha Go使用的便是最新的深度增强学习技术,即在上述介绍的增强学习概念基础上使用深度神经网络描述值函数、策略或者模型。从这项超越现今人类智能的技术上,我们或许可以得到如下启发:
1. 基于深层卷积神经网络判断围棋棋盘的形势,无需数据特征工程,同时能处理巨大的状态空间;
2. 历史棋手对弈数据有限,但可通过自我博弈显著提升人工智能但策略能力;
3. 增强学习技术并不是万能的,它更适合游戏规则确定的应用。

最后,小虾米还将文章内容总结成了更直观的思维导图,需要的朋友,请在数据小虾米公众号后台回复“增强学习”,即可获取下载地址。


数据科学武林风起云涌,
随数据小虾米共闯江湖~

增强学习 | AlphaGo背后的秘密相关推荐

  1. (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

    本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

  2. 深度增强学习(DRL)漫谈 - 从DQN到AlphaGo

    深度增强学习(Deep reinforcement learning, DRL)是DeepMind(后被谷歌收购)近几近来重点研究且发扬光大的机器学习算法框架.两篇Nature上的奠基性论文(DQN和 ...

  3. AlphaGo Zero与增强学习

    2017年10月19日凌晨,DeepMind 在<自然>杂志上发表了一篇论文,正式推出人工智能围棋程序的最新版本--AlphaGo Zero. AlphaGo Zero成长史  最初Alp ...

  4. 探索强化学习算法背后的思想起源!

    https://www.toutiao.com/a6630657888442384909/ 接受生物大脑的混乱和电子大脑的秩序 人们对人工智能的追求总是与另一场斗争交织在一起,更富有哲理.更浪漫.更不 ...

  5. 深度增强学习(DRL)漫谈 - 从AC(Actor-Critic)到A3C(Asynchronous Advantage Actor-Critic)

    前言 之前在文章<深度增强学习(DRL)漫谈 - 从DQN到AlphaGo>扯了一些关于DRL的内容,但因为是以DQN为主线,其中大部分谈的是value-based方法.我们知道传统增强学 ...

  6. 【AAAI Oral】利用深度增强学习自动解数学题,准确率提升15%

    [AI科技大本营导读]增强学习和人类学习的机制非常相近,DeepMind已经将增强学习应用于AlphaGo以及Atari游戏等场景当中.作为智能教育领域的引领者,阿凡题研究院首次提出了一种基于DQN( ...

  7. CC讲坛-大脑疾病背后的秘密-许执恒

    <CC讲坛>第二十期于2017年7月27日在北京东方梅地亚中心M剧场举行,中国科学院遗传与发育生物学研究所研究员许执恒出席并进行题为<大脑疾病背后的秘密>的演讲. 胚胎时期大脑 ...

  8. 云计算背后的秘密(6)-NoSQL数据库的综述

    我本来一直觉得NoSQL其实很容易理解的,我本身也已经对NoSQL有了非常深入的研究,但是在最近准备YunTable的Chart的时候,发现NoSQL不仅非常博大精深,而且我个人对NoSQL的理解也只 ...

  9. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

  10. AlphaGo背后的搜索算法:蒙特卡罗树搜索 alphago 代码

    代码: https://github.com/Rochester-NRT/AlphaGo AlphaGo背后的搜索算法:蒙特卡罗树搜索 本文首发于微信公众号号"编程派".微信搜索& ...

最新文章

  1. 短波通信为何经久不衰?
  2. python多进程的使用方法
  3. 哈希表处理冲突的方法?
  4. 汇编语言start标号的作用
  5. java导数据到Excel
  6. 爬虫+pyecharts数据分析实例:当当网
  7. 小白_Unity引擎_Console控制台
  8. Java开发手册(嵩山版)
  9. ListView刷新时让Item不可点击
  10. 三维扫描仪[11]——总结并展望基于Kinect的三维扫描仪
  11. grep -q 大小比较
  12. 阿里云服务器购买了还需要买数据库吗?
  13. 雅思口语练习必备100个经典句子
  14. AMT说产业互联网络
  15. SEO是什么意思?seo入门者必读
  16. py socket5 代理
  17. LTE下行物理层传输机制(4)-CCE
  18. vue 移动端 div背景图片 pc端显示 移动端不显示
  19. Themida WinLicense免费下载脱壳使用教程功能介绍大全
  20. 算法的威力(Google的算法优势)

热门文章

  1. BUUCTF------相册
  2. codeproject 调试技巧 学习笔记
  3. 向android模拟器中复制文件报out of memory错误解决
  4. Vue学习笔记(尚硅谷天禹老师)
  5. 技术分享|Javascript高级教程学习指南
  6. Springboot+Thymeleaf《药品管理系统》
  7. Linux版awvs破解详细步骤
  8. 电话机器人源码部署原理及技术难点
  9. JetBrains Resharper VS2017 破解方法(License Server 破解方法)
  10. Java后端开发常用规范