叶杰平:主流强化学习过分简化假设,与真实场景差距较大
智源导读:决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一。在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大。
近年来,该方向已经取得了一系列瞩目的进展,比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。
对此,贝壳找房副总裁、首席科学家,智源研究员叶杰平从问题建模、算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。
叶杰平,贝壳找房副总裁、首席科学家,智源研究员,密西根大学教授,IEEE Fellow、ACM杰出科学家。叶杰平博士主要从事机器学习、数据挖掘和大数据分析领域的研究,致力于推进人工智能技术在出行、居住和医疗等领域的应用。他曾获得KDD和ICML最佳论文奖,荣获2010年美国国家自然科学基金会生涯奖、2017年中国计算机学会“CCF科学技术奖科技进步卓越奖”、2019年度国际运筹学领域顶级实践奖--瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)。
叶杰平博士是2021智源大会强化学习与决策智能论坛的主席。本专题论坛将邀请国防科技大学智能科学技术系主任徐昕、美国密西根大学教授应雷、美国西北大学助理教授汪昭然、华为诺亚方舟决策推理实验室主任郝建业、滴滴AI Labs首席研究员秦志伟等知名嘉宾共同探讨相关领域面临的机遇和挑战。
2021智源大会群英荟萃,已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson,Peter Dayan以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式,30+分论坛,线上报名已开启,详情参见官网https://2021.baai.ac.cn/(详细议程持续更新中)。
人工智能领域不容错过的内行分享,等你一同见证!
作为一种新兴技术,当前强化学习与决策智能仍面临大量挑战。接下来我们将从问题建模和算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。
01
问题建模
当前挑战:强化学习的奖励设计(描述学习目标)与状态定义(描述输入信号)不仅严重依赖于专家经验,且往往需要消耗大量人力反复调整建模方式。
首先,奖励函数的设计极具挑战性。奖励函数是描述智能体目标的特殊信号,对决策算法习得的策略有决定性的影响。以超级马里奥游戏为例,直接以“过关”作为奖励,则引导智能体学习的奖励信号会过于稀疏(一关仅一个奖励信号),进而导致算法的学习效率极低,甚至无法学到过关的策略。而综合考虑其他因素,如存活时间、击杀怪物得分,收集金币的数量等,需要进行大量的试错来平衡不同因素在奖励函数中的权重,以避免智能体出现无意义刷分的行为。
超级马里奥
其次,状态空间的定义仍需领域专家耗费大量精力进行多次尝试。真实环境中的输入信息存在多模态,高维度的特点,需要针对特定任务选择相应的信息和特征提取方法以定义策略学习所需的状态。
如在自动驾驶任务中,汽车的输入信号可以来自于摄像头、激光雷达、油量传感器、速度传感器、GPS信号等多种传感器。此外,行驶、停车入库,路线导航等不同的决策场景需要的信息存在差异。此时,为自动驾驶任务定义状态空间需要领域专家反复权衡不同决策场景的重要性、传感器成本、信息处理难度和策略学习难度等多种因素。
前沿进展:
1. 近年来,学界提出使用内在奖励(intrinsic reward)降低奖励函数设计时的人工成本。
内在奖励启发自心理学中的内在动机(intrinsic motivation)。举例来说,婴儿仅受内在好奇心的驱动便会积极探索房间的各个区域,无需父母给出特定形式的外部奖励。类似地,我们可以在决策算法中引入类似于“好奇心”的内在驱动力。此时,我们只需设计简单的稀疏奖励,便能引导智能体学习到有意义的策略。OpenAI 提出随机网络蒸馏,鼓励智能体探索具有较高不确定的状态。该方法是首个不依赖人类经验,在《蒙特祖玛的复仇》(雅达利游戏中最困难的稀疏奖励任务之一)中超过人类玩家平均水平的智能算法。
《蒙特祖玛的复仇》中的强化学习实践
2. 为降低设计状态空间的成本,研究者尝试融合表示学习与强化学习,自动地从原始输入中提取低维的状态特征。
具体地,可以选择廉价的传感器(如摄像头)获取原始输入,然后通过表示学习方法将高维的原始输入映射为低维的向量表示,同时保留原始状态中任务相关的语义信息。在机器人的仿真控制中,融合表示学习技术的决策算法可以在仅使用图像输入的情况下达到与使用多个不同传感器(获取关节速度与角度信息)时相当的性能。此外,针对视频游戏任务,David Ha与Juergen Schmidhube提出世界模型(World Models) 。该方法以游戏图像作为输入,结合了自监督学习、循环神经网络等多项表示学习技术来提升智能体对环境的理解。
图灵奖得主Yann LeCun评价该方向是弥补强化学习不足与通向下一代人工智能的关键点。韩国科学技术院使用图神经网络学习能源网络的低维表示,进而使用强化学习方法学习能源网络的控制策略,获得了WCCI 2020电网调度大赛的冠军。
02
算法设计
当前挑战:主流的强化学习算法在设计时往往对环境和智能体进行了过分简化的假设,与真实场景下的落地应用仍有较大的距离。
其一,现有算法常常假设智能体可以获知全部环境信息(即完全可观测),但在国防安全、智能制造等落地场景中,智能体往往只能获取决策所需信息的一部分(即部分可观测)。
其二,现有算法主要考虑单一智能体或较小规模的多智能体系统。但是在物流调度、电网控制等重要决策任务中,存在庞大数量的智能体。值得一提的是,共享车辆调度任务作为强化学习方向最有潜力的落地场景之一(预计市场规模在2025年达到2180亿美元),需要同时考虑部分可观测性与庞大数量的智能体集群,对算法设计提出了更高的要求。
前沿进展:得益于大规模强化学习训练技术的发展,近年来在上述复杂场景下的强化学习算法已经取得了一系列令人瞩目的成就。
例如,在棋牌对弈领域,以AlphaZero、MuZero为代表的棋类游戏算法将深度强化学习与蒙特卡洛树搜索、自博弈等技术结合,战胜了围棋领域的人类世界冠军,实现了强化学习在双人博弈问题上的落地应用;在竞技游戏领域,AlphaStar在游戏《星际争霸》中克服了状态观测不完全、实时决策、稀疏奖励等诸多难点,OpenAI Five在游戏《Dota 2》中实现了多智能体场景下的协作和竞争,这些游戏算法应用大规模强化学习训练技术,达到了匹敌人类顶级职业选手的表现。针对共享车辆调度任务,滴滴提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单方法,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在线的AB实验证明,这种基于深度强化学习的派单算法能够显著提升平台各项效率及用户体验。
更多相关内容敬请关注智源大会强化学习与决策智能论坛
扫码加入「强化学习」论坛交流群,参与相关话题讨论
叶杰平:主流强化学习过分简化假设,与真实场景差距较大相关推荐
- 《强化学习周刊》第11期:强化学习应用之模拟到真实
No.11 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,它在模拟到真实领域中的应用研究进展与成果也引发了众多关注.为帮助研究与工程人 ...
- 深度学习-强化学习-图神经网络-自然语言处理等AI课程超级大列表-最新版
本篇文章内容整理自网络,汇集了大量关于深度学习.强化学习.机器学习.计算机视觉.语音识别.强化学习.图神经网络和自然语言处理相关的各种课程.之前分享过一次,经过一年的更新,又补充了很多2019.202 ...
- 《强化学习导论》经典课程10讲,DeepMind大神David Silver主讲
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 这个经典的10部分课程,由强化学习(RL)的驱David Silver教授,虽然录制于2015年 ...
- 深度强化学习(DRL)一:入门篇
目录 前言 一.强化学习(RL)的基本概念 二.主要强化学习算法 2.1 Qlearning 2.2 Deep-Qlearning 2.3 Double-DQN 2.4 Sarsa 2.5 Sarsa ...
- 强化学习如何真正实现任务自动化?不妨试试「两步走」策略!
导语:强化学习会是我们开启自动化之门的金钥匙吗? 雷锋网 AI 科技评论按:作为行为主义学派的重要技术,近年来,强化学习在 Atari 游戏领域大放异彩.然而,人们要想将强化学习技术真正应用于现实世界 ...
- 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero
来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
- 多智能体深度强化学习综述与批判——Matthew E. Taylor
这篇综述是华盛顿大学的Matthew E. Taylor总结的,"A Survey and Critique of Multiagent Deep Reinforcement Learnin ...
- 【17】 强化学习 17章 前沿技术
文章目录 名词 离轨策略 折扣过程 折扣系数 价值函数 广义策略迭代(4.6节)或者"行动器一评判器"算法 正文 17.1 广义价值函数和辅助任务 1.广义价值函数是什么? 2.辅 ...
- 【人工智能】Rutgers大学熊辉教授:《易经》如何指导我们做人工智能;这里有一篇深度强化学习劝退文
导读 我们看这个世界主要有两种方式:一种方式是从上往下看世界:另外一种是东方人所擅长的<易经>方法看世界,也就是归纳法,从下往上看世界.<易经>追求三易,不易.变易和简易.大道 ...
最新文章
- 【深度学习】keras框架使用预训练模型进行Finetune的应用
- 后台开发必读书籍--算法导论
- MTK 平台上查询当前使用的摄像头模组及所支持预览分辨率
- 【JavaScript】jQuery Ajax 实例 全解析
- 「Apollo」protobuf报错No module named ‘google‘
- 如何修改elementUI里面Dialog组件标题的样式
- hystrix隔离策略对比
- WannaCry 勒索病毒用户处置指南
- goreman 多进程管理工具
- sql server,mysql,oracle 获取上一月时间
- 嵌入式c语言小学期实验报告,小学期单片机实验报告.doc
- 北京胜新疆夺CBA总冠军 苏群:广东依旧实力最强
- linux安装glib,glib源码安装使用方法
- 在Unity2018如何使用代码一键设置Icon
- PHP面向对象开发:类成员的相关知识
- 生活中的ps!女朋友把菜花烤了一下,结果......
- 【陈工笔记】# 微信小程序实现的基础步骤速记,持续更新关键词 #
- 计算机硬件英语文章带翻译,适合孩子阅读的英语小短文(带翻译)
- CSDN知名安卓博主
- Pycharm安装与设置
热门文章
- c语言中eof_C语言的标准 “输入输出”!今天是你学C语言的第几天?
- python约瑟夫环问题给十个学生编号报到3者出列_趣味算法--约瑟夫环问题(示例代码)...
- php指向mysql路径_编译php 但不知道--with-mysql指向哪个路径
- java fork_浅谈Java的Fork/Join并发框架
- 瓷博会开幕,《锦绣中华》引围观
- 验证码识别,发票编号识别(转)
- leetcode解题报告:188 Best Time to Buy and Sell Stock IV
- 那些在海外市场奋斗的华为人
- 趋势畅想-搭载android系统的智能数码相机
- 2021年南通各高中高考成绩查询,2021年南通所有高中排名一览表