智源导读:近年来,深度强化学习技术在游戏人工智能领域、推荐系统、搜索系统、网络优化、供应链优化、自动驾驶和芯片设计等领域取得了大量成果。

华为诺亚方舟决策与推理实验室郝建业近期在北京智源大会上发表了题为《深度强化学习的挑战及落地》的主题演讲。在演讲中,郝建业博士指出,深度强化学习当前存在的挑战主要有三个方面:(1)奖励信号难以设计;(2)强化学习算法学习效率较低;(3)模型泛化能力弱。

整理:任黎明

排版:马瑞军

郝建业博士,华为诺亚方舟决策推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目10余项,研究成果荣获ASE2019、DAI2019、CoRL2020最佳论文奖等,同时在游戏AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

01

奖励信号挑战

强化学习算法难以学到正确的监督或协作信号以得到期望的目标或奖励收益,解决该挑战的方法有:(1)通过双水平优化奖励参数自动地添加奖励修正,引导强化学习智能体获得优异的学习策略,最大化真实环境下的奖励;(2)按照时序分配奖励,基于路径将多智能体的总体Q值分配给每个智能体。

图1:奖励信号难以设计

02

算法学习效率挑战

目前,强化学习算法学习效率较低,可以通过先验知识提升新任务的学习效率解决该挑战,主要的方法有:(1)策略迁移,从多任务中形成自适应策略迁移,用前k个任务的策略自适应地选择第k+1个任务的策略,提升新任务的策略学习效率;(2)价值函数迁移,在环境交互中,确定估计策略的位置,并根据策略更新及其新策略值,不断地进行策略的近似评估和泛化迭代,实现新任务中进行未知策略位置的知识迁移,以提升策略迭代的效率;(3)环境动态迁移,在黑盒神经网络中利用交互作用数据拟合和估计模型生成虚拟数据提升强化学习策略的性能,基于此,郝建业提出了基于模型强化学习的环境动力学解耦架构,可以自动的将动作维度解耦为不同的部分,再通过解耦预测模型将每个部分建立为子模型,最后将所有的子模型聚合输出新任务的状态和奖励。

图2:强化学习学习效率低

03

模型泛化能力挑战

模型泛化能力弱的问题可以通过深度强化学习促使决策多样性的方法解决,为此,郝建业提出了基于演化-深度强化学习框架。在演化架构中,将深度强化学习作为新算子融入该架构,生成多种差异化较大的策略,应用于多目标优化提升新任务的多样性。该架构可应用于软件测试提升探索的效率以及游戏行为的多样化生成。此外,郝建业还将该框架应用于路口交互、窄道会车、高速换直等强交互的自动驾驶仿真器场景,通过演化学习技术实现强交互场景社会车辆行为真实多样,提升仿真真实性,解决多车交互博弈任务中,现有模拟器仿真场景交互能力与实际差异太大的问题。

图3:强化学习泛化性能弱

同时,郝建业指出当下深度强化学习的主要应用有三个方面:(1)5G网络优化-多频段参数优化;(2)供应链优化;(3)芯片3D-IO布线优化。

04

5G网络优化应用

5G网络优化-多频段参数优化的难度在于:(1)网络复杂度急剧加深,如中国移动10+频段,组网场景50+种;(2)网络中待优化参数空间巨大(400+);(3)邻域小区间在水平或垂直方向相互影响,需协同优化;(4)传统方法依靠人工优化,增益和效率无法保障。为解决上述问题,郝建业提出了基于专家经验的多智能体强化学习方法,将显性业务知识嵌入到神经网络中,降低探索空间实现垂直水平多小区间协同优化,以及通过Geom-GCN的全局Critic网络设计,更好地实现小区间协同,研究结果表明该方法可将模型的性能提升15%左右。

05

供应链优化应用

在供应链优化问题中,郝建业提出了基于强化学习的分层优化架构,在给定投递中任务中,通过最优化派单和车辆行驶路线,在满足交付和运输约束的前提下,实现运输成本的最小化。在取货任务中,郝建业设计了基于分层强化学习的动态取送货优化算法,上层通过学习的方式快速对动态问题进行分割;针对每个静态问题,下层则采用学习的方式对当前的解进行快速局部搜索得到近似最优解。通过实际生产数据集的测试结果表明了该方法求解质量高、运行速度快及泛化性能强,并能够大幅度提升优化目标。

图4:基于强化学习的分层优化架构研究结果

06

芯片3D-IO布线优化

在芯片3D-IO布线优化问题中,郝建业提出了基于强化学习的二分图匹配优化方法,将该问题建模为二分图匹配问题,引入最小代价最大流算法完成布线,并根据重要性对IO-BUMP类型排出优先级,需要连通数量最多的优先最高,并在低优先级构建解空间时将与高优先级已布线有冲突的解删掉以实现全局最优,测试结果表明该方法可以提升3.8%-15.4%连通数。

最后,郝建业认为当前强化学习面临诸多挑战的主要原因可以总结为缺乏有效的监督/协作信号、学习效率低及学习泛化能力弱,并指出深度强化学习难以大规模应用的主要挑战在于虚拟场景和物理场景的隔阂,其具体表现为:(1)缺乏良好的表征(自监督学习);(2)减小仿真器的依赖(离线/批量强化学习);(3)大规模复杂系统难以设计有效地多智能体强化学习。


华为诺亚方舟郝建业:深度强化学习的三大挑战相关推荐

  1. 华为诺亚方舟实验室多项强化学习研究成果获IJCAI 2020录用

    本文转载自诺亚实验室. 近期,华为诺亚方舟实验室(决策推理实验室-强化学习研究团队)的3项研究成果被人工智能领域顶级会议IJCAI(录取率12.6%)接收(一作都为实习生,主要工作在华为实习期间完成) ...

  2. 【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:华为诺亚方舟实验室官微 诺亚方舟实验室(No ...

  3. 【华为诺亚方舟实验室】招聘:决策推理(强化学习)研究方向(实习、应届、社招、博后)均可以

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 参与讨论,提问等 请注册.登录 ...

  4. 深圳内推 | 华为诺亚方舟实验室招聘机器学习/深度学习算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 华为 华为诺亚方舟实验室是世界领先的工业实验室,在深圳.香港.北京.上海. ...

  5. gCastle | 华为诺亚方舟实验室自研的因果结构学习工具链

    文章目录 一.简介和安装 二.算法使用实践 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一.简介和安装 gCastle 是华为诺亚方舟实验室自研的因果结构学习工 ...

  6. 北京内推 | 华为诺亚方舟实验室招聘自动驾驶预测/规控/仿真算法研究员

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 华为 华为诺亚方舟实验室(Noah's Ark Lab)是华为的 AI 能 ...

  7. 北京/深圳招聘 | 华为诺亚方舟实验室招聘决策推理方向实习生、博士后等

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 华为 诺亚方舟实验室(Noah's Ark Lab)是华为公司从事人工智能 ...

  8. 华为诺亚方舟实验室—推荐系统中的前沿技术研究与落地报告

    来源:专知 [导读]9月6-7日,2019中国AI开发者大会(AI ProCon 2019) 在北京拉开帷幕.本次大会由新一代人工智能产业技术创新战略联盟(AITISA)指导,鹏城实验室.北京智源人工 ...

  9. 【华为诺亚方舟实验室】招聘决策推理方向实习生、博士后

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 华为 诺亚方舟实验室(Noah's Ark Lab)是华为公司从事人 ...

最新文章

  1. Go 知识点(13) — 如何判断变量类型
  2. Redis源码分析--lookupKey函数查看value值
  3. ORB-SLAM2-金字塔求解-特征点的提取-描述子的计算
  4. Weblogic 数据源及连接池配置问题Warning! Connectivity to backend database not verified
  5. php system startup,opencart Warning: require_once(/system/startup.php) failed to open stream
  6. tif 高程_Global Mapper中80坐标系高程DEM与kml文件叠加实例
  7. BZOJ4435 : [Cerc2015]Juice Junctions
  8. DevC++的一些使用技巧
  9. 接unityads_[蛮牛教程]unity接入unity Ads详细流程
  10. Java - springboot中md5加解密工具类
  11. idea项目工具窗口
  12. htpasswd小工具生成密码
  13. Spark机器学习实验
  14. 【时空序列预测第四篇】PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive
  15. 使用Fiddler劫持网络资源
  16. linux网络编程中端口号和ip地址转换方法
  17. 如何将高效设计应用于 DAO?
  18. OSDI2020:Delos中的虚拟共识
  19. 培训机构管理信息系统设计与开发(一)
  20. 1079. 活字印刷

热门文章

  1. 【c语言】求最大最小值
  2. html修改headicon,index.html
  3. matlab 互信息函数,MATLAB 互信息函数
  4. 部分背包的贪婪算法 java_使用JAVA实现算法——贪心算法解决背包问题
  5. 洛谷P2252 取石子游戏(威佐夫博弈)
  6. ArcEngine开发中“错误类型****未定义构造函数”
  7. keepalived_nginx实现discuz负载均衡和高可用
  8. 序列发生器组件 Example 程序
  9. 你们需要客户端吗?大话软件企业的营销(上)
  10. OpenGL材质和光照(转)part1