点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在一个两人深度强化学习任务中,最近的研究表明,攻击者可以学习一种敌对策略,这种策略会触发目标代理表现不佳,甚至以不希望的方式做出反应。然而,它的有效性在很大程度上依赖于两人博弈中的零和假设。在这项工作中,我们提出了一种新的对抗式学习算法。它通过在学习过程中重置优化目标和设计新的代理优化函数来解决该问题。我们的实验表明,与现有的攻击相比,我们的方法显著提高了对手代理的可利用性。此外,我们还发现我们的方法可以增强代理滥用目标博弈不公平性的能力。最后,我们证明了针对我们的对抗性代理进行对抗性重新训练的代理可以获得更强的对抗性。

本期AI TIME PhD直播间,我们邀请到宾州州立大学博士——郭文博,为我们带来报告分享《对抗深度强化学习策略的训练和理论保障》。

郭文博:

宾州州立大学博士,研究方向主要是机器学习和安全,并在相关领域的顶级期刊与会议上发表论文多篇,包括ICML,NeurIPS, CCS, USENIX Security, NDSS等。获得ACM CCS Outstanding Paper Awards,2018, IBM PhD, Fellowship Award,2020以及Facebook/Baidu Ph.D. Fellowship finalists, 2020。

01

 背   景 

深度学习在计算机视觉、自然语言处理、恶意软件检测等领域的表现都享有主导地位,近年来整合深度学习的强化学习(DRL)在许多决策任务上都有优异的表现,具体可参考下图的三篇工作。DRL在游戏中也有很广泛的应用,比如AlphaGo、扑克、星际争霸、Dota等。

下面简单介绍一下强化学习背景。参考下图,在一个环境中有一个agent,这个agent根据环境(environment)发出的观察结果(observation)在每个时间段输出一个动作(action)。Environment会接收agent的action,转移到下一个状态,并对agent的action做出reward评估,然后发出下一个观察结果。

强化学习算法的目标是学习一个最优策略(Policy),根据该策略,agent可以在一段时间内获得最大数量的reward。

02

 方   法 

首先我们介绍一下本文如何学习一个agent。

我们用Policy网络为Policy建模,输入是环境给出的observation,输出是agent给出的action,通过Policy gradient法来训练Policy 网络。Value网络用于近似一个值函数,使得最终Policy网络产生的action可以获得最大数量的reward。在每次迭代中通过最小化近似误差来更新Value网络,通过最大化Value函数更新Policy网络。

现有的DRL攻击能够通过Threat Model来干扰observation并迫使DRL agent采取次优action。下图在Observation加入背景扰动攻击,input几乎无变化,但是由于这个攻击的存在,会使得最终的action变化很大。

另外,背景扰动攻击有时是不切实际的,比如自动驾驶场景下,无法改变天空等环境的observation。2020年有一篇ICML的文章(Gleave, et al, 2020)提出一种可以不改变环境的attack:将受害者agent视为环境的一部分,训练对抗agent以获得最大reward(即,在受害者agent参与的情况下,使对抗agent的价值函数最大化)。这篇工作的缺点是无法证明非零和设置的有效性,对抗agent无法有效阻止受害者agent获得奖励,也无法完成任务。

因此,本文提出了一个attack方法,在最大化对抗reward的同时防止受害者获得奖励——在学习目标函数中明确设计这两个目标,如下图。该目标函数最大化了对抗agent的值函数,同时最小化了受害agent的值函数。这里,是一个联合策略。

但在这个目标函数有个挑战,看过TRPO文章的应该了解到,如果要训练一个有效的强化学习agent,在训练过程中,目标函数的值是单调变化的,即保证下面的单调性。

那我们是如何保证这个单调性的呢?我们将Markov game退化为单个agent的环境,受TRPO设计的启发,我们通过设计预期reward差的近似值——M函数来解决上述单调性挑战。

03

 实   验 

我们使用五个选定的游戏(即四个MuJoCo游戏和星际争霸II)来评估我们提出的学习算法。

Exploitability评估结果:

对抗性agent对受害者agent的性能比较。对抗性agent通过两种不同的方法获得——本文提出的方法(红线)和现有的方法(蓝线)(Glave等人,2020年)。请注意,较暗的实线表示平均获胜(加平局)率,而较亮的条带表示最大和最小获胜(加平局)率之间的相应变化。突出显示的y轴标签是迭代总量中最高的平均获胜/非失败率。

Adversary Resistance评估结果:

使用我们提出的目标函数,针对我们的对抗性agent对受害者agent进行再训练。下图的表现说明attack可以帮助提升鲁棒性。

与我们的对抗性agent和通过现有攻击获得的对抗agent一起,扮演针对我们的对抗agent重新训练的受害者,反之亦然。

下面的实验是为了比较一下本文方法与ICML2020文章(Glave等人,2020年)相比,在鲁棒性方面的表现。表中的数字是经过再训练的受害者agent的胜负加平局。实验结果符合我们的假设:attack可以帮助提升鲁棒性,当攻击者越强,模型鲁棒性相应地会越强。

论文链接:

http://www.personal.psu.edu/wzg13/publications/icml21_1.pdf

论文题目:

Adversarial Policy Learning in Two-player Competitive Games

点击“阅读原文”,即可观看本场回放

整理:AI Timer

审核:郭文博

直播预告

1月19日 19:30  青年科学家-15 

《如何通过极弱监督来完成海量文本的结构化?》——加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授商静波

1月20日 19:30  青年科学家-16

《原始数据中的反绎知识归纳》——英国帝国理工学院计算机系副研究员戴望州

往期精彩文章推荐

记得关注我们呀!每天都有新知识!

关于AI TIME

2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!

干货!对抗深度强化学习策略的训练和理论保障相关推荐

  1. 「对抗深度强化学习」是如何解决自动驾驶汽车系统中的「安全性」问题的?...

    原文来源:arXiv 作者:Aidin Ferdowsi. Ursula Challita.Walid Saad.Narayan B. Mandayam 「雷克世界」编译:嗯~是阿童木呀.KABUDA ...

  2. 系统回顾深度强化学习预训练,在线、离线等研究这一篇就够了

    关注公众号,发现CV技术之美 本文转载自机器之心. 本文中,来自上海交通大学和腾讯的研究者系统地回顾了现有深度强化学习预训练研究,并提供了这些方法的分类,同时对每个子领域进行了探讨. 近年来,强化学习 ...

  3. 『干货』深度强化学习与自适应在线学习的阿里实践

    https://www.toutiao.com/a6683425529313362444/ 2019-04-24 19:44:27 1搜索算法研究与实践 1.1背景 淘宝的搜索引擎涉及对上亿商品的毫秒 ...

  4. 最干货:深度强化学习工程师/研究员面试指南「AI产品/工程落地」

    关注:决策智能与机器学习,深耕AI脱水干货 作者 |   Flood Sung 出处 |  知乎 1 前言 今年来,深度强化学习工程师/研究员已经成为腾讯,网易,字节跳动,华为,阿里巴巴,快手等大厂及 ...

  5. Pytorch 深度强化学习模型训练速度慢

    最近一直在用Pytorch来训练深度强化学习模型,但是速度一直很慢,Gpu利用率也很低. 一.起初开始在训练参数 batch_size = 200, graph_size = 40, epoch_si ...

  6. 深度强化学习DRL训练指南和现存问题(D3QN(Dueling Double DQN))

    目录 参数 iteration episode epoch Batch_Size Experimence Replay Buffer经验回放缓存 Reward discount factor或gamm ...

  7. ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. 什么是深度强化学习? 又是如何应用在游戏中的?

    讲师介绍 Shimon 腾讯互娱研发效能部应用研究工程师 导语 本期真经阁文章来自Gcloud云研社供稿,由应用研究工程师Shimon分享深度强化学习技术在游戏领域中的应用,文章由浅至深,阐述了深度强 ...

  9. 深度学习的发展方向: 深度强化学习!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学 ...

最新文章

  1. c++11 之模板定义别名(using)
  2. R语言distHaversine函数计算大圆距离实战
  3. 全部都是div,换点新花样。【HTML5的标签】
  4. wgrib读grib数据
  5. 史上最牛的文科生:法学出身,却发明出十进制计算器,折磨无数人的微积分符号,跨界40多个领域惊艳学术圈
  6. SQL SERVER 2005 T_SQL新的特性以及解决并发
  7. python颜色列表代码seaborn_在Python中Seaborn – 根据色调名称更改条形颜色
  8. 创客c语言程序设计软件下载,c语言编程软件
  9. ubuntu中火狐浏览器安装flash插件
  10. 高考前最后一天,AI 监考老师已就位
  11. 批量更改PPT文件中的内容(修改大量PPT)
  12. MATLAB寻找数据最大值
  13. 华天OA漏洞复现手册
  14. 【icem】非结构体网格的质量+混合网格的合并问题
  15. 轻松学习CAN总线系列---2.了解CAN总线网络
  16. agc024F Simple Subsequence Problem
  17. 站点能源低碳目标网,助力网络碳中和 | 华为发布站点能源十大趋势
  18. VLAN应用篇系列:(1)华为 H3C交换机多种划分VLAN方式配置
  19. 全自动细菌菌落计数器
  20. DedeCms SEO 优化全攻略

热门文章

  1. Java基础算法题(01):判断101-200之间有多少个素数,并输出所有素数。 素数又叫质数,就是除了1和它本身之外,再也没有整数能被它整除的数。也就是素数只有两个因子。
  2. 关于文献阅读和寻找新的科研题目
  3. 嵌入式 C 语言中三块难啃的硬骨头
  4. 又一家著名游戏公司在西雅图开分店了
  5. docker更换自己的阿里云镜像地址
  6. 区块链:分布式系统核心技术
  7. 计算机病毒 两大传播途径,计算机病毒的传播途径
  8. 详解Wi-Fi连接上网认证接入的原理和过程
  9. 张飞硬件课程第六部:开关电源(上)
  10. 什么是高性能计算,涉及哪些技术和知识呢?