Root 林鳞 编译自 DeepMind官方博客
量子位 出品 | 公众号 QbitAI

随着人工智能系统在现实世界中扮演越来越重要的角色,理解不同的系统如何相互作用至关重要。

刚刚,DeepMind发表了一篇名为Symmetric Decomposition of Asymmetric Games的论文。在这篇论文中,DeepMind研究人员采用了博弈论的分支试图这个问题。

研究人员重点观察了在德州扑克,棋盘游戏苏格兰特警等非对称博弈中,两个智能体会有怎样的行为和表现。

用这种新方法,智能体能简单快速地在复杂的非对称博弈里找到纳什均衡。

博弈与纳什均衡

博弈论属于数学的一个分支,用于分析竞争环境下决策者的策略。

这套理论适用于人类,动物,以及超过一个AI时的多AI环境。比如说家里多个机器人同时打扫房间。

非对称信息博弈模拟了真实世界的场景,就像拍卖时买家和卖家的心态和动机不同。我们得到的结果给了我们独道的见解,以及极其简洁的方式分析他们。

非对称博弈的特点是每方玩家都有不同的策略、目标和奖励。比如说博弈论研究里最常见的协调博弈,性别之战。

一般来说,多AI系统的进化动态过程是用简单的对称博弈来分析,比如说经典的囚徒困境,两方玩家都可以采取同样的行动。即使这些博弈能够为多AI系统提供有效的洞见,告诉我们如何操作所有玩家才能获得最优结果(这就是纳什均衡),但他们并不能模拟出所有的情况。

DeepMind的新的方法,能简单快速地在复杂的非对称博弈里找到纳什均衡。

虽然目前这套理论的重点还在如何应用在多个AI系统的互动中,但研究人员相信这个结论也可以用于经济、进化生物学、经验博弈论中。

歌剧还是电影?


举个例子吧。

两名玩家需要决定晚上是去看歌剧还是电影,不巧的是,其中一名偏好歌剧而另一名偏好电影。这是场不对称的游戏,虽然两名玩家可以任意选择,但是根据玩家的喜好,每个玩家得到奖励是不同的。

但是,为了维持他们的友谊,或者我们称为一种平衡,双方需要选择相同的活动,因此单独行动的回报为零。

这个游戏有三个平衡:(i)双方都去看歌剧,(ii)双方去看电影,(iii)还有一个混合选项,每个玩家在五分之三的时间里选择他们喜欢的选项。

这个“不稳定的”的最后一个选项,就是用了将不对称游戏简化或分解成它的对称对等体的方法。

我们可以将这种游戏的本质想象成,每个玩家的奖励分数表是一个独立对称的双玩家游戏,它的平衡点与原始的不对称游戏一致。

在下面这张图中,纳什均衡是通过两个对等点得到的,帮助我们快速确定不对称博弈中的最优策略(a)。反过来说,利用不对称博弈来确定对称对等点的均衡。

△ 红点代表纳什均衡。对于不对称的游戏(a),纳什均衡可以很容易地从(b)和(c)两张对称图中得到。上述图中,x、y轴分别为玩家1、2选择歌剧的概率

好消息是,这种方法也适用于其他游戏,比如Leduc扑克等。这些方法应用了一个简单的数学原理,从而快速直接分析不对称游戏。我们希望它也能帮助我们理解各种动态系统,包括多代理环境。

最后,附论文地址:

https://www.nature.com/articles/s41598-018-19194-4

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡相关推荐

  1. DeepMind将博弈论融入多智能体研究,让纳什均衡变得更简单

    雷锋网 AI 科技评论按,随着 AI 系统在现实生活中变得越来越重要,我们自然该探索不同系统间的交互方式了,这些多智能体间到底用了什么独特的方式呢? 在 DeepMind 的最新论文(发表在 Scie ...

  2. 张海峰-从博弈论到多智能体强化学习

    文章目录 内容摘要 群体决策智能研究背景 博弈论 多智能体强化学习 研究展望 内容摘要 ·随着以图像识别为代表的"感知智能"日趋成熟,越来越多的人工智能研究者开始关注以AlphaG ...

  3. 2000亿次开放学习后,DeepMind的智能体成精了

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有这样一批智能体,在完全没有见过的游戏任务里,也学会了游刃有余地解决目标. 譬如面对下面这样一个高地,它们要取到上面的紫色金字塔. 没有跳跃 ...

  4. DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

    安妮 编译自 arXiv 量子位 出品 | 公众号 QbitAI 出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇. 比如"彩虹"?,比如&q ...

  5. 现代博弈论与多智能体强化学习系统

    如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...

  6. 人工智能 自动规划 ppt 蔡自兴_分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】...

    关注微信公众号:人工智能前沿讲习对话框回复"张家绮"获取PPT与视频资料视频资料可点击→播放视频查看 导读 分布式优化理论和算法近年来在多智能体系统中得到了广泛的发展与应用,目前在 ...

  7. 首都师范 博弈论 6 5 5无限次重复博弈中的策略选择

    6 5 5无限次重复博弈中的策略选择

  8. 首都师范 博弈论 6 5 3无限次重复博弈中达成合作的条件

    6 5 3无限次重复博弈中达成合作的条件

  9. 多智能体强化学习入门(一)——基础知识与博弈

    作者:ECKai(强化学习,多智能体强化学习) 文章仅作为学术交流,著作权归属作者,侵删 一.引言 在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获 ...

最新文章

  1. Spring AOP 实现原理与 CGLIB 应用--转
  2. Spring boot日志使用
  3. 使用ISA实现用户级验证(1~3篇)
  4. 计算密集型分布式内存存储和运算平台架构
  5. 判断按键值_「正点原子NANO STM32开发板资料连载」第十六章电容触摸按键实验...
  6. [机器学习笔记]Note11--聚类
  7. 当OpenOrg和OpenGov发生冲突时
  8. linux中怎么创建管道文件,Linux  管道文件
  9. form标签的action之前 加密_口令爆破之突破前端JS加密
  10. 缓存穿透、缓存雪崩、缓存击穿的原因及解决方案
  11. python计算工资编程-Python实现扣除个人税后的工资计算器示例
  12. 七内部排序算法汇总(插入排序、Shell排序、冒泡排序、请选择类别、、高速分拣合并排序、堆排序)...
  13. 网工浓缩笔记以及考点(第七章 网络安全)
  14. Java中的异常捕获
  15. 区间对比_预算10-15万元区间 国内在售街车综合实力对比
  16. 大学计算机考试59分,大学期末考59分,你会找老师理论吗?很多人都猜错
  17. Python➕ ps 图钉画图纸制作教程
  18. 乡愁 - 怀念老者余光中
  19. 20位大佬,勾勒出一个中国网络安全江湖
  20. Ebistrategy亦策软件提升仙婷贸易竞争实力

热门文章

  1. 大年初一,今年的春晚你看了吗?
  2. 一篇文章7.4万,Nature 33种期刊开放获取新政引争议,社区斥其「寄生虫」
  3. 时隔两年,EfficientNet v2来了!更快,更小,更强!
  4. 2021新兴经济体大学排名发布,129所中国高校上榜!
  5. 2020春招即将来袭,送你110道Python面试真题
  6. SAP MM PR 审批中的REJECT
  7. 偏差是什么?一文读懂偏差
  8. 安波副教授:分布式人工智能进展与趋势
  9. 深度学习框架大PK:TNN决战MNN,ncnn依旧经典
  10. 传蔚来计划回国内科创板上市,关闭硅谷办公室