数字世界里的足球——数研院探索多智能体足球AI并取得新突破

世界杯终于回来了，经历了疫情的三年时光，全世界的球迷都尤其期盼着这个也许是人类历史上意义仅次于1948年伦敦奥运会的盛大赛事——2022卡塔尔世界杯。

1863年，英国足球协会在伦敦正式成立，标志着真正意义上的现代足球诞生了。在这一百多年的发展中，技战术流派的不断涌现是让比赛越发吸引人的最重要内在因素。英国的两翼齐飞、意大利的九号半、荷兰的全攻全守和巴塞罗那的Tiki-Taka这样风靡一时的战术体系都极大地推动了足球运动的发展。

作为一项多人团队配合运动，在足球比赛中战胜对手除了要依靠球员的个人能力，更要依靠11个人的战术配合，如果用计算机科学领域的语言讲：这是一个典型的多智体合作博弈问题。这也是本文要讨论的数字世界里的足球比赛。

足球游戏是一个典型的多智能体学习场景，因此谷歌足球环境（Google Research Football）自发布以来就受备受关注。但因为复杂性和计算量等问题，它在多智能体研究方面一直未能得到充分利用。目前大多数开源的代码实现都来自于Kaggle的单智能体足球竞赛，单智能体在工作时同一时间只控制一个球员，其他的10个球员是由内置bot控制，这一操控方式与FIFA游戏的操作方式类似。近来，也有一些相关工作研究了足球环境中的多智能体问题，但往往局限于简单的特定场景。作为最终挑战，11vs11场景一直以来缺少一套开源的训练框架与基准线。

今年夏天，数研院联合中科院在IEEE Conference on Game会议上，在线组织了5vs5、11vs11两个赛道的多智能体竞赛。同时，数研院也投入力量进行了该问题的研究，提供了强力的基线模型。在CoG会议比赛结束之后，我们希望能有更多的多智能体研究者和足球爱好者投入到足球AI的研究中来，一直筹备相关代码的开源工作。此次，数研院开放了一系列方便大家快速上手足球AI研究的资源，除了训练框架，还包括分析工具、基线模型等等，希望推动足球AI研究社区的进一步发展。这些内容现在开源在https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football，欢迎大家关注和加入。

在物理世界中，一支球队的组建和训练过程是从个体到整体，自下而上的构建过程。一支优秀的球队首先要拥有在传球、射门、防守、跑位等个人技术能力上足以支撑球队战术体系的球员，然后在小团队层面形成，如撞墙配合、区域防守等局部战术配合，进而在11人完整阵容层面形成战术风格（如上文提到的Tiki-Taka等）。数研院的足球AI训练框架也是参考了这样的训练方式，把每一个球员作为一个单独的策略智能体，在个人层面上，通过提供在不同球场情况下人为设计的奖励信号来指导单个个体学习基础的行为比如带球、射门等。在此基础上，给予个体附近的队友和对手的信息，来提供小范围内的配合的可能，然后再将11个智能体组建成一支球队并一同与不同风格对手对抗来训练球队的技战术配合。

漂亮的射门

漂亮的传球配合

然而，足球11v11 AI 训练面临着训练量极大的问题（足球场大，同一时间控制的球员数量多），这也是很多在谷歌足球环境上做实验的一些工作面临的主要困难之一。针对这一问题，我们在MALib的基础上开发了一套轻量版本的多智能体强化学习的训练框架，并为其命名为Light-MALib。在这套训练框架下，指导队伍并行地进行对战经验收集和球队技术学习，这相当于一边比赛一边上课学习战术，大大提升了学习的效率。此外，我们关注的是如何让智能体从零开始学习，因此频繁采用了自博弈（self-play）的方式（和AlphaGo一样），让球队自我对抗，逐步开发探索出新的技能来升级。我们还设置了专门的陪练球队（exploiter in league training）从零发掘最新球队的战术漏洞，因此在自博弈的流程中，我们的球队需要同时能够打败陪练球队，避免战术上的漏洞。

图一：Light-MALib训练框架 (PSRO案例)；rollout指代比赛数据收集，训练器指代战术学习

利用我们提供的异步训练框架，研究者只需在实验室级别的服务器上，通过数小时的训练，就可以得到能在11vs11全场比赛中打败最高难度内置bot的足球多智能体。该框架也支持进行多机分布式扩展，充分利用计算资源，进一步加速训练过程。

图二：Light-MALib的训练测试，从零学习对抗1.0困难内置AI的胜率变化

除开训练，球队战术的评估也是重要的一部分。数研院的科学家们采用了类似足球联赛的大循环赛制来对我们训练流程中得到的不同“球队”的技战术水平进行评价。经过30+轮对抗最终有几支“球队”脱颖而出，他们有擅长精妙传切配合的Tiki-Taka风格球队，也有擅长防反的九号半阵型球队，也有以边路突破两翼齐飞见长的球队，这几支球队凭借风格迥异的技战术特点在多个赛季中名列前茅。为了对智能体的风格做出评估，科学家们还模仿物理世界中真实球队所配备的专业分析师团队，为每支球队配备了风格和能力分析系统，以下是这几支球队的能力分值数据：

图三：训练得到的球队智能体能力评估雷达图

除开球队智能体之间的评估，数研院也尝试了人机协同来评测球员之间的配合能力。在今年的1024程序员节内部活动中，我们组织了一场人机协同对抗赛，看到了人类和机器智能体间交互的很多有趣现象。如当人类选手的微操水平比较接近智能体时，人和机器可以打出很高水平的配合战术。但如果人类选手只是初级水平时，智能体为了增强取胜把握会显著降低与人类选手的配合意愿，甚至抢夺己方人类选手的球权，自己发动进攻。

接下来介绍具体的训练细节和经验。

为了使球队的配合水平更加智能，更加贴近物理世界真实球队的技战术特征，我们设计了“个体能力训练——多人配合训练——球队战术训练——针对性训练“的四个环节。

在个体能力训练环节，我们的科学家像真正的足球教练一样，用奖励函数的方式告诉智能体应该往什么方向进化。在这里，我们开发了一套GRF数据结构来更加精准的设计奖励函数。这一数据结构帮助记录了一场足球比赛中的足球运动轨迹的信息，并以球队得分将比赛分为若干回合，单回合中以球权转换分隔为若干事件链，事件链中以时间序列的方式记录带球球员的信息。这种数据结构能够在比赛结束后，直接定位某一事件具体的信息，比如某次助攻的时间节点，涉及球员等，这有助于对进球进行个人行为的奖励以及对于丢球进行分锅。

球队的技战术风格与个体和小范围配合不同，风格是在更高层次、更长周期对球队的评价。在物理世界中，一支球队的风格往往也需要主教练经过长时间引导和不断调整球员才能养成。在智能体训练过程中，我们也无法像前面的训练一样通过设置奖励函数和输入环境信息对智能体组成的球队的风格产生较大影响。数研院的科学家们在训练智能体的过程中发现AI自身会根据所遇到的球队风格进化出针对性的战术风格，比如在遇到以前场进攻为特长的球队时，智能体会自主训练出中后场抢逼围为主的防反战术模式；若对手有多种不同风格，智能体自主进化的反制风格也会多样化。因此，对手战术风格的多样化是一个关键性问题，我们的解决方案是多样化的奖励设计和陪练球队的设置。多样化的奖励用于初期获得一些具有代表性的战术风格，比如高压逼抢风格可以通过设定球员距离来学习。在中后期阶段，我们采用了联盟训练（league training）的方法（如alpha-star的方法），在每一代球队训练的过程中，加入一个从零学习的陪练球队来专门发掘主球队的弱点以及新的战术风格。

在智能体训练进化过程中，也有很多有趣的细节。比如一个主智能体在进化过程中就出现了偏差，由于“进攻欲望”太过强烈，其在比赛中经常受到越位的困扰。数研院的科学家在发现这一异常数据后，对其中部分球员的小范围配合进攻欲望奖励值调低。这一调整也使得这支“火爆脾气”的球队重新打出了漂亮的反越位配合。另外一支球队的进化过程则是另外一个极端，由于盘带奖励值过高，前锋好像很讨厌射门，每次进攻都恨不能把球直接带进对方球门（一如中田英寿时代的日本队），但在逐渐增强防守的对手面前逐渐改掉了这一问题。这是AI技术进化出来的新的表征。

训练过程中的比赛片段

数研院在创立之初，就认定了自己的使命是引领AI技术向终极AI发展方向迈进。群体智能技术是AI技术的进一步发展，甚至是向机器意识发展的重要构成部分，数研院在足球AI方面的努力是我们迈向星辰大海的重要一步。

未来，数研院会常设足球AI线下排位赛，将文中开放的几支队伍加入其中并滚动展示排名和队伍数据能力。同时也欢迎更多球队用群体智能方案来参与这项常设赛事，以壮大模拟足球联盟的规模，和我们一起推动群体智能技术的发展。

足球AI的代码现开源于https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football，感兴趣的小伙伴记得star和clone哦~

延展阅读：数研院参与主办IEEE CoG 2022足球AI赛，所提供baseline模型获双赛积分榜排名第二
上海数字大脑研究院正式启动运营，专注决策智能领域纵深探索
数研院招贤纳士，“职”等你来～

Digital Brain Laboratory

上海数字大脑研究院汇聚决策智能领域全球领先的科研力量，面向中国及全球产业智能化升级需求，致力于为全球企业提供决策智能解决方案，驱动各产业全面智能化升级。

数字世界里的足球——数研院探索多智能体足球AI并取得新突破相关推荐

顶会竞赛落下帷幕，数研院赞助的AI奥林匹克赛果公布
近日,由上海数字大脑研究院(简称"数研院")赞助及协办的的AI奥林匹克竞赛落下帷幕,本次竞赛共计121支队伍参赛,其中,有10支队伍角逐胜利,获得数研院提供的奖金以及相关工作机会. ...
以决策智能赋能产业升级，数研院获评36Kr 「Wise 2022 新经济之王前沿科技领域年度企业」...
2022年11月29日,上海数字大脑研究院(简称"数研院")凭借在决策智能领域的创新实践,获评由36Kr发起的Wise 2022新经济之王前沿科技领域年度企业,一同入选的还有科大讯 ...
数研院联合CMC资本、凡卓集团主办小饭桌年度路演人工智能专场
12月19日-23日,凡卓集团将举办2022小饭桌ROADSHOW年度系列路演活动,聚焦前沿科技与数字经济,面向先进制造.生命健康.未来能源.商业航天.人工智能五大科创产业赛道,帮助优质创业项目深度链 ...
研究生院校推荐——复旦大学工研院
概述过去的一年几乎都在准备考研,现在差不多勉强上岸,写一点经验和教训. 我最初的目标院校是上海交大电院计算机,最后上岸是复旦大学工研院计算机. 今年的上交计算机专硕分数线是325,复旦工研院学硕分数 ...
把数字世界带入每一辆车的华为
作者:中国软件网陈杨校对:中国软件网赵满满 2017年5月,浙江桐乡,随着AlphaGo以3:0大胜世界围棋冠军柯洁,人工智能一词真正进入普罗大众的视野.时隔半年后,华为确定了公司新的愿景:把数 ...
python各位数字之和为5的数_python计算各位数字之和
信息举报时间:2021-02-03 本页为您甄选多篇描写python计算各位数字之和,python计算各位数字之和精选,python计算各位数字之和大全,有议论,叙事 ,想象等形式.文章字数有400 ...
一直在构建工作空间_大华股份殷俊：AI，构建数字世界的基础
10月27日,由雷锋网 & AI掘金志主办的「全球AI芯片·城市智能峰会」,在深圳大中华喜来登酒店盛大召开. 延续雷锋网大会一贯的高水准.高人气,「全球AI芯片·城市智能峰会」以"城 ...
芯片的本质是什么？(4)物质与数字世界接口
芯片是物质世界与数字世界的接口不过,关于芯片的重要性,还有一点值得讲讲.虽说芯片构建了数字世界的基础,但物质世界跟数字世界可并不是天然连通的,中间有一道隐形的墙. 要想让信息在这两个世界之间流动起来 ...
微营销：数字世界的第二张面孔
"当很多人在谈的时候,在欧莱雅--我们已经这么做了."当其他跨国美妆品牌对手还在尝试时,欧莱雅早已探索多年,甚至更为"激进"的开始以数字作为其营销核心转型.这一 ...

数字世界里的足球——数研院探索多智能体足球AI并取得新突破

数字世界里的足球——数研院探索多智能体足球AI并取得新突破相关推荐

最新文章

热门文章