栗子 李根 假装发自 卢日尼基
量子位 出品 | 公众号 QbitAI

可能是由于人类(包括球王)预测不靠谱,前几届世界杯预测战况和冠军的任务,常常交给动物完成。

比如,章鱼哥保罗。

如果保罗活到现在,应该惊喜的发现,它的工作,现在有人工智能系统可以代替了。

这不,在2018俄罗斯世界杯马上开打之际,德国4位科学家联手打造了一个世界杯AI预测模型。

综合各种应有尽有的因素:国际足联排名、平均年龄、顶级联赛球员数量、国家人口比率、GDP、教练国籍等等,真真AI建模、大数据应用,云计算加持。轻轻松松,当前准确率不知比博彩公司高到哪里去。

最后他们郑重其事地推出结论:西班牙胜率最大

只是万万没想到,比赛尚未开始,人类就给了AI意想不到的一击。正所谓人算不如云计算,云计算难料人使绊。就在世界杯开战前24小时,西班牙炒掉了带队2年的不败战绩主教练。

AI看了都傻眼。

不过这个AI模型就这样了吗?拿衣服。

这4位严谨德国科学家自然考虑到了可能存在的变量,在10万次比赛模拟后,他们认为:如果德国人打入四分之一决赛,那西班牙就呵呵了。

好一个神奇的AI。

讲科学

一般而言,大数据预测为导向的AI,最常使用的方法有泊松回归、排序算法以及随机森林,都old school,都比较经典。

而这次在综合比较了几种方法后,4位德国科学家决定主采用随机森林建模,该方法诞生于2001年,比起传统的回归和排序,思路新得一比,预测效果也更胜一筹。

更重要的是,随机森林附上排序算法里的一个协变量,再经过合体进化,就能变成更加强大的算法,甚至比博彩公司预测的还要准。

具体如何实现?

数据准备

要搞出这个AI,首先要来到数据篇,往届世界杯对战数据自然是题中之义,但光有比赛维度的数据又怎么够?

所以这个AI还把经济因素、球队实力、主场优势、球队结构,教练因素等纳入其中。

经济因素参考人口和人均GDP 。前者参考各国人口数据,并与全球总人口对比 ,看球队所属国对全球人口增长的贡献。人均GDP则重在增长,用球队所属国的人均GDP,以及全球平均的人均GDP,来看2002至2014年的经济增长情况。

球队实力也从两方面考量。一是历史进程,使用国际足联排名,可管窥球队过去4年的核心表现;二是博彩赔率,把博彩公司ODDSET提供的赔率,转换为球队胜率纳入模型。

主场优势则有玄学意味。一看是否东道主(比如在韩国举办),二看是否与东道主来自同一大陆,三看属于国际足联六大足球协会 (CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL) 中的哪一个。



球队结构重点针对默契度。共4项:1)最大队友数:每支国家队,在同一个俱乐部效力的队员最多和第二多的人数;2)平均年龄:每支国家队里,所有队员的平均年龄;3)欧冠队员数:每支国家队,进入欧冠或欧洲联盟杯半决赛的人数;4)海外队员数:每支国家队,在国外俱乐部效力的人数。

最后是教练因素。比如教练的年龄,以及在本队职教时间的长短,都被计算在内。另外,教练的国籍是否与职教的国家队归属一致,也是接近玄学的考量——但肯定没想过会有临阵换帅的情况。



综上,差不多每只参赛球队都会有16个维度的变量。

然后就可以进入竞技演化篇了。

算法模型

就像开头所言,这个预测AI核心主打算法模型是随机森林

这种方法是Breiman在2001年提出的,如今已成了统计学模型和机器学习之间的桥梁。

法如其名,随机森林需要建起许多的决策树 (Decision Trees) ,让它们来预测每场比赛双方的进球数。

当然,系统要服用上文提到的所有变量。

然后,先让每一棵树都独立生长。

再把所有树的判断集合到一起,进而随机森林再做出的预测,这样就不容易有太多偏见。

其间关键所在,是把树与树之间的相关性降到最低——

第一,树并不是种在原始样本上,而是在有放回抽样 (BootStrap Sample) 的基础上生长的。

第二,在每一个节点,所有变量中,一个随机子集被提取出来,用于分出最完美的树杈。



有了这两步,每棵树之间的相关性就变得很弱,随机森林的不变性 (invariance)就比一棵树更强了。

另外,除了进球数,随机森林也可以给出胜、平、负这样的结果。

紧接着进入算法融合阶段。

虽然一开始所说的泊松回归模型,以及排序算法,德国科学家认为没有随机森林的预测效果那么好。

但他们觉得,这些算法身上依然有随机森林可以汲取的营养。毕竟预测胜负和预测进球数,是两项不同的任务。

于是,数据篇说到的新变量,在这里登场——



 ri,rj,来自排序算法

之前排序算法里用到的、谜一般的球队实力参数,就在合体过程中以新变量的身份出现了。

如此融合进化完成后,再拿几种方法出来测一下,新算法显得更优秀——预测的准确度,已超过了博彩公司。

如果更早一点推出,这个AI估计能赚不少钱。

不过现在也为时未晚,2018世界杯已开盘等你。

实战预测

拿2018世界杯演练,这个AI结果如何?



这是AI给出的结果,前三名的球队 (抛开顺序) 和许多其他算法的预测也是一致的。

它觉得,西班牙和德国的夺冠概率相差不大,不过还是更偏爱西班牙一点点。

此外,这里不光有每支球队的夺冠概率,还有每一轮的晋级可能性。

有趣的是,西班牙和德意志,小组赛晋级概率非常接近,但八分之一决赛的胜率就有点拉开了。

德国科学家们说,这是因为从分组来看,德国队更有可能在八分之一决赛遭遇劲旅,比如巴西,但西班牙更轻松一些。

另外,论文还给出了小组出线可能性最大的组合——



还需要指出的是,如果用每场比赛的胜负概率排列出结果,最后赢得金杯的将是德国人。



在这个维度里,之前夺冠概率最大的西班牙,不幸止步于半决赛。

也就是说,这个AI给出的终极结果是:西班牙胜率最大,但只要德国进8强,呵呵。

所以你听懂德国科学家们的潜台词了吗?

无独有偶,足球世界也一直流传着这样一句话:足球是22个人90分钟的比赛,但最后赢得胜利的always是德国人。

其他预测

当然,也有其他同样使用机器学习方案预测世界杯的例子。

数据科学家Gerald Muriuki就利用2个来自Kaggle的数据集,使用1930年第一届世界杯以来的所有参赛队的历史赛事结果,打造了一个AI模型,同样预测了所有小组赛结果,还模拟了四分之一决赛、半决赛和决赛。

整个过程和完整代码,Muriuki已经在GitHub公开,我们不再详细介绍,希望上手的同学可直接前往:

https://github.com/itsmuriuki/FIFA-2018-World-cup-predictions

直接说这个AI模型的最后预测结果:巴西将夺冠

另外,高盛今年也继续打造了一个机器模型预测大力神杯归属,在进行了100万次比赛模拟后,最终结果也是巴西夺冠。

高盛的AI模型显示:法国、巴西、葡萄牙和德国将打入半决赛,巴西最终将在决赛中击败德国。

但擅长分析和报告的高盛,在世界杯预测方面有历史包袱,上一届世界杯——2014年,他们也是高调预测巴西本土夺冠,然而谁料等到了一个半决赛1:7惨败德国的结果。

需要说明的是,巴西夺冠的结果与知名博彩公司(也是一个b站)目前赔率指向一致,他们夺冠预测是:巴西>德国>西班牙>法国>阿根廷。

该前5名结果也得到另一家知名欧洲博彩组织支持,但他们的夺冠预测是:德国>巴西>法国>西班牙>阿根廷。

最后,2014年准确预测德国夺冠的EA公司,今年选择押注法兰西。

不过,足球场上的事儿,玄学一件,可能也会人定胜AI。

量子位的懂球帝小陈就支持巴西夺冠,他的原因很明确:一方面,巴西是唯一一支在世界杯击败过中国队的冠军球队;另一方面,巴西和中国队都在队徽上绣了五颗星。

嗯,好有道理(围笑)。

One More Thing

最后作为一个严谨的报道,照理附上论文传送门:

https://arxiv.org/pdf/1806.03208.pdf

以及,2018俄罗斯世界杯,今晚开幕~

活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

德国AI“算个球”:西班牙是冠军,只要别让德国进八强(严谨推理)相关推荐

  1. “他者”德意志(一):“进窄门”的德国AI

    "他者"是后殖民主义时期学术界对近代"西方中心主义"的一个批判概念,处于中心立场的"主体"和位于边缘地位的"他者"构成一 ...

  2. 智安新闻丨乐山西部AI算谷正式投运,与智安网络成功签署战略合作协议!

    图片 2021年7月23日,智安网络董事长陈勇明先生受邀出席由乐山市发展改革委.市数字经济局.乐山高新区管委会指导,乐山市宝德未来城科技有限公司.中国电信四川公司承办的"成渝南翼人工智能城市 ...

  3. 【新智元峰会】德国AI教皇盛赞中国人工智能,25位AI领袖强势打造中国新智极...

    中美史诗级贸易战,中国AI能否成为破局之剑? 2018年,AI再次成为全球经济竞争的焦点.中美的大国近期在贸易问题上的较量,背后核心原因就是人工智能等技术博弈:最近亚马逊市值超越谷歌,2018年AI云 ...

  4. 图宾根大学计算机专业咋样,德国大学最新排名,你的专业下哪所德国大学更好?...

    原标题:德国大学最新排名,你的专业下哪所德国大学更好? 小可爱们,大噶好呀-2020马上就要过去了,2021眨眼间就要来到,紧接着万物复苏,新的申请季便纷至沓来.而现在,正是"看校.选校.择 ...

  5. 无生命的AI算不上「智能」

    来源:AI前线 作者:Ben Dickson 译者:王强 策划:刘燕 什么是智能?以非常快的速度解决复杂的数学问题就算智能吗?在国际象棋中击败世界冠军的力量算智能吗?分辨图像中数千个不同对象的能力算智 ...

  6. 阿里达摩院包揽AI领域六大权威榜单冠军:用人类的学习方式超越人类

    让AI模仿人类的学习方式,结果会怎样? 8月26日,阿里达摩院语言技术实验室取得一系列突破,斩获自然语言处理(NLP)领域6大权威技术榜单冠军.据介绍,参与竞赛的6项自研AI技术均采用模仿人类的学习模 ...

  7. 阿里AI获NLP顶会比赛冠军,达摩院计划推出首个通才型AI医生

    12月24日消息,在自然语言处理(NLP)领域顶级会议EMNLP 2019上,阿里AI获得微生物群落信息抽取比赛(BB Task)"关系和实体联合抽取"任务冠军,相关技术已被用于搭 ...

  8. AI 揭晓答案,2022世界杯冠军已出炉

    卡塔尔世界杯,究竟谁能捧起大力神杯,就让我们用机器学习预测一下吧! 文章目录 数据源 技术提升 数据集构建 功能开发 数据分析 模型 世界杯模拟 结论 数据源 为了构建机器学习模型,我们需要来自团队的 ...

  9. 人工智能应用,德国AI公司

     人工智能应用 https://aiso-lab.com/ Image Processing ◾Face Recognition ◾Object Detection and Classificat ...

  10. 创业圈的钱都去哪儿了?AI算法正帮Facebook成为大赢家

    编译 | 张震 吴欣 来源 | NYTimes 在科技行业,人们会将那些爱开玩笑.性格开朗的男程序员叫「brogrammer」,而 Ben Cogan 和 Jesse Horwitz 绝对不在此列.他 ...

最新文章

  1. “CoreCLR is now Open Source”阅读笔记
  2. IAR编译提示could not open file lnkstm8s003f3.icf
  3. 第十一篇: Ajax Control Toolkit 控件包--下载与安装
  4. 洛谷P2670扫雷游戏题解
  5. 17_clickhouse分布式集群部署
  6. 自动布局AutoLayout
  7. cesium进行模型高度测量的代码片段
  8. 团队项目—第二阶段第三天
  9. php分列显示,【杂谈】PHP数组怎样按键名完成降序分列
  10. windows 下架设svn服务器
  11. 解析Java对象引用与JVM自动内存管理(2)
  12. spring cloud构建互联网分布式微服务云平台-服务注册与发现
  13. 国内著名大师培训视频全集
  14. 如何解决RS485 通讯接口被主站占用的问题
  15. win7计算机管理员权限才能删除,手把手教你解决win7系统删除C盘文件需要管理员权限的图文办法...
  16. [教程]安装系统解码器 - 指导教程
  17. 李白关于鸿蒙的诗,名诗欣赏:李白《把酒问月》之--青天有月来几时
  18. RHCE认证考试介绍
  19. Python 图像文本识别 EasyOCR
  20. BLE传输速率以及抓包工具

热门文章

  1. 360加固签名验证_android - 使用360加固的方法(需要在windows下面,先加固,再签名)...
  2. vs(c++)修改图标
  3. java去处科学技术法,java撤销科学计数法
  4. 送送送!这本python少儿编程书籍竟然被出版社官宣了!
  5. Angular学习笔记第三章——创建组件
  6. x265中Encoder::encode流程
  7. CDD分析(rpsblast分析)研究
  8. 熊啸锋:在线生成个人网站,如何建立个人网站教程
  9. 安全认证之JWT令牌
  10. vhg电路是什么意思_显示装置和电力监测电路的制作方法