原创/文 BFT机器人

近日,麻省理工学院的研究人员开发出一种新技术,让AI智能体能够思考更远的未来,寻找更合适的合作与竞争长期解决方案。

想象一个游戏规则:两支足球队在球场上PK,玩家们可以选择相互合作合作来实现目标,也可以选择与其他玩家们竞争,以取得游戏胜利。

创建一个可以像人类一样高效地学习竞争和合作的AI智能体并不容易,其中具有挑战性的关键难点是:让 AI 智能体能够预测其他智能体的未来行为。由于这个问题的复杂性,目前的方法机器学习方法往往是短视的;AI智能体只能猜测队友或对手接下来的几个动作。这并不利于他们的长期发展。

为解决这一难点,来自麻省理工学院、MIT-IBM Watson人工智能实验室,和其他实验室的研究人员开发了一种新方法,为AI智能体提供了一个更长远的学习视角。他们的机器学习框架能使AI智能体,不仅仅能够考虑其他合作或竞争的智能体接下来的几个动作,而是考虑到他们在更长远时间范围内的更多行为。然后,AI智能体会根据预测到的结果,相应地调整自身的行为,从而影响其他智能体接下来的行为,并得出最优的长期解决方案。

这个框架可以用于自动无人机在茂密的森林中寻找迷路的徒步旅行者,或用于自动驾驶汽车预测高速公路上行驶的其他车辆的动线来保护乘客的安全。

“当 AI 智能体进行合作或竞争时,最重要的是它们的行为在未来的某个时刻融合。在这一过程中有很多暂时性的行为,从长远来看并不重要。“我们真正关心的是如何达到这种融合,现在正好有一种数学方法可以实现。”麻省理工学院信息与决策系统实验室 (LIDS) 研究生、一篇描述该框架论文的主要作者Dong-Ki Kim说。

该论文的高级作者是 Jonathan P. How,他是 Richard C. Maclaurin 航空航天学教授,也是MIT-IBM Watson人工智能实验室的成员。论文的共同作者包括MIT-IBM Watson人工智能实验室、IBM 研究院、Mila-Quebec人工智能研究所和牛津大学的其他人。这项研究将在神经信息处理系统会议上发表。

更多人工智能体,更多问题

研究人员专注于一个称为多智能体强化学习的问题。强化学习是机器学习的一种形式,其中AI 智能体通过反复试验和试错来进行学习。研究人员会对其帮助实现其目标的“良好”行为给予奖励,AI智能体会调整其行为以获得最大化奖励,直到它最终成为这项任务的专家。

但是当许多合作或竞争的AI智能体同时学习时,事情就会变得越来越复杂。随着AI智能体考虑到更多其他同伴的未来行为,以及他们自己的行为如何影响他人,这个问题的有效解决就需要更多的计算能力。这就是为什么其他方法只关注短期,而忽视未来的原因。

AI真的很想预测游戏的结局,但他们不知道游戏什么时候结束。他们需要思考如何不断地调整自己的行为,以便在未来某个遥远的时间点获胜。“我们的论文实质上提出了一个新目标,使 AI 能够思考无穷大” Kim说。

但是,由于不可能在算法中插入无穷大,研究人员设计了他们的系统,使AI智能体专注于他们的行为,将与其他AI智能体的行为趋同的一个未来点,称为平衡点。一个平衡点决定了AI智能体的长期表现,多智能体场景中可以存在多个平衡点。因此,一个有效的AI智能体会积极影响其他智能体的未来行为,从而使他们从智能体的角度来看达到一个理想的平衡点。如果所有智能体都相互影响,他们就会汇聚成一个一般的概念,研究人员称之为“主动均衡”。

他们开发的机器学习框架被称为 FURTHER(代表通过平均奖励充分加强主动影响),使智能体能够学习如何在与其他智能体交互时调整自己的行为,以实现这种主动平衡。

FURTHER进一步使用两个机器学习模块来做到这一点。第一个是推理模块,它使智能体能够仅根据其他先前的行为,来猜测其他智能体的未来行为以及他们使用的学习算法。这一信息被输入强化学习模块,智能体利用该模块调整其行为,并以最大化的回报方式来影响其他智能体。

“挑战在于思考无限。我们必须使用许多不同的数学工具来实现这一点,并做出一些假设,才能使其在实践中发挥作用,”Kim说。

胜利在远方

他们在几种不同的场景中用他们的方法,针对其他多智能体强化学习框架进行了测试,包括一对机器人的相扑式比赛,和两个 25智能体团队的较量。在这两种情况下,使用 FURTHER 的 AI智能体能更大概率赢得比赛。

Kim解释说,由于他们的方法是去中心化的,这意味着AI智能体学会了独立赢得比赛,因此它也比其他需要中央计算机控制AI智能体的方法更具可扩展性。

研究人员使用游戏来测试他们的方法,但FURTHER可以用来解决任何类型的多智能体问题。例如,在许多相互作用的权利具有随时间变化的行为和利益的情况下, 经济学家可以应用它来制定合理的政策。

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

麻省理工人工智能实验室新研究!有远见的机器学习方法:能预知未来行为的AI智能体相关推荐

  1. 麻省理工人工智能实验室发现更小更容易训练的神经网络

    https://www.toutiao.com/a6688201699858842119/ 2019-05-07 16:38:26 神经网络技术起源于上世纪五.六十年代,当时叫感知机,拥有输入层.输出 ...

  2. MIT Artificial Intelligence —— Patrick H. Winston 麻省理工人工智能公开课学习笔记(一)

      本系列文章是博主对网易公开课中麻省理工人工智能课程的学习笔记,在此方便学习和分享. Lecture 1: Introduction and Scope   本节课程大概从这三方面讲述:   一.什 ...

  3. 阿里人工智能实验室新入职两名首席科学家,年薪百万美元

    9月18日,阿里巴巴宣布,国际视频标准华人领军人物.前高通首席工程师陈颖和加拿大西蒙弗雷泽大学 (SFU) 终身副教授谭平入职阿里人工智能实验室(以下简称 AI Labs). 据了解,这两名科学家的年 ...

  4. 阿里安全新研究:给图片打“马赛克”就能骗过 AI 视觉系统

    阿里安全人工智能 AAIG 实验室等机构的研究者提出了一个新的机制来生成对抗样本,即与增加对抗扰动相反,他们通过扔掉一些不可察觉的图像细节来生成对抗样本.这项研究成果已被 AI 顶会 ICCV 202 ...

  5. 人工智能 自动规划 ppt 蔡自兴_分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】...

    关注微信公众号:人工智能前沿讲习对话框回复"张家绮"获取PPT与视频资料视频资料可点击→播放视频查看 导读 分布式优化理论和算法近年来在多智能体系统中得到了广泛的发展与应用,目前在 ...

  6. 机器有了综合感官?新研究结合视觉和听觉进行情感预测 | 一周AI最火论文

    大数据文摘专栏作品 作者:Christopher Dossman 编译:conrad.笪洁琼.云舟 呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦! AI Scho ...

  7. 麻省理工的服务器位置,麻省理工学院的地理位置是怎样的?

    麻省理工学院的地理位置是怎样的? 麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所综合性私立大学,位于马萨诸塞州的波士顿, 全州均属温带气候 ...

  8. 麻省理工数学与计算机科学,美国留学MIT学子M专访

    M是一个美籍华人学子, 高中在佛罗里达一个知名私立就读IB课程,后来被MIT 电子与计算机工程专业录取,并修了双学位物理专业.现在的科研会做很多量子计算,quantum computing, quan ...

  9. 麻省理工最新研究:血虐人类玩家的RL智能体,在纸牌游戏中从最强对手变成“猪队友”...

    来源:AI科技评论 本文约3700字,建议阅读10分钟 真实世界中采用强化学习智能体,人类对AI的感知在未来AI设计和开发中需要得到更多的考虑. 诸如<星际争霸>等复杂游戏,是AI模拟现实 ...

最新文章

  1. 【深度学习】新人如何入门Pytorch的路线?有哪些资源推荐?
  2. NIPS 2017论文解读 | 基于对比学习的Image Captioning
  3. SharePoint2007安装图文详解二:安装AD(活动目录)及DNS
  4. Survival analysis
  5. 人脸检测caffe下步骤
  6. WebStorm连接Github教程
  7. DBeaverEE for Mac(数据库管理工具)v21.2.1中文版
  8. 学习笔记 10.28
  9. 如何进入大华智能分析服务器,如何配置大华录像机区域入侵功能,看完就明白...
  10. gmail更改个人信息_如何在不创建新电子邮件地址的情况下更改Gmail名称
  11. 苹果查看电池实际容量
  12. Gaussian .fchk .chk 文件转化错误解决方法
  13. arcgis中editor在哪_这71个Arcgis常用技巧,你收藏了吗?
  14. 【转载】PCB layout工程师级别(可以留着自评用~~)
  15. 以色列技术!Amimon无线WHDI技术解析
  16. 线程,进程,线程安全的理解
  17. 深度学习之NN(Neural Network)
  18. 苹果和华为鸿蒙,苹果的homeOSx和华为鸿蒙,两豪杰狭路相逢
  19. 灵境(元宇宙)金融投资及监管的探讨
  20. ICML 2019 Accepted Papers (Title, Author, Abstract, Code) (001-150)

热门文章

  1. RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)
  2. 智慧政务说明书 人事管理(七)
  3. php制作水印案例,php 给图片添加水印 实例
  4. 【案例实战】SpringBoot整合Redis的GEO实现查找附近门店功能
  5. php主板主要是支持,GTX1050Ti配什么CPU和主板好?适合GTX1050Ti搭配的CPU与主板解答...
  6. 关于Linux虚拟机联网问题
  7. 我的世界怎么注册像素时光服务器,我的世界全新rpg地图像素时光一览_像素时光内容一览_3DM网游...
  8. cak数控车床是计算机控制吗,数控车床CAK3675V的性能介绍
  9. GB/T28181国标视频监控平台TINYGBS实现监控视频直播的详细搭建流程
  10. mtk入门基础资料全集,呕心沥血合集让菜鸟快速上手