[Superhuman AI for multiplayer poker][https://science.sciencemag.org/content/early/2019/07/10/science.aay2400.full]

概要

以纳什均衡+追寻对方弱点的原理,利用蒙特卡洛+反事实遗憾值最小化的方法,进行自博弈,进而得到可以同时跟多人PK的智能体。

非完备信息游戏的两个难点:

  1. 对手策略的不确定性,即对手的出牌是对手的策略所决定的。
    解决方式:对于这种不确定性,既不是采用单一策略,也不是将所有的策略都考虑进去,而是针对每个玩家,采用k种不同的策略,文章k=4。
  2. 一个玩家针对特定环境的最佳策略取决于从他对手的角度观察他采取的策略所对应的情况。
    解决方式:Pluribus跟踪当前情况下他的策略每一手的可能性

两种CFR(根据复杂度)

根据子对局和部分对局的大小,Pluribus从两种不同形式的CFR中选取一种进行计算策略。如果子对局较复杂或者是对局的早期,则采用蒙特卡洛线性反事实遗憾最小化作为蓝图策略;否则采用线性反事实遗憾最小化的基于向量的最优化形式进行采样可能事件。

Superhuman AI for multiplayer poker相关推荐

  1. 解读《Superhuman AI for multiplayer poker》

    目录 引言 多人博弈理论与实际的挑战 Pluribus的描述 大型不完备信息博弈的抽象化 动作抽象 信息抽象 通过改进型蒙特卡洛CFR来进行自学习训练 不完备信息博弈的深度限制搜索 实验评价 总结 文 ...

  2. 认知智能的突围:NLP、知识图谱是AI下一个“掘金地”?

    作者 | 邵浩,上海瓦歌智能科技有限公司总经理,狗尾草科技人工智能研究院院长 责编 | 许爱艳 出品 | AI科技大本营(ID:rgznai100) 一.引言 最近,很多人邀请我回答下面的这些问题: ...

  3. Science论文解读:打牌一时爽,一直打牌一直爽

    作者丨王曲苑 学校丨西南大学博士生 研究方向丨人工智能.边缘计算 近些年来,AI 取得长足进步的同时,游戏一直伴随其左右,不论是Dota.星际.围棋还是德州扑克都成为检验其发展程度的验金石.2005 ...

  4. cnc程序加工中心_cnc加工自动可制造性评估的可制造性设计

    cnc程序加工中心 An article by Yacine Mahdid and Ying Zhang. Yacine Mahdid和Zhang Ying的文章. The definition of ...

  5. 多智能体强化学习思路整理

    多智能体强化学习算法思路整理 目录 摘要 背景和意义 研究背景 强化学习 多智能体强化学习与博弈论基础 研究意义 问题与挑战 问题分类 问题分析 环境的不稳定性与可扩展性的平衡 部分可观测的马尔可夫决 ...

  6. 1_deep-learning-intro

    深度学习简介 你可能已经接触过编程,并开发过一两款程序.同时你可能读过关于深度学习或者机器学习的铺天盖地的报道,尽管很多时候它们被赋予了更广义的名字:人工智能.实际上,或者说幸运的是,大部分程序并不需 ...

  7. 第1章【深度学习简介】--动手学深度学习【Tensorflow2.0版本】

    项目地址:https://github.com/TrickyGo/Dive-into-DL-TensorFlow2.0 UC 伯克利李沐的<动手学深度学习>开源书一经推出便广受好评.很多开 ...

  8. AI赌神称霸德扑的秘密,刚刚被《科学》“曝光”了

    本文来自AI新媒体量子位(QbitAI) 称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一. 刚刚,<科学>最新发布的预印版论文,详细解读了AI赌神背后系统的全貌.此前的 ...

  9. 强化学习应用简述---强化学习方向优秀科学家李玉喜博士创作

    强化学习 (reinforcement learning) 经过了几十年的研发,在一直稳定发展,最近取得了很多傲人的成果,后面会有越来越好的进展.强化学习广泛应用于科学.工程.艺术等领域. 下面简单列 ...

最新文章

  1. 现实地形导入UE4全流程
  2. 128位计算机 ps2,64位就最强?为啥没有128位电脑?
  3. 加了密的PDF如何破解复制?
  4. Python爬取百度搜索风云榜实时热点.
  5. (8)Linux(客户端)和Windows(服务端)下socket通信实例
  6. vue3使用echarts
  7. 如何在计算机设置鼠标宏,游戏鼠标宏设置是什么?怎么设置游戏鼠标宏?
  8. java300集高淇老师学习笔记
  9. android手机Root全过程
  10. excel公式编辑器_动态提取符合多个条件的记录,公式躲远点
  11. 2022化工自动化控制仪表考试试题及模拟考试
  12. Image Pro Plus6进行荧光分析与荧光照片合成学习笔记
  13. 河北师范大学matlab,赵欣老师简介
  14. 世界读书日:18本豆瓣评分9.0以上的IT书值得收藏
  15. 模块内高内聚?模块间低耦合?MVC+EF演示给你看!
  16. 安科瑞电气火灾监控系统对分散在建筑内的探测器进行遥测、遥调、遥控、遥信,方便实现监控与管理。
  17. “主码的属性不能称之为主属性”和“若属性X函数依赖于属性Y时,则属性X与属性Y之间具有多对一的联系”
  18. 约瑟夫环问题【数组】标记法
  19. 【Elastic Search权威指南 读书小记3】ES之数据操作
  20. 获FDA紧急批准,检测新冠肺炎心血管并发症的AI算法将在梅奥诊所应用

热门文章

  1. Unity3D之Android加密DLL与破解DLL
  2. 强化学习之探索与利用(一)
  3. 跟叶子学把妹——教程序猿把妹第三集
  4. 如何在生产环境使用devtools?
  5. 「自控元件及线路」4 小功率同步电机
  6. Geogebra的使用
  7. Xshell/Secure CRT/PuTTY使用密钥对登录阿里云Linux服务器
  8. Shader——漩涡效果
  9. 怎么查看电脑主板最大支持多大的内存
  10. 获取安卓应用包名和入口 Activity