修改自我组会报告,具体细节请读原文。

文章目录

  • 引子
  • 背景介绍
  • 德州扑克规则
  • 论文贡献
  • 信息编码方式
  • 网络结构
  • 自博弈算法
  • 性能比较

引子

论文标题是:AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Texas Hold’em from End-to-End Reinforcement Learning

在写这篇文章的时候,论文还没有正式发布,我这里读的是预发布版本。我邮件联系了论文作者之一的兴军亮老师,他的回复是:

你好,欢迎关注我们的工作。论文的终稿近期会在网上公布,里面会有详细描述。我们还会共公布大量对抗数据,也会有助你理解AI和人的决策差异。其他问题,你可以和我的学生联系。

现在网络上基本搜到的PR稿都是一个模子里刻出来的,就不赘述了。

说实话论文挺让我震撼的。没有采用传统德州扑克的CFR系列的解决方案,使用只进行正向的神经网络,取得这么好的成绩,让我直呼“不可思议”。

我们进入正题吧。

背景介绍


论文研究的是双人无限注德州扑克AI。

德州扑克规则


简单介绍一下,就是2张明牌和5张公共牌。最多有4轮下注,前3轮下注后分别可以多看3/1/1张公共牌,最后一轮下注后可以和对面比大小。中途弃牌视为放弃本轮。

然后从2(手牌)+5(公共牌)张牌中选择5张进行大小比较。胜利者获得本轮游戏双方的所有下注。

论文贡献

  1. 提出端到端强化学习框架,每个决策时刻仅使用神经网络正向传播,从状态信息直接推理到最终动作
  2. 提出新的游戏状态标识
  3. 获得了高性能的AI,单机训练3天,击败了Slumbot、DeepStack和职业牌手

信息编码方式


牌的信息和行动信息分别进行独立编码。
牌用6个矩阵表示,分别对应2张手牌、3张翻牌、1张转牌、1张河牌、所有公共牌(翻牌、转牌、河牌)和所有已知牌(手牌、公共牌)。每个矩阵都是413的,对应52张扑克牌。如果有对应的牌就在矩阵中写1否则写0。容易判断,这些矩阵都是稀疏矩阵。
行动编码的话用了24个矩阵。每一轮下注认为最多有6轮加注/再加注/跟注/弃牌。一共用4
6个矩阵表征每一轮的动作。

网络结构



将分开编码的动作信息和卡牌信息分别输入卷积神经网络,处理后将信息输入全连接层。然后直接输出对应地动作和reward,用Trinal-Clip PPO进行策略梯度的优化。

自博弈算法


文章提出了K-best 的自博弈算法,也就是和历史上成绩最好(ELO评分)的K个模型进行对打。这样子认为不容易陷入策略循环克制的陷阱。

个人觉得这个K-best的自博弈算法也蛮有意思的。

性能比较


论文进行了消融实验,说明了编码方式、强化学习方式、自博弈方式都会影响Agent的性能。

和Slumbut、openStack的对打十万手牌,均取得较好结果。在和专家牌手的一万手牌中,也取得了一定的优势(但是方差很大)。

最终起手的范围来看,模型和专家人类是差不太多的,说明学到的模型是有意义的。

值得一提的是,只用很少的训练资源就完成了训练。相比DeepStack,每一个动作的决策时间也缩短了大约1000倍。

都看到这里了,就动动手点个赞吧~

【论文笔记】AAAI2022论文精读-AlphaHoldem相关推荐

  1. [论文笔记] DETR 论文笔记

    DETR 论文笔记 End-to-End Object Detection with Transformers(ECCV 2020) 摘要 引言 相关工作 集合预测 DETR 模型 集合预测损失(Ob ...

  2. [论文笔记] CornerNet论文详细解读

    论文:CornerNet: Detecting Objects as Paired Keypoints Hei Law, Jia Deng European Conference on Compute ...

  3. 【论文笔记】论文清单备忘录

    系列文章目录 分类模板: 时间 题目 笔记链接 已读or推荐 源码 时间 题目 笔记链接 ❓ ⭐️

  4. [论文笔记]MAS论文综述

    多智能体系统(MAS)纵览 =================================================== Part 1 1.介绍 分布式人工智能(DAI) DAI算法根据下述 ...

  5. 【论文笔记】李盟, et al. 一种恶意代码特征选取和建模方法. 计算机应用与软件 08(2015):272-277.

    前言 论文笔记. 论文笔记 出处及年份 <计算机应用与软件 Computer Applications and SoftwareVol.>第32卷第8期2015年8月 论文标题 一种恶意代 ...

  6. 虚拟换衣 VITON 论文笔记

    VITON 论文笔记 介绍 论文笔记 任务 VITON 框架 Person Representation(人体表示) Pose heatmap (姿势热图) Human body representa ...

  7. NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing论文笔记

    NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing论文笔记 看论文的笔记,欢迎 ...

  8. When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks论文笔记

    When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks论文笔记 该 ...

  9. Data-Efficient Backdoor 论文笔记

    #论文笔记# 1. 论文信息 论文名称 Data-Efficient Backdoor 作者 Pengfei Xia 中国科学技术大学 会议/出版社 IJCAI 2022 pdf

  10. 【时序】应用于时间序列的 Transformer 综述论文笔记

    论文名称:Transformers in Time Series: A Survey 论文下载:https://arxiv.org/abs/2202.07125 论文源码:https://github ...

最新文章

  1. java简体(繁体)转换器
  2. bus.js非父子组件之间通讯
  3. SAP各种凭证的取消小结
  4. 为什么设计师应该学习编写代码
  5. 2015 百度一面 总结记录
  6. plc 上位机编译算法_西门子PLC的开放式TCP通信
  7. GitHub项目功能理解
  8. 数字U家,即刻出发!2022联合利华黑客马拉松报名倒计时!
  9. Redis实战(十三)Redis的三种集群方式
  10. (对比PDF)Adobe Acrobat DC 离线对比PDF、draftable.com/compare 在线对比PDF
  11. Error:Could not launch XXX failed to get the task for process 1105
  12. 趣味计算机课堂示范课,枯燥的理工学科,秒变趣味课堂
  13. 树莓派怎么切换输入法_树莓派如何安装中文输入法
  14. CodeMirror使用说明书
  15. uni-app小程序使用u-pase富文本解析图片时会出现闪现一下默认的尺寸再变成设置的宽高,有种先大后小的闪现
  16. P、NP、NPC概念总结
  17. 嵌入式Linux(十三)RTC实时时钟
  18. ddr5和ddr4的区别 ddr5和ddr4性能差别
  19. OpenGL学习二十九:模板缓冲区与模板测试
  20. 自知识蒸馏(知识蒸馏二)

热门文章

  1. mount unmount oracle,umount- 0506-349 Cannot unmount -dev-cd0- The requested reso
  2. android.permission.MOUNT_UNMOUNT_FILESYSTEMS添加权限报错
  3. LaTeX - 排版试卷 (选择题)
  4. 申请澳洲移民想成功?澳洲雇主担保移民了解下!
  5. 第八周周一物联网通信
  6. VMware虚拟机安装2022年最新版Ubantu详细图文安装教程
  7. 透过三季度财报看3.0用友:向云而升,做企业数智化的云引擎
  8. Unity引擎Fps打怪兽小游戏
  9. Ble Sig Mesh 协议从零到深入
  10. 通过url把多个html合并,Web多链接合并模式