【论文笔记】AAAI2022论文精读-AlphaHoldem
修改自我组会报告,具体细节请读原文。
文章目录
- 引子
- 背景介绍
- 德州扑克规则
- 论文贡献
- 信息编码方式
- 网络结构
- 自博弈算法
- 性能比较
引子
论文标题是:AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Texas Hold’em from End-to-End Reinforcement Learning
在写这篇文章的时候,论文还没有正式发布,我这里读的是预发布版本。我邮件联系了论文作者之一的兴军亮老师,他的回复是:
你好,欢迎关注我们的工作。论文的终稿近期会在网上公布,里面会有详细描述。我们还会共公布大量对抗数据,也会有助你理解AI和人的决策差异。其他问题,你可以和我的学生联系。
现在网络上基本搜到的PR稿都是一个模子里刻出来的,就不赘述了。
说实话论文挺让我震撼的。没有采用传统德州扑克的CFR系列的解决方案,使用只进行正向的神经网络,取得这么好的成绩,让我直呼“不可思议”。
我们进入正题吧。
背景介绍
论文研究的是双人无限注德州扑克AI。
德州扑克规则
简单介绍一下,就是2张明牌和5张公共牌。最多有4轮下注,前3轮下注后分别可以多看3/1/1张公共牌,最后一轮下注后可以和对面比大小。中途弃牌视为放弃本轮。
然后从2(手牌)+5(公共牌)张牌中选择5张进行大小比较。胜利者获得本轮游戏双方的所有下注。
论文贡献
- 提出端到端强化学习框架,每个决策时刻仅使用神经网络正向传播,从状态信息直接推理到最终动作
- 提出新的游戏状态标识
- 获得了高性能的AI,单机训练3天,击败了Slumbot、DeepStack和职业牌手
信息编码方式
牌的信息和行动信息分别进行独立编码。
牌用6个矩阵表示,分别对应2张手牌、3张翻牌、1张转牌、1张河牌、所有公共牌(翻牌、转牌、河牌)和所有已知牌(手牌、公共牌)。每个矩阵都是413的,对应52张扑克牌。如果有对应的牌就在矩阵中写1否则写0。容易判断,这些矩阵都是稀疏矩阵。
行动编码的话用了24个矩阵。每一轮下注认为最多有6轮加注/再加注/跟注/弃牌。一共用46个矩阵表征每一轮的动作。
网络结构
将分开编码的动作信息和卡牌信息分别输入卷积神经网络,处理后将信息输入全连接层。然后直接输出对应地动作和reward,用Trinal-Clip PPO进行策略梯度的优化。
自博弈算法
文章提出了K-best 的自博弈算法,也就是和历史上成绩最好(ELO评分)的K个模型进行对打。这样子认为不容易陷入策略循环克制的陷阱。
个人觉得这个K-best的自博弈算法也蛮有意思的。
性能比较
论文进行了消融实验,说明了编码方式、强化学习方式、自博弈方式都会影响Agent的性能。
和Slumbut、openStack的对打十万手牌,均取得较好结果。在和专家牌手的一万手牌中,也取得了一定的优势(但是方差很大)。
最终起手的范围来看,模型和专家人类是差不太多的,说明学到的模型是有意义的。
值得一提的是,只用很少的训练资源就完成了训练。相比DeepStack,每一个动作的决策时间也缩短了大约1000倍。
都看到这里了,就动动手点个赞吧~
【论文笔记】AAAI2022论文精读-AlphaHoldem相关推荐
- [论文笔记] DETR 论文笔记
DETR 论文笔记 End-to-End Object Detection with Transformers(ECCV 2020) 摘要 引言 相关工作 集合预测 DETR 模型 集合预测损失(Ob ...
- [论文笔记] CornerNet论文详细解读
论文:CornerNet: Detecting Objects as Paired Keypoints Hei Law, Jia Deng European Conference on Compute ...
- 【论文笔记】论文清单备忘录
系列文章目录 分类模板: 时间 题目 笔记链接 已读or推荐 源码 时间 题目 笔记链接 ❓ ⭐️
- [论文笔记]MAS论文综述
多智能体系统(MAS)纵览 =================================================== Part 1 1.介绍 分布式人工智能(DAI) DAI算法根据下述 ...
- 【论文笔记】李盟, et al. 一种恶意代码特征选取和建模方法. 计算机应用与软件 08(2015):272-277.
前言 论文笔记. 论文笔记 出处及年份 <计算机应用与软件 Computer Applications and SoftwareVol.>第32卷第8期2015年8月 论文标题 一种恶意代 ...
- 虚拟换衣 VITON 论文笔记
VITON 论文笔记 介绍 论文笔记 任务 VITON 框架 Person Representation(人体表示) Pose heatmap (姿势热图) Human body representa ...
- NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing论文笔记
NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing论文笔记 看论文的笔记,欢迎 ...
- When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks论文笔记
When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks论文笔记 该 ...
- Data-Efficient Backdoor 论文笔记
#论文笔记# 1. 论文信息 论文名称 Data-Efficient Backdoor 作者 Pengfei Xia 中国科学技术大学 会议/出版社 IJCAI 2022 pdf
- 【时序】应用于时间序列的 Transformer 综述论文笔记
论文名称:Transformers in Time Series: A Survey 论文下载:https://arxiv.org/abs/2202.07125 论文源码:https://github ...
最新文章
- java简体(繁体)转换器
- bus.js非父子组件之间通讯
- SAP各种凭证的取消小结
- 为什么设计师应该学习编写代码
- 2015 百度一面 总结记录
- plc 上位机编译算法_西门子PLC的开放式TCP通信
- GitHub项目功能理解
- 数字U家,即刻出发!2022联合利华黑客马拉松报名倒计时!
- Redis实战(十三)Redis的三种集群方式
- (对比PDF)Adobe Acrobat DC 离线对比PDF、draftable.com/compare 在线对比PDF
- Error:Could not launch XXX failed to get the task for process 1105
- 趣味计算机课堂示范课,枯燥的理工学科,秒变趣味课堂
- 树莓派怎么切换输入法_树莓派如何安装中文输入法
- CodeMirror使用说明书
- uni-app小程序使用u-pase富文本解析图片时会出现闪现一下默认的尺寸再变成设置的宽高,有种先大后小的闪现
- P、NP、NPC概念总结
- 嵌入式Linux(十三)RTC实时时钟
- ddr5和ddr4的区别 ddr5和ddr4性能差别
- OpenGL学习二十九:模板缓冲区与模板测试
- 自知识蒸馏(知识蒸馏二)
热门文章
- mount unmount oracle,umount- 0506-349 Cannot unmount -dev-cd0- The requested reso
- android.permission.MOUNT_UNMOUNT_FILESYSTEMS添加权限报错
- LaTeX - 排版试卷 (选择题)
- 申请澳洲移民想成功?澳洲雇主担保移民了解下!
- 第八周周一物联网通信
- VMware虚拟机安装2022年最新版Ubantu详细图文安装教程
- 透过三季度财报看3.0用友:向云而升,做企业数智化的云引擎
- Unity引擎Fps打怪兽小游戏
- Ble Sig Mesh 协议从零到深入
- 通过url把多个html合并,Web多链接合并模式