充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志
最近由卡耐基梅隆大学的两位学者Noam Brown and Tuomas Sandholm提出的AI模型Pluribus,在无限制德州扑克(手牌总数超过10000张)的六人比赛中,成功战胜了五名专家级人类玩家。目前这篇论文已经刊发在最新一期《科学》杂志上了。https://science.sciencemag.org/content/sci/early/2019/07/10/science.aay2400.full.pdf
Pluribus可谓开创了今年以来人工智能方面的两个新风。
一是今年以来AI界的主要成果基本都是大力出奇迹的风格,无论是NLP方面的GPT-2、XLNET,还是生成模型方面的VP-VAE-2其最终模型的训练成本都动辙要耗费数十万人民币。而Pluribus训练成本只有150美元(后面笔者会说明其训练量较少的原因)。是平民也能玩得起的模型。
二是这篇论文直接这被《科学》刊发,之前无论是横空出世的GPT-2,还是稳居自然语言处理方面C位的BERT,其论文都只发在了行业期刊上,而在我印象中这是《科学》杂志今年以来首次刊发人工智能方面的论文。
多人德扑难在哪里
多人德扑其实就是信息不完全情况下的多人博弈,在作者原文中以”柠檬水摊“游戏为例,这个游戏要求每位玩家同时在圆环形的柠檬水摊上选择一个点,并尽量远离其它玩家。在这种情况下几名玩家的联合纳什均衡是均匀的分布在摊位的周围,如下面的左图所示,相同颜色代表一组纳会均衡,不过在实在游戏过程中这几乎不可能完成,玩家独立做出的选择往往如下面的右图所示。
同时考虑到德扑是隐藏信息的博弈,如果考虑所有玩家隐藏信息中可能包括的全部情况,那么其计算量将是天文数字,绝不是150美元能解决的问题。
Pluribus的开创性工作
1.对于类似的策略进行压缩:其原文是这样描述的”For example, a ten-high straight and a nine-high straight are distinct hands, but are nevertheless strategically similar“虽然笔者不太了解德扑,但是可以肯定”ten-high straight and a nine-high straight“应该都是指非常好而且类似的两套手牌,这两种情况进行合并处理。
其实这个思想有点类似于VP-VAE-2算法当中的VP压缩思想,其实就是通过kmeans聚类对于临近的点进行合并压缩再向后输出,以此在保证精度的情况下,降低计算量。
2.使用改进版的MCCFR代替蒙特卡洛(CFR)进行迭代
Pluribus针对信息不对称博弈的特性改进了蒙特卡洛算法。上面的左图当中,使用玩家P1模拟进行游戏。中图则对于左图每一个P1决策点,都会探索P1可能采取的行动,选择具有更高收益和更高概率的行动。右图则是针对中间图中遇到的每一个决策点探索了P1可能采取的行动,然后选择更高收益的行动。这个过程不断重复,直到没有遇到新的P1决策点。所以这个过程可以看做是交互式的蒙特卡洛算法。
更加贴合不对称博弈的搜索方案
AI在完美信息博弈中一般使用实时搜索,来决定下一步如何行动。这种搜索算法会会考虑以后的子叶上所有可能的方案,直到算法的前瞻到达叶节点或深度的上限。
不过这不适用于不对称博弈,因为对手很多信息是隐藏的,所以在Pluribus之前AI不会假设对手会转移其策略到其它叶节点的情况。举个最简单的例子比如在石头、剪刀、布的游戏中如果你一直出剪子,那么AI就会假定你下面的行动还是出剪子。再比如在多人德扑的赛场上,如果一个参与者永远不会 bluff,那么AI总会在这个人加大注的情况下弃牌。这可能会导致一些弱点的出现,从而导致损失。
而在Pluribus模型中,并不假设参与者会进行单个固定策略的博弈,在搜索已经到叶节点时,研究者假设每一个参与者会从四个不同的策略(跟进、弃牌、叫牌、加注)中选择,从而进行剩余的博弈。
Pluribus的表现
在多人
上面的上图表示Pluribus的胜率,下面表示Pluribus记得筹码的数量,如果按照一般职业选手的每天经手的筹码换算,Pluribus每天至少能赚上千美元。
而考虑到其在算力上的各种精打细算,他们只用了一个064-core服务器512G的内存训练了12,400 CPU core hours,这总算也就需要不到150美元,绝对堪称赚钱神器,值得拥有。
充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志相关推荐
- 头条号三农领域原创视频日赚1000,自媒体领域选择哪个好?
头条号三农领域原创视频日赚1000,自媒体领域选择哪个好? 如果你做头条不知道选什么领域,那么懒大咖现在推荐你试试三农领域,拍农村题材的视频可以赚到钱.为什么?因为确实有点火爆,我身边的朋友都已经轻松 ...
- 通过小红书精准引流女性粉丝,日赚1000+的网赚项目
小红书的用户大多都是女性,而且粘性大,购买力强,在小红书既可以分享自己的种草笔记,又可以从别人的推荐中找到适合自己的产品,从而在小红书购买. 这样的循环让用户已经养成了习惯,当她们需要某一性能的产品时 ...
- 偏门赚钱日赚1000,这个创业项目我本来不想说的....
小张是一个很低调的人,可能是因为跟他的性格有关,也有可能是因为跟他做的项目有关,或者说做互联网项目的人都很低调. 低调到不为人所知,但却偷偷的赚钱! 但这仅仅是白天的场景,窝在小房间里面足不出户,到了 ...
- 技术人如何打造出日赚1000+美元的赚钱利器(转https://gitbook.cn/gitchat/activity/58f8d110b75ae65904c10628?utm_source=csd)
阅读全文:http://blog.maptoface.com/post/211 什么是赚钱利器 这里是指网络赚钱利器,用李笑来老师的话讲:『睡后收入』,躺着把钱给挣了.网络赚钱机器就意味着不工作有钱赚 ...
- 计算机论文大一范文1000字,【大一数学论文1000字6篇】_大一数学论文1000字范文大全_2021年大一数学论文1000字_东城教研...
大一数学论文1000字 近日,出现了许多关于大一数学论文1000字的资讯,东城教研第一时间为您准备了这一期大一数学论文1000字专题.也察觉到了大学给人们带来的锻炼.[大一组织委员学期工作总结 ]文章 ...
- 【历史上的今天】4 月 12 日:Google 中文名称谷歌发布;Fire TV 问世;登上太空的计算器
整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 4 月 12 日,每年的这一天是世界航天日,全名载人空间飞行国际日:在 1961 年的 4 月 12 ...
- 3个案例揭秘一个冷门吸粉渠道,有人在此操作日赚千元!
最近,圈子里面的朋友都在讨论微视,一方面研究如何赚取微视30亿补贴,另一方面思考如何引流,第三是如何利用微视打造个人IP进行多层次多方式的变现! 抖音的成功让我们看到了一个新的红利项目:玩微视. ...
- 80后屌丝站长自曝日赚6000(纯分享贴)
前两天在朋友圈分享了本站长日赚6000的光辉事迹,没想到一个妹子都没引来,结果却招来一片骂声,总结一下有两类声音比较强烈:一是说我催牛逼不可信!二是说我经验分享得太少,未能解救仍处于贫下中农阶层的广大 ...
- 【思维进阶】思维碎片日更系列第1篇
[一] 技术不值钱,会聊天才值钱,要学会帮别人解决问题. 怎么帮人解决问题?要利用大师的智慧去帮人. 怎么用?习惯建立自己强大的智慧数据库.习惯性搜集各种致富,成长故事.大咖的聊天记录,对话系统,各种 ...
- 技术写作,如何从日赚0.1元到日赚100元,内含CSDN专栏推广秘籍【赢在CSDN】
感谢你选择阅读本篇博客,它不是标题党,而是一篇实实在在的赚钱操作手册 作为国内排名前三的技术博客社区,CSDN为各个级别的博主都设置了丰富的变现渠道,常见途径如下所示: 日常签到 CSDN付费专栏 C ...
最新文章
- [原]unity3d之http多线程异步资源下载
- AC日记——双栈排序 洛谷 P1155
- 【Python】远离 Python 最差实践,避免挖坑
- mysql utf8mb4 造成慢_mysql使用utf8mb4经验吐血总结
- 计数原理,递推,求从左边能看到l个棒子,右边能看到r个棒子的方案数目
- 数据结构员工通讯录管理系统 C语言,数据结构课程设计报告单位员工通讯录管理系统.doc...
- 如何选择自己适合的引流平台?
- JSP(二):JSP页面组成部分
- 24. Swap Nodes in Pairs 1
- 注意!SQLite被曝漏洞,Chrome 火狐等数千应用或受影响
- Drools规则引擎介绍及实践
- 各省份国内、入境旅游人数 (2007-2018年)
- 俄文输入法_【俄语怎么学】手把手教你使用俄语输入法
- win10系统找不到telnet服务器,win10系统找不到Telnet服务的技巧介绍
- python制作查询软件_Python制作快递查询工具
- 在王者荣耀角度下分析面向对象程序设计B中23种设计模式之原型模式
- 单链表的逆转:(头尾互换)
- java控制器文件内容替换_如何用Java来进行文件切割和简单的内容过滤的实现
- 在线语音转文字如何进行在线转换的
- 【板栗糖GIS】为什么内网穿透过的地址出现Tunnel not found