用老虎机小例子理解Multi-armed Bandit Learning
1. 问题背景
一个人带着一些钱走进一家赌场, 换到了一些游戏币, 有好几个不同的老虎机, 只有他一个人可以用这几台老虎机. 这几台老虎机都各不相同, 即赢钱的概率不同. 但是这个概率是事先未知的.
2. 解决思路
我们有一些资源(即游戏币). 我们可以用一部分游戏币来做试验, 得到每台老虎机的一些信息. 然后基于这个信息, 再做出"最好的"决定. 即问题中存在exploration-exploitation dilemma的问题, 即用多少资源做试验, 用多少剩下的资源给"最好的"老虎机.
3. 一些方法
(1) ɛ-first: 假设ɛ=10%
首先, 用10%的游戏币做试验, 实验结束后, 选择最好的那一台老虎机, 把剩下的90%的游戏币都给这台"最好的"老虎机.
(2) ɛ-greedy: ɛ = 10%
这个方法中, 没有先试验后执行的先后顺序. 10%用来试验, 90%用来执行. 每次执行时选择的老虎机是都是到目前为止的试验中"最好的"那一个, 即, 试验是一直在进行中, 试验得到的最好的老虎机可能会在变化. 这样给了我们一个可以改变的机会.
用老虎机小例子理解Multi-armed Bandit Learning相关推荐
- 初识随机规划:用一个小例子理解随机规划
文章目录 初识随机规划:一个小小例子 生产计划的例子 参数的不确定性 随机规划模型(Stochastic Programming) Python调用Gurobi求解随机规划模型 参考文献 Olittl ...
- 一个小例子理解什么是卷积
别怕,"卷积"其实很简单 2018年01月17日 13:15:52 阅读数:17600 标签: 机器学习 信号系统 概率统计 统计学习 深度学习 更多 个人分类: Data Sci ...
- 小例子来理解MapReduce
MapReduce是由Google开发的针对大规模海量数据处理的分布式计算框架.MapReduce处理数据的两个核心阶段是Map(映射)和Reduce(化简).简单地来,Map负责将数据打散,Redu ...
- php函数的默认值,php函数指定默认值方法的小例子
php函数指定默认值方法的小例子 本节内容: php函数指定默认值 在php编程中,为自定义函数设定默认值,当用户调用该函数时,如果不给参数指定值,参数会用默认值顶替. 例1, 复制代码 代码如下: ...
- 深度学习与计算机视觉系列(9)_串一串神经网络之动手实现小例子
深度学习与计算机视觉系列(9)_串一串神经网络之动手实现小例子 作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/de ...
- python 真多线程_Python之路200个小例子,在线网页版来了,从此学习更方便!
历史两个月,利用所有业余时间,与朋友一起搜集.创作Python小例子,截止目前已超过200个例子,全新整合汇总为九大章节: 感受Python之美 | 一.Python基础 | 二.Python字符串和 ...
- JS的for循环小例子
1.输出1-100的和 var sum = 0;for(var i=1;i<=100;i++){sum = sum + i;}document.write(sum); 2.输出1-100奇数的和 ...
- 五个小例子教你搞懂 JavaScript 作用域问题
原文:五个小例子教你搞懂 JavaScript 作用域问题 众所周知,JavaScript 的作用域和其他传统语言(类C)差别比较大,掌握并熟练运用JavaScript 的作用域知识,不仅有利于我们阅 ...
- spark学习-73-源代码:Endpoint模型介绍(5)-Netty通讯小例子
想理解Rpc的通讯,先看看Netty的通讯小例子,有助于理解Spark的Rpc通讯原理 先看一个整体图 静态图: 动态图gif动画: Spark2.2以后统一了通讯方式,全部是netty方式,根据源码 ...
最新文章
- 大模型时代,我们真的不再需要分词了吗?
- 第十三周项目一-分数类中的运算符重载
- wxWidgets:wxGridUpdateLocker类用法
- 计算机无法检测电池损耗怎么办,笔记本电脑无法充电怎么办?笔记本电池损耗如何修复?...
- 源路由 小实验 小发现
- 再说WCF Data Contract KnownTypeAttribute
- mysql.h 动态编译命令_Linux环境编译动态库和静态库总结
- Java 系统工具类 —— System、Scanner、Runtime
- Linux(6)文件和磁盘管理
- 拓端tecdat|使用Python中Keras的LSTM递归神经网络进行时间序列预测
- 探讨e.target与e.currentTarget
- icem密度盒怎么设置_哪种外卖盒最健康?常吃外卖的必知!
- html5广告的版式设计,永不过时!5种网页版式设计分享
- LLC谐振半桥电路分析与设计(1)
- 计算机屏幕有条线,电脑屏幕出现一条白线怎么办?电脑显示器中间出现一条线解决方法...
- ios微信浏览器App下载链接怎样跳转到苹果App Store
- php 根路由器,Pux
- mysql分组取所有数据_mysql 分组后取每个组内最新的一条数据
- 怎样解决 crx扩展无法离线安装,本地插件crx不能安装 的问题?
- OBR2 删除主数据
热门文章
- 自动化车间3D可视化设计思路
- latex排版——博雅编辑室
- 【三十五】Python全栈之路--MySQL
- 3、Spark 和 D3.js 分析航班大数据
- 杭电2566_统计硬币——java
- tensorflow安装 报错ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。
- 计算机数学与高中数学衔接,高中数学的断层与衔接研究论文
- python画椭圆-Python 如何绘制椭圆?
- 台州农商行计算机专业能力测试,银行/农商行笔试!刷题要刷到点子上,来这里专业老师给你出题...
- 人工智能和中国国家人工智能发展战略