强化学习中免模型学习采用蒙特卡罗方法去逼近最优解,那这种采样原理是怎样的呢?

1、蒙特卡罗思想

是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果。

和拉斯维加斯算法相比,经典的描述就是:

蒙特卡罗算法:采样越多,越近似最优解;尽量找好的,但不保证是最好的。
    拉斯维加斯算法:采样越多,越有机会找到最优解;尽量找最好的,但不保证能找到。

这是一种采样随机的算法或原理。诞生于上个世纪40年代美国的"曼哈顿计划",名字来源于赌城蒙特卡罗,象征概率。近似或逼近,插值等等概念不外如是。

2、蒙特卡罗数学定义

3、借案例理解-π的计算

蒙特卡罗算法表示采样越多,越近似最优解。举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法。告诉我们样本容量足够大,则最接近所要求解的概率。

如何用蒙特卡罗方法计算圆周率π。

正方形内部有一个相切的圆,它们的面积之比是π/4。

现在,在这个正方形内部,随机产生10000个点(即10000个坐标对 (x, y)),计算它们与中心点的距离,从而判断是否落在圆的内部。

如果这些点均匀分布,那么圆内的点应该占到所有点的 π/4,因此将这个比值乘以4,就是π的值。通过R语言脚本随机模拟30000个点,π的估算值与真实值相差0.07%。

机器学习知识点(三十五)蒙特卡罗方法相关推荐

  1. 机器学习知识点(三十)LDA话题模型Java实现

    1.LDA数学定义 1)话题模型:传统的文本分类器,比如贝叶斯.kNN和SVM,只能将其分到一个确定的类别中.假设我给出3个分类"算法""分词""文学 ...

  2. 《C#零基础入门之百识百例》(三十五)方法返回 -- 自守数

    C#零基础入门 函数 -- 方法返回值 前言 一,方法结束 1.1 方法结束的几种情况 1.2 return语句 二,返回类型 2.1 返回类型 2.2 实例代码 -- 三数比较 三,实例练习 -- ...

  3. 机器学习知识点(三十六)分类器性能度量指标f1-score

    在用python机器学习库scikit-learn训练模型时,常用f1-score来度量模型性能,下面回顾和学习下这个指标. 内容概要¶ 模型评估的目的及一般评估流程 分类准确率的用处及其限制 混淆矩 ...

  4. 机器学习知识点(三十二)微积分基础

    网址:http://www.cnblogs.com/dudi00/p/4056451.html 包含: 1.极限: 2.常数e:关于常数e网络流传的介绍:http://www.guokr.com/ar ...

  5. 机器学习(三十五)——Actor-Critic, Integrating Learning and Planning(1)

    Actor-Critic 概述 MC策略梯度方法使用了收获作为状态价值的估计,它虽然是无偏的,但是噪声却比较大,也就是变异性(方差)较高.如果我们能够相对准确地估计状态价值,用它来指导策略更新,那么是 ...

  6. 机器学习知识点(三十四)机器学习类学习资源

    1.维基百科 1)人工智能的历史(History_of_artificial_intelligence):https://en.wikipedia.org/wiki/History_of_artifi ...

  7. 机器学习知识点(二十五)Java实现隐马尔科夫模型HMM之jahmm库

    1.隐马尔可夫模型HMM的应用场景,关乎于序列和状态变化的都可以.    发现java有可库,专为开发HMM,可惜只能在CSDN上有得下载.     2.jahmm是java开发隐马尔科夫模型的一个j ...

  8. 第三十五课 问题求解方法——迭代 【项目1-5】

    第三十五课 问题求解方法--迭代 项目一 [另类求和]     求 Sn=a+aa+aaa+...+aa...a之值,其中 a是一个数字. 例如2+22+222+2222( 此时a=2,n=4),a和 ...

  9. 吴恩达机器学习训练秘籍整理三十三到三十五章(五)

    第三十三章 为何与人类表现水平进行对比: 许多机器学习系统的设计目的是想要自动化一些人类可以处理得很好的事情,可举的例子有图像识别.语音识别以及垃圾邮件分类等等.此外,有许多理由表明在处理人类擅长的任 ...

最新文章

  1. mysql时间复杂度o的n次方_MySQL性能测试调优
  2. sql 中删除重复数据的方法
  3. 使用SPEncode.HtmlEncodePreserverSpace保存输入
  4. 导致出现404的原因以及解决方案
  5. Arcgis创建SDE_Geometry、SDO_Geometry的区别
  6. [转载]Netvault:操作Informix APM将A机备份的数据恢复到B机
  7. Deep Learning(深度学习)网络资源
  8. html定义页脚有什么用,HTML5中footer标签的用法你知道吗?,HTML5中的footer标签是什么意思?...
  9. Zen Coding插件
  10. Libra客户端使用
  11. 搜狗微信 长链接转微信链接
  12. VMware虚拟机不能上网了怎么办
  13. LeetCode题解目录
  14. Linux启动阶段Grub损坏修复
  15. hbase实战 与mysql_HBase实战系列1—压缩与编码技术
  16. 阿迪达斯进博会展示首款碳足迹低于3千克运动鞋;霍尼韦尔携30余项产品和解决方案亮相进博会 | 美通社头条...
  17. 使用豆瓣api查找本地电影评分来决定看什么电影
  18. repo forall -c命令
  19. C++_计算字符串长度
  20. 【WWDC】10分钟带你看完苹果WWDC2022、iOS16、iPadOS16、macOS Ventura、watchOS 9

热门文章

  1. android wp8相机,体验提升明显 WP8.1相机对比专业拍摄
  2. jQuery 操作大全
  3. 利用python把图片转换成代码
  4. Ubuntu 16.04安装VirtualBox 5.1实现无缝模式
  5. Log Buffer
  6. magento 修改产品类型的方法 change product type
  7. 李东生:管理者不能变成诸葛先生
  8. 异常宕机 Ora-00600 [Kccpb_sanity_check_2] 错误解决方法
  9. 好的产品经理是怎样炼成的?
  10. Windows Embedded Compact 2013升级:VS2013也能编译