1. Introduction to Monte Carlo Methods

1.1 简介

蒙特卡洛以摩纳哥的一家赌场命名,它使用简单的随机事件来模拟复杂的概率事件,例如掷一对骰子来模拟赌场的整体商业模式。 在蒙特卡洛计算中,一个伪随机数生成器被重复调用,它在 [0, 1] 中返回一个实数,结果用于生成样本分布,该分布是所研究的目标概率分布的公平表示。 本章介绍蒙特卡洛的主要概念,包括两大类:

  • 顺序链和马尔可夫链

五个目标:

  • 模拟、估计、优化、学习和可视化

给出了每个任务的示例,并研究了包括近似计数、射线追踪和粒子滤波在内的应用。

1.2 动机和目标

一般来说,Monte Carlo 方法分为两类:

  • Sequential Monte Carlo:通常在低维状态空间中,通过顺序采样和重要性重新加权来保存和传播大量示例。
  • 马尔可夫链蒙特卡罗:它模拟马尔可夫链来探索具有固定概率的状态空间,该固定概率旨在收敛到给定的目标概率。

在工程应用中,例如 计算机视觉、图形和机器学习,目标函数是在图形表示上定义的,研究人员面临着在模型准确性计算复杂性之间进行权衡的三种建模和计算范式之间的选择。

  • 具有精确计算近似模型:一种通过打破循环连接或删除某些能量项来简化表示。 一旦底层图变成树或链,动态规划等算法就适用于找到近似问题的精确解决方案。 在这一类中,还有一些问题,其中找到了能量的凸近似值,并使用凸优化算法来找到全局能量最优值。 示例包括 L1L_1L1​ 惩罚回归 (lasso) [7] 和分类,其中对非零模型权重数量的非凸 L0L_0L0​ 惩罚被凸 L1L_1L1​ 惩罚取代。
  • 具有本地计算精确模型:保留原始表示和目标函数,但使用近似算法,例如 梯度下降,以找到局部解决方案,因此依赖启发式方法来指导初始状态。
  • 具有渐近全局计算精确模型:该类包含蒙特卡罗方法,随着时间的推移模拟足够大的样本,并以高概率收敛到全局最优解。

蒙特卡洛方法已用于许多不同的用途,我们将在下一节中举例说明。

用途 1 : 模拟一个系统及其概率分布 π(x)

用途 2 : 通过蒙特卡洛积分估计值

用途 3 : 优化目标函数以找到其模式(最大值或最小值)

用途 4 : 从训练集中学习参数以优化一些损失函数,例如从一组示例 {xi,i=1,2,...,M}\{x_i, i = 1, 2, . . .,M\}{xi​,i=1,2,...,M}

用途 5:可视化目标函数的能量景观,从而量化上述任务之一的难度和各种算法的效率。 例如,生物学家对蛋白质折叠的能量景观很感兴趣。 不同的蛋白质具有不同的景观,能量景观的局部最小值可能与某些疾病(例如阿尔茨海默病)有关。 在计算机视觉中,学习算法(例如卷积神经网络(CNN))的能量景观很有趣,可以研究为什么它们似乎在独立于初始化的情况下给出了良好的结果(所有局部最小值都等同于滤波器的排列吗?) ,或者让其他学习算法了解学习正确模型的困难是什么,以及能量景观如何随着观察次数的变化而变化。

可以看出,蒙特卡洛方法可以用于许多复杂的问题。

1.3 蒙特卡洛计算中的任务

在科学(例如物理、化学和生物学)和工程(例如视觉、图形、机器学习和机器人技术)中研究的现实世界系统涉及大量组件之间的复杂交互。 这样的系统通常表示为图,其中顶点表示组件,边表示交互。 系统的行为由图上定义的概率模型控制。 例如,在统计物理学中,铁磁材料由经典的 Ising 和 Potts 模型表示 [6]。 这些模型还用于计算机视觉中,以根据吉布斯分布和马尔可夫随机场来表示相邻像素之间的依赖关系。

一般来说,我们会得到一些观察结果 {x1,...,xn}\{x_1, . . . , x_n\}{x1​,...,xn​} ∼ f(x)f (x)f(x) 表示来自“真实”概率模型 f(x)f (x)f(x) 的样本。 实际上,f(x)f (x)f(x) 通常是未知的,只能通过经验样本{x1,...,xn}\{x_1, . . . , x_n\}{x1​,...,xn​} 进行近似。

1.3.1 任务 1:采样和模拟(仿真)

很多时候,我们对学习未知的“真实”模型 f(x)f(x)f(x) 感兴趣,这意味着用参数模型 P(x;θ)P(x; θ)P(x;θ) 对其进行逼近。 在许多情况下,学习模型甚至发现学习模型 P(x;θ)P(x; θ)P(x;θ) 与真实模型的比较情况意味着从中获取样本 xxx ∼ P(x;θ)P(x; θ)P(x;θ) 并对这些样本计算一些足够的统计信息。 因此,采样是蒙特卡洛计算的基本任务之一。

例如,我们将二维图像点阵表示为

每个像素是一个顶点,图像强度为I(i,j)∈{0,...,255}I_{(i,j)}∈ \{0, . . . , 255\}I(i,j)​∈{0,...,255}。 用 IΛI_\LambdaIΛ​ 表示的图像是由概率 π(IΛ;Θ)π(I_\Lambda; \Theta)π(IΛ​;Θ) 控制的底层系统的微观状态。 换句话说,当系统达到动态平衡时,其状态服从吉布斯分布

其中 ΘΘΘ 是 KKK 个参数的向量,吉布斯分布可以写成以下形式:

上式中,ZZZ 为归一化常数,H(IΛ)H(I_Λ)H(IΛ​)为图像 IΛI_ΛIΛ​ 的 KKK 个充分统计量的向量,内积称为势函数 U(I)=<Θ,H(IΛ)>U(I) =< Θ,H(I_Λ) >U(I)=<Θ,H(IΛ​)>。

当晶格足够大时,π(IΛ;θ)π(I_Λ; θ)π(IΛ​;θ) 的概率质量将集中在一个子空间上,在统计物理学中称为微正则系综 [4]

这里,h=(h1,...,hk)h = (h_1, . . . , h_k)h=(h1​,...,hk​) 是一个常数向量,称为系统的宏观状态。

因此,从分布 ΩΛ(h)∼π(IΛ;Θ)Ω_Λ(h) ∼ π(I_Λ; Θ)ΩΛ​(h)∼π(IΛ​;Θ) 中抽取公平样本等价于从集合 ΩΛ(h)∈ΩΛ(h)Ω_Λ(h) ∈ Ω_Λ(h)ΩΛ​(h)∈ΩΛ​(h)中抽样。 简单来说,采样过程旨在模拟系统的“典型”微观状态。 在计算机视觉中,这通常被称为综合——一种验证底层模型充分性的方法。

图 1.1 左:从高斯模型中采样的典型图像。 右图:一组嵌套的集成空间 ΩΛ(h)Ω_Λ(h)ΩΛ​(h),约束数量从 K=0,1,2,3K = 0, 1, 2, 3K=0,1,2,3 开始增加.

示例 1.1(模拟高斯噪声图像)

在一个大网格中,我们将“高斯噪声”模式定义为具有固定均值和方差的图像集合。

在这种情况下,模型具有 K=2K = 2K=2 充分的统计量。 图 1.1 显示了一个典型的噪声图像作为来自该集合或分布的样本。

示例 1.2(模拟纹理图案)

我们将在后面的章节中讨论。 5.5、每个纹理图案定义为一个等价类:
在本例中,充分统计量 Hk(IΛ),k=1,2,...,KH_k(I_Λ), k = 1, 2, . . . , KHk​(IΛ​),k=1,2,...,K 是 Gabor 滤波器的直方图。 也就是说,如果任何两个纹理图像共享相同的一组 Gabor 滤波器直方图,它们将在感知上是等效的。 更详细的讨论参见章节。 5.5 和参考文献 [9, 10]。 图 1.2 显示了纹理建模和模拟的示例,并展示了马尔可夫链蒙特卡罗 (MCMC) 方法的强大功能。 自 1960 年代以来,著名的心理物理学家 Julesz 研究纹理感知,提出了一个后来被称为 Julesz quest 的经典问题:

什么样的特征和统计数据集使得共享相同特征和统计数据的两个纹理图像无法通过预注意处理来区分?
因此,MCMC 方法在解决 Julesz 任务中起着关键作用。

1.3.2 任务 2:通过蒙特卡罗模拟估计数量

在科学计算中,一个常见的问题是计算一个函数在一个非常高维空间 ΩΩΩ 中的积分,

这通常通过蒙特卡洛积分来估计。 通过从 π(x)π(x)π(x) 中抽取 MMM 个样本,

可以通过样本均值估计 ccc :

这通常通过顺序蒙特卡罗 (SMC) 方法完成。 我们简要讨论 SMC 的三个例子。

示例 1.3(近似计数):

在化学中,一个有趣的问题是计算单位面积中聚合物的数量。 这被抽象为蒙特卡罗计算中的自回避行走 (SAW) 问题。 在 N ×N 点阵中,SAWr 是一条不经过任何站点两次的路径。 图 1.3 给出了一个 SAW 的例子。

将 SAWs 集表示为:

其中 SAW()SAW()SAW() 是一个逻辑指标。 正如我们将在章节 2 中讨论的那样。 ΩN2Ω_{N^2}ΩN2​的基数可以通过蒙特卡罗积分估计 :

在上面的公式中,SAW 路径是从参考模型 p(ri)p(r_i)p(ri​) 通过随机游走来采样的,该随机游走使链顺序增长。 例如,当 N = 10 时,从左下角 (0,0)(0, 0)(0,0) 到右上角 (10,10)(10, 10)(10,10) 的 SAW 路径估计数为 (1.6±0.3)×1024(1.6 ± 0.3) × 10^{24}(1.6±0.3)×1024。真实数字为 1.56875×10241.56875 × 10^{24}1.56875×1024。

示例 1.4(粒子过滤)

在计算机视觉中,一个众所周知的任务是跟踪视频序列中的对象。 图 1.4 是一个简化的示例,其中对象(即此处的人)的位置由水平轴 x 表示,每一行是时间 ttt 的视频帧 I(t)I(t)I(t)。 给定一个输入视频 I[0,t]I[0, t]I[0,t],在线跟踪的目标是通过一组样本近似表示位置的后验概率,

其中 ωi(t)ω_i (t)ωi​(t) 是 xi(t)x_i (t)xi​(t) 的权重。 S(t)S(t)S(t) 编码非参数分布,如图 1.4 中的每一行所示,

并通过以下递归积分及时传播,

在这个集成中,p(x(t+1)∣x(t))p(x(t + 1) | x(t))p(x(t+1)∣x(t)) 是物体运动的动态模型,而 g(I(t+1)∣x(t+1))g(I(t + 1) | x(t + 1))g(I(t+1)∣x(t+1)) 是测量物体运动的图像似然模型 位置 x(t+1)x(t + 1)x(t+1)对观察的适应度。 集合 S(t)S(t)S(t) 中的每个样本称为一个粒子。 通过表示整个后验概率,样本集 S(t)S(t)S(t) 保留了实现目标跟踪鲁棒性的灵活性。

示例 1.5(蒙特卡洛光线追踪)

在计算机图形学中,蒙特卡洛积分用于实现用于图像渲染的光线追踪算法。 给定一个具有几何、反射和照明的三维物理场景,从光源发出的光子将在物体表面之间反弹,或者在它们撞击成像平面之前穿过透明物体。 光线追踪方法通过对所有光源求和(积分)来计算成像平面上每个像素的颜色和强度,对于这些光源,光线可以通过像素和各种物体返回到光源。 这种计算是计算密集型的,可以通过蒙特卡洛积分来近似,我们将在第 1,2 章详细说明。

1.3.3 任务 3:优化和贝叶斯推理

自 Helmholtz (1860) 以来,计算视觉的一个基本假设是生物和机器视觉从输入图像中计算出最可能的解释。 表示 WWW 的解释,对于感知世界,可以将其视为最大化贝叶斯后验概率的优化问题,

其中 p(W)p(W)p(W) 是现实世界场景如何组织的先验模型,p(I∣W)p(I |W)p(I∣W) 是从给定场景 WWW 生成图像 III 的可能性。

有时,图像有多种合理的解释,因此在更一般的设置,需要保持多种不同的解释来近似表示后验

马尔可夫链蒙特卡洛可用于从后验 p(W∣I)p(W|I)p(W∣I)中获取样本; 然而,采样后验与最大化它不同。 后验也可以通过模拟退火最大化,这意味着采样 p(W∣I)1/Tp(W | I)^{1/T}p(W∣I)1/T,其中 TTT 是在过程中变化的温度参数。 退火过程开始时温度较高,这意味着 p(W∣I)1/Tp(W | I)^{1/T}p(W∣I)1/T 接近均匀,MCMC 可以自由探索解空间。 在退火期间,温度根据退火时间表缓慢降低。 随着温度的降低,概率 p(W∣I)1/Tp(W | I)^{1/T}p(W∣I)1/T 越来越集中在最大位置附近,MCMC 更加仔细地探索这些位置。 当温度非常小时,MCMC 应该接近后验 p(W∣I)p(W | I)p(W∣I) 的最大值。

示例1.6(图像分割与解析)

在计算机视觉中,图像分割与解析是一个核心问题。 在此类任务中,由于底层场景复杂性未知,因此 WWW 中的变量数量不固定。 因此,先验模型 π(W)π(W)π(W) 分布在异构解空间上,该空间是不同维度的子空间的并集。 当场景中的对象是组合的时,解 WWW是一个解析图,解空间的结构就会变得更加复杂。 在如此复杂的空间中寻找最优解可以通过蒙特卡洛方法来执行,该方法模拟马尔可夫链通过混合多种动力学来遍历解空间:死亡和出生、分裂和合并、模型切换和边界扩散。 为了提高计算效率,马尔可夫链由使用数据驱动方法计算的边际分布引导。 我们将在第8章详细说明。

图 1.5 说明了由数据驱动的马尔可夫链蒙特卡罗方法 [8] 计算的两个实例。 左列显示了两个输入图像,分割结果在中间,每个区域都适合某个似然模型。 为了验证计算机算法计算出的世界 W∗W^∗W∗,我们从似然 IsynI^{syn}Isyn∼p(W∣I)p(W|I)p(W∣I)中采样典型图像。 在上面的例子中,可能性不包括人脸模型,因此没有构建人脸。

1.3.4 任务 4:学习和模型估计

在统计和机器学习中,需要计算优化某些损失函数的参数,这些损失函数通常是高度非凸的,尤其是在涉及隐藏变量时。 下面,我们简要讨论两个例子 :

示例 1.7 学习 Gibbs 分布

考虑我们在 1.3.1 中提到的 Gibbs 模型。 为了清楚起见,我们省略了格子符号 ΛΛΛ,

给定一组示例 {Iiobs,i=1,2,...,M}\{I^{obs}_i , i = 1, 2, . . .,M\}{Iiobs​,i=1,2,...,M},学习的目标是通过最大化数据的似然性来估计参数,

损失函数 l(Θ)l(Θ)l(Θ) 相对于 ΘΘΘ 是凸的。 设置∂l∂Θ=0\frac{\partial l}{\partial \Theta}=0∂Θ∂l​=0,我们推导出以下约束方程,

ΘΘΘ 通常必须通过随机梯度求解。 让 ttt 表示时间步,然后采样一组典型示例 {Iisyn,i=1,2,...,M}\{I^{syn}_i , i = 1, 2, . . .,M\}{Iisyn​,i=1,2,...,M} 从当前模型 p(I;Θ(t))p(I; Θ(t))p(I;Θ(t)) 使用马尔可夫链蒙特卡罗,如示例 1.2,并使用样本均值 h^(t)=1/M∑i=1MH(Iisyn)\hat h(t) = 1/M \sum _{i=1}^MH(I^{syn}_i )h^(t)=1/M∑i=1M​H(Iisyn​) 估计期望(即蒙特卡洛积分)。 参数通过梯度上升更新,

其中 ηηη 是步长。

直觉是参数 ΘΘΘ 被更新,使得观察数据的分布和从模型中获得的分布不能根据 H(I)H(I)H(I) 表示的一些充分统计量来区分。

示例 1.8(受限玻尔兹曼机)

在深度学习中,受限玻尔兹曼机 (RBM) 是具有二进制输入和输出的神经网络。 它有一个权重矩阵(即参数)W=(Wij)W = (W_{ij})W=(Wij​),将可见单元(输入)向量 vvv 与隐藏单元(输出)向量 hhh 连接起来。 请注意,此符号与前面示例中的 hhh 具有不同的含义。 它还分别具有可见单元和隐藏单元的偏差向量 a、ba、ba、b。 RBM 的概率是吉布斯分布

基于 RBM 能量函数

使用一组示例 v1...,vnv_1. . . , v_nv1​...,vn​ 训练 RBM,通常意味着最大化对数似然:

这种优化是使用蒙特卡罗方法完成的,方式与前面的示例相同。 [2] 中使用的一种变体方法是所谓的对比散度。

1.3.5 任务 5:可视化景观

在之前的任务中,蒙特卡洛方法用于从目标分布中抽取公平的样本(任务 1),然后这些样本用于通过蒙特卡洛积分估计数值(任务 2),并优化状态空间中的一些后验概率 (任务 3)或模型空间中的损失函数(任务 4)。 使用蒙特卡洛方法最雄心勃勃的任务是可视化整个能源格局。 对于推理任务,该能量函数可以是 ΩXΩ_XΩX​ 上的负对数后验概率 −log⁡p(W∣I)-\log p(W | I)−logp(W∣I),或者对于学习任务,可以是参数空间中的损失函数 L(Θ∣Data)L(Θ|Data)L(Θ∣Data)。

在现实世界的应用中,这些函数是高度非凸的,具有复杂的、通常是可怕的景观,其特征在于高维空间中局部最小值的指数数量。图 1.6 说明了 K-means 聚类和学习问题中的简化二维能量函数。该能量函数具有多个不同深度和宽度的局部最小值,用字母 A、B、… H.表示。 红色曲线是由具有相同能级的点组成的水平集。

任务 5 的目标是使用有效的马尔可夫链蒙特卡罗方法从整个空间中抽取有效样本,然后绘制其能量盆地中的所有局部最小值,同时定位连接相邻盆地的鞍点。结果由树状结构表示,物理学家在绘制自旋玻璃模型的景观时称其为断开性图 [1]。在该图中,每个叶节点代表一个局部最小值,其深度代表能级。两个相邻叶节点相遇的能级由它们的鞍点决定。

在下文中,我们展示了一个学习示例,其中景观位于模型空间中,而不是状态空间中,因此更难以计算。

示例 1.9(数据聚类的景色)

K-mean 聚类是统计和机器学习中的经典问题。 给定有限数量的颜色表示真实标签的点,学习问题是找到最适合数据的参数 ΘΘΘ。 这里,ΘΘΘ 包括 K=3K = 3K=3 高斯模型的均值、方差和权重。 能量函数 l(Θ)l(Θ)l(Θ) 是具有似然性的后验概率和 ΘΘΘ 的先验概率。 在文献中,流行的算法是 K-means 和 EM 算法,它们只能找到局部最小值。 通过探索每个点都是模型 ΘΘΘ 的空间,可以将图 1.7 中的景观可视化。 输入数据来自机器学习中的鸢尾花数据集。12 个局部最小值 A,B,..LA,B, . .LA,B,..L 的 显示在两侧,其中每个高斯是一个椭圆。

在这种情况下,人们可以进一步可视化各种算法的行为,并量化目标函数的内在困难,无论是推理还是学习。 也可以用它来研究影响景观复杂性的关键因素。

示例 1.10(高斯混合模型的 SWC)

令 {xi∈Rd,i=1,...,n}\{x_i ∈ R^d, i = 1, . . . , n\}{xi​∈Rd,i=1,...,n} 是假设源自 kkk 个多元高斯的混合的数据点,具有未知的混合权重 αiα_iαi​ ,均值 μi∈Rdμ_i ∈ R^dμi​∈Rd 和协方差矩阵 ΣiΣ_iΣi​ , i=1,..,K.i = 1, . . , K.i=1,..,K. 令 ΘΘΘ 包含所有未知的混合参数 αi,μi,Σi,i=1,..,Kα_i,μ_i,Σ_i, i = 1, . . ,Kαi​,μi​,Σi​,i=1,..,K。

高斯混合模型的对数似然(能量)为:


如果将点分配给集群的标签是已知的,比如 L=(l1,...,ln)L = (l_1, . . . , l_n)L=(l1​,...,ln​),那么对数似然是

其中 Lj={i,li=j}L_j = \{i, l_i = j \}Lj​={i,li​=j}。

采样 P(Θ)P(Θ)P(Θ) 可以通过采样 P(L,Θ)P(L,Θ)P(L,Θ) 并取边际 P(θ)P(θ)P(θ) 来完成。 采样 P(L,Θ)P(L,Θ)P(L,Θ) 可以通过交替采样 P(L∣Θ)P(L|Θ)P(L∣Θ) 和 P(Θ∣L)P(Θ|L)P(Θ∣L) 来完成。 对于采样 P(L∣Θ)P(L|Θ)P(L∣Θ),我们可以使用 SWC 算法。 我们将 SWC 图构建为 k-NN 图,并对所有边权重使用恒定概率 qqq。

采样 P(Θ∣L)P(Θ|L)P(Θ∣L) 更复杂。 首先,我们应该观察到 P(Θ∣L)=∏j=1K∏i∈LjG(xi;μj,Σj)P(Θ|L) =\prod ^K_{j=1}\prod _{i∈L_j} G(x_i ;μ_j,Σ_j)P(Θ∣L)=∏j=1K​∏i∈Lj​​G(xi​;μj​,Σj​) 分裂成独立的部分: P(Θ∣L)=∏j=1KP(Θj∣Lj)P(Θ|L) = \prod ^K_{j=1} P(Θ_j |L_j )P(Θ∣L)=∏j=1K​P(Θj​∣Lj​) , 其中 θj=(αj,μj,Σj)θ_j = (α_j,μ_j,Σ_j )θj​=(αj​,μj​,Σj​)。 因此,我们可以通过采样 P(μj∣Lj,Σj)P(μ_j |L_j,Σ_j )P(μj​∣Lj​,Σj​) 和 P(Σj∣μj,Lj)P(Σ_j |μ_j,L_j )P(Σj​∣μj​,Lj​) 对每个 jjj 独立地采样 P(Θj∣Lj)P(Θ_j |L_j )P(Θj​∣Lj​)。 现在

只是一个高斯分布,其中 nj=∣Lj∣n_j = |L_j |nj​=∣Lj​∣ ,且,

其中 Σ^=∑i∈Lj(μj−xi)(μj−xi)T\hat Σ = \sum _{i∈L_j} (μ_j - x_i)(μ_j - x_i )^TΣ^=∑i∈Lj​​(μj​−xi​)(μj​−xi​)T 我们使用了 tr(AB)=tr(BA)tr(AB) = tr(BA)tr(AB)=tr(BA) 与 A=(μj−xi)A = (μ_j - x_i )A=(μj​−xi​) 和 B=(μj−xi)TΣ−1B = (μ_j - x_i )^TΣ^{-1}B=(μj​−xi​)TΣ−1 . 由于 Σ^\hat ΣΣ^ 是对称正定的,所以存在对称正定 SSS 使得 Σ^=S2\hat Σ = S^2Σ^=S2。 然后写 B=SΣj−1SB = SΣ^{-1}_j SB=SΣj−1​S 我们得到

现在写 B=UDUTB = UDU^TB=UDUT 其中 D=diag(λ1,....,λd)D = diag(λ_1, . . . . , λ_d )D=diag(λ1​,....,λd​)是对角线,我们得到

所以要对 ΣjΣ_jΣj​ 进行采样,我们首先独立于 Gamma 分布 Γ(1+nj/2,2)Γ (1+ n_j/2 , 2)Γ(1+nj​/2,2) 对特征值 λiλ_iλi​ 进行采样,得到 D=diag(λ1,...,λd)D = diag(λ_1, . . . , λ_d )D=diag(λ1​,...,λd​),然后取任意旋转矩阵 UUU 得到 B=UDUTB = UDU^TB=UDUT 和 Σj=SUDUTSΣ_j = SU DU^T SΣj​=SUDUTS。

图 1.8 显示了具有四个混合分量和低可分离性的一维高斯混合模型的能量图。 可以看出,k-means 陷入了许多局部最小值,而 SWC 总是找到全局最小值。

阅读书籍:Monte Carlo Methods(第一章 Introduction to Monte CarloMethods)相关推荐

  1. 强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例

    强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例 4. 蒙特卡洛方法 4.1 蒙特卡洛预测 例4.1:Blackjack(21点) 4.2 动作价值的蒙特卡洛估计 4. ...

  2. Chapter 5. Monte Carlo Methods

    目录 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Con ...

  3. Machine Learning-A Probabilistic Perspective笔记——第一章 INTRODUCTION

    Machine Learning-A Probabilistic Perspective笔记 MLAPP是统计机器学习领域内一本经典著作.就兴起先后顺序来说,统计机器学习较如今大火的深度学习神经网络更 ...

  4. Monte Carlo Methods

    特卡罗方法方法介绍 一.概述 蒙特卡罗方法是一种计算方法.原理是通过大量随机样本,测试各种可能结果,去了解一个系统,进而得到所要计算的值. 它非常强大和灵活,又相当简单易懂,很容易实现.对于许多问题来 ...

  5. PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)...

    主讲人 常象宇 大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...

  6. 刘军《社会网络分析导论》阅读笔记(1)---第一章~第四章

    第一章 社会网络分析概说 第一节 研究社会关系的艺术:社会网络分析 社会网络分析是社会科学中的一种独特视角,之所以说其独特,是因为社会网络分析建立在如下假设基础之上:在互动的单位之间存在的关系非常重要 ...

  7. 《Introducing Monte Carlo Methods with R》第四章笔记

    误差理论,方差监测和加速收敛 引言--蒙特卡罗积分方法的基本误差理论 马尔科夫不等式 如果X仅取非负值,则对于任意a>0:P(X≥a)≤E(X)aP(X\geq a) \leq \frac{E( ...

  8. 心得复述知识体系:《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

    前言: 刚刚读完 Sutton 的<强化学习(第二版)>第5章:蒙特卡洛方法.为了巩固本章收获,笔者将在本文中用尽量简单直白的语言复述本章的思想,各个知识点之间的关系.同时,这方便笔者日后 ...

  9. Dive into Deep Learning加州大学伯克利分校2019年春学期“Introduction to Deep Learning”第一章 Introduction

    Introduction 起源 虽然深度学习似乎是最近几年刚兴起的名词,但它所基于的神经网络模型和用数据编程的核心思想已经被研究了数百年.自古以来,人类就一直渴望能从数据中分析出预知未来的窍门.实际上 ...

最新文章

  1. 设计模式 — 行为型模式 — 责任链模式
  2. linux c printf 打印输出null
  3. 安全编程: 防止缓冲区溢出
  4. 计算机二级c语言选择题范围,计算机二级C语言考点选择结构
  5. [转]2006年十二星座运程 目录
  6. C语言小案例_10天从小白到入门C语言编程的学习秘籍
  7. 2019PKU\THU WC题解
  8. Python验证码识别初探(tesserocr库)
  9. 【职场酸甜苦辣咸】+IT女汉子坚持的梦想和原则
  10. 弹幕库 Danmuku依赖
  11. android tv 应用安装器,论Android智能电视盒子必装应用之——QQ音乐TV版
  12. AI智能语音识别算法原理 四
  13. IDEA 2020 配置Emmylua插件仍无法调试Lua代码问题
  14. 数据库信息泄漏 不可忽视的安全短板
  15. C#调用海康威视人脸识别接口
  16. 谷歌浏览器不能用_正在用 Chrome 或 Edge 浏览器的你,不能错过这亿个好用插件...
  17. Re:LieF ~親愛なるあなたへ~ 后感
  18. sql语句查询经纬度范围 Oracle
  19. 若依微服务版部署到IDEA(超详细,小白看了也能会)
  20. 分享一个实用的自媒体一键多发平台,关键是能免费用

热门文章

  1. Android 拼音转换工具PinyinUtils
  2. IAR编译出现Error[Pe147]: declaration is incompatible with “__interwork __vfp int dir_get_dout()“ 报错
  3. 自定義ListActivity(一)
  4. 计算机远程安装win7,初试使用Ghost工具远程安装win7操作系统
  5. 机器学习-生成对抗网络实战(二-2)
  6. 过滤器Filter方法详解(init,doFileter,destory)
  7. oracle 2018 拉里,Oracle拉里,有新武器对付SAP和HANA
  8. 穆穆推荐-软件销售行业软件公司销售参考操作手册-之5-软件行业客户分类及销售人员激励
  9. 第三方API接口对接-电子合同的实现逻辑
  10. 刺激战场android闪退,刺激战场总是闪退怎么办?刺激战场闪退解决办法