MONTE CARLO ALGORITHMS FOR OPTIMAL STOPPING AND STATISTICAL LEARNING

DANIEL EGLOFF

Annals of Applied Probability, 2004, 15(2):1396-1432.

只是截取里面的综述部分,算法内容看不懂。。。

摘要: 我们扩展了Longsta-Schwartz算法,用于近似求解高维状态空间上的最优停止问题。 我们将离散时间马尔可夫过程的最优停止问题重新表述为广义统计学习问题。 在这种设置中,我们将偏差不等式应用于经验过程的上限,以得出一致性标准,并估计收敛速度和样本复杂度。 我们的结果加强并扩展了Clement,Lamberton和Protter(2002)获得的早期结果。

1.引言

无套利定价问题美国期权重新引起了人们对数值解决高维最优停止问题的方法的兴趣。在本文中,我们通过将其重新定义为广义统计学习问题来解释如何求解离散时间,有限时间最优停止问题。我们统一处理Longsta -Schwartz和Tsitsiklis-Van Roy算法。它们使用蒙特卡罗模拟和线性参数化近似空间。我们引入了一类新的算法,它们在Longsta -Schwartz和Tsitsiklis-Van Roy算法之间进行插值,并放宽了近似空间的线性假设。

从统计和机器学习的标准设置中学习最佳停止规则,因为它需要一系列学习任务,每个时间步一个,从终端视野开始并向后进行。各个学习任务通过动态编程原理连接起来。在每个时间步,结果取决于先前学习任务的结果。将后续学习任务连接到递归的学习问题序列会导致错误传播。我们通过使用Lipschitz属性和依赖于近似空间的凸性的合适的误差分解来控制误差传播。最后,我们用经验过程的上限估计样本误差和指数尾界。要应用这些技术,我们需要计算某些函数类的包含数。对于覆盖数存在良好估计的一类重要函数类是所谓的Vapnik-Chervonenkis(VC)类,参见Van der Vaart和Wellner(1996)或Anthony和Bartlett(1999)。我们证明在由VC类函数参数化的马尔可夫停止时间评估的payo函数也是VC类。然后,Haussler(1995)的覆盖数估计给出了所需的界限。我们的方法在概念上与Clement等人不同。 (2002),它纯粹适用于具有线性近似的经典Longsta-Schwartz算法。通过利用VC类的凸性和基本性质,我们可以证明收敛并在较少限制条件下导出误差估计,即使近似空间的维数和样本数量趋于无穷大也是如此。

此篇文章的结构如下。下一个部分,背景,讨论了最佳停止问题的数值技术的最新发展,并总结了我们在这项工作中使用的概率工具。第3节回顾了离散时间最佳停止问题。第4节展示了如何将最优停止重新处理为统计学习问题,并介绍了动态前瞻算法。在第5节中,我们陈述并评论了我们的主要结果:收敛的一般一致性结果,总体误差的估计,收敛速度和样本复杂度。工作的重点在于估计样本误差。证明推迟到第6节,我们还介绍了Vapnik-Chervonenkis理论的必要工具。

2.背景

最佳停止问题自然地出现在游戏的背景下,其中玩家想要确定何时停止玩一系列游戏以最大化其预期的财富。第一个系统的最优停止理论出现在Wald和Wolfowitz(1948)的序贯概率比检验中。 Chow,Robbins和Siegmund(1971)以及Shiryayev(1978)的专着提供了对最优停止理论的广泛处理。

美国期权在最优止损问题上的一般无套利估值始于Bensoussan(1984)和Karatzas(1988)。如今,美式期权估值是最优停止理论的重要应用。有关美国选择和相关最优停止问题的财务方面的更多背景,我们参考Karatzas和Shreve(1998)。

2.1 解决最优停止问题的算法。最佳停止问题通常不能以封闭形式解决。因此,已经开发了几种数值技术。 Barone-Adesi和Whaley(1987)提出了半解析近似。 Cox,Ross和Rubinstein(1979)的二叉树算法直接实现了动态规划原理。其他方法包括马尔可夫链近似,参见Kushner(1997),直接积分方程和PDE方法。 PDE方法基于变量不等式,在Bensoussan和Lion(1982)或Jaillet,Lamberton和Lapeyre(1990)中发展,线性互补问题,见Huang和Pang(1998),或自由边值问题,见Van Moerbeke (1976年)。但是,维度诅咒禁止任何这些方法的可行性。对于这些算法,计算成本和存储需求随着底层状态空间的维度呈指数增长。

为了解决这个限制,已经提出了新的蒙特卡罗算法。这方面的第一个标志性论文是Boessarts(1989),Tilley(1993),以及Broadie和Glasserman(1997)。 Longsta和Schwartz(2001)引入了一种新的离散时间百慕大期权算法。它结合了蒙特卡罗模拟和多变量函数逼近。他们展示了如何通过嵌套的最小二乘回归问题序列在算法上解决最优停止问题,并简要概述了收敛证明。 Tsitsiklis和Van Roy(1999)在时间差分学习的基础上独立提出了一种替代参数近似算法。他们的方法依赖于收缩图的固定点的随机近似。它们通过使用Kushner和Clark(1978),Benveniste,Metiver和Priouret(1990),或Kushner和Yin(1997)中开发的随机近似技术证明了几乎可靠的收敛性。 Longsta-Schwartz以及Tsitsiklis-Van Roy算法近似于值函数或早期运动规则,因此提供了真实最佳停止值的下限。 Rogers(2002)提出了一种基于双重问题的方法,该方法产生上限。概述论文Broadie和Glasserman(1998)描述了截至1998年的蒙特卡罗算法的最佳停止问题的发展状况。最近的参考文献是Glasserman(2004)的书。在Laprise,Su,Wu,Fu和Madan(2001)中可以找到用于最佳停止的各种蒙特卡罗算法的比较研究。

尽管Tsitsiklis和Van Roy(1999),Longsta和Schwartz(2001)以及Rogers(2002)的贡献,蒙特卡罗算法的最佳停止的许多方面,如收敛和误差估计仍然没有答案。 Clement等(2002)为Longsta-Schwartz算法提供了完整的收敛证明和中心极限定理。但目前还没有关于更一般的可能非线性近似方案,收敛速度或误差估计的结果。这些问题是本文讨论的主要议题。

最优停止问题 简单综述 2005年相关推荐

  1. 通信对抗干扰技术简单综述与MATLAB仿真

    由于公式太多,一个一个敲过来实在费时.请点击下面链接阅读原文,造成不便十分抱歉 通信对抗干扰技术简单综述与MATLAB仿真 - 子木的文章 - 知乎 https://zhuanlan.zhihu.co ...

  2. 华中杯 数学建模 A题简单复盘(附Python源码)

    华中杯 A题简单复盘(附Python 源码) 文章目录 华中杯 A题简单复盘(附Python 源码) 前言 题目简介 问题背景 题目以及思路 分批算法设计 MindMap 遗传算法优缺点 优点 缺点 ...

  3. NKU两题简单题解析(递归分析与位运算技巧)

    题目:http://acm.nankai.edu.cn/p1002.html 题意:对给定的f(n),当 n>=50025002 的时候,f(n)=n-5:当 n<50025002 的时候 ...

  4. 语义Web简单综述(XML、RDF、OWL、知识库、知识图谱)

    摘 要 随着Web技术的发展,传统万维网正向着语义Web发展.语义Web试图让Web上的信息具有语义,能够被机器理解,使得Web上信息的获取更加智能快捷.本文在全面阐述语义Web基本概念和体系结构的基 ...

  5. LeetCode 59. 螺旋矩阵 II [水题+简单模拟]

    前言: 最近要准备硕士研究生入学复试,还要机试,所以又开始刷一些题了. 太久没刷题了,本来就菜,现在变得更菜了-- 题面: 吐槽:题目来自LeetCode,难度标识为"中等",有点 ...

  6. 基于小波变换的语音增强算法简单综述

    前言: 语音通信是人类传播信息,进行交流时使用最多.最自然.最基本的一种手段.而这种通信中的信息载体-语音信号却是一种时变的.非平稳的信号,只有在很短的一段时间内(通常为10~30ms)才被认为是平稳 ...

  7. 攻防世界 Crypto高手进阶区 5分题 简单流量分析

    前言 继续ctf的旅程 攻防世界Crypto高手进阶区的5分题 本篇是简单流量分析的writeup 发现攻防世界的题目分数是动态的 就仅以做题时的分数为准了 解题过程 题目描述 binwalk无果 查 ...

  8. Invoker 2019CCPC秦皇岛站I题 简单DP

    题目链接 每个技能有6中组合,上一个技能也有6种组合,所以从该状态6种分别从上种的6种转移过来取最小值即可. 不读题的话可能就看成两种状态了(hh ss表示当前状态,s[k]表示上个状态,check函 ...

  9. 计算机期末考试操作题简单,计算机期末考试操作题及答案计算机期末考试操作题及答案.doc...

    计算机期末考试操作题及答案计算机期末考试操作题及答案 计算机期末考试操作题及答案 雾仔 2008-11-21 12:31 二. 操作题 1.请在考生文件夹下完成如下操作: 1) 在考生文件夹下建立&q ...

最新文章

  1. php中怎么过滤器_PHP 过滤器(Filter)
  2. Java 并发编程笔记(一)
  3. js小案例:控制电灯开关
  4. 实录 | 平安人寿资深算法工程师谢舒翼:智能问答系统探索与实践
  5. c语言 在线oj系统,开源的在线评测系统——Vakuum
  6. 陕西师范大学 渝粤教育 《学前儿童数学教育》作业
  7. java字符串内存长度固定_深入理解 Java String#intern() 内存模型
  8. VMware安装ubuntu中几个问题的解决——VMware Tools
  9. python随机生成6位数验证码
  10. 趋势突破策略与期权——以Dual Thrust为例
  11. jsdroid 教程_ps教程自学平台
  12. 台达触摸屏和vfd-m变频器通讯控制监视程序 使用modbus rtu通讯方式,在触摸屏可以直接控制变频器
  13. 苹果 macOS「搜狗拼音输入法」自定义双拼方案的教程
  14. 瑜欣平瑞通过注册:年营收6.6亿 胡云平一家三口为实控人
  15. ctf php沙箱,详谈CTF中常出现的PHP反序列化漏洞
  16. 解读百度权重是怎么计算的
  17. NodeJs+VueJs +前端实现批量打印二维码
  18. vue项目中,导出下载Excel表格
  19. 堆排序算法(java实现)
  20. 机器学习入门之PCA与ICA

热门文章

  1. Ubuntu安装腾讯会议提示不支持wayland
  2. 基于java设计的图书管理系统
  3. 服务器协同系统,协同系统平台
  4. 南昌三本计算机学校,2019南昌三本大学有哪些 最新院校名单
  5. 快捷方式病毒清理教程
  6. Linux环境下使用迅雷下载(Xware)
  7. 投资理念革命的研究报告
  8. 优思学院|六西格玛黑带考试36题
  9. AR 3D Map地图技术
  10. Epplus 使用的简单介绍