前言

如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

一、泛函

我们最常接触的函数 y(x)y(x)y(x),以数值 xxx 为输入,以数值 y(x)y(x)y(x) 为输出。

在此基础上,我们可将这个概念进行扩展,定义泛函(functional)F[y]F[y]F[y],其输入为函数 y(x)y(x)y(x),输出为数值 F[y]F[y]F[y]。

举个例子,y(x)y(x)y(x) 表示二维平面中经过 (x1,y1),(x2,y2)(x_1,y_1),(x_2,y_2)(x1​,y1​),(x2​,y2​) 两点的任意函数,而 F[y]F[y]F[y] 表示函数 y(x)y(x)y(x) 在 (x1,y1),(x2,y2)(x_1,y_1),(x_2,y_2)(x1​,y1​),(x2​,y2​) 两点间的曲线长度。y(x)y(x)y(x) 也可以表示连续变量 xxx 的分布函数,则 F[y]F[y]F[y] 表示该分布对应的熵。

二、泰勒展开回顾

y(x+ϵ)=y(x)+dydxϵ+O(ϵ2)y(x1+ϵ1,…,xD+ϵD)=y(x1,…,xD)+∑i=1D∂y∂xiϵi+O(ϵ2)\begin{aligned} & y(x+\epsilon)=y(x)+\frac{\mathrm{d} y}{\mathrm{~d} x} \epsilon+O\left(\epsilon^{2}\right) \\ & y\left(x_{1}+\epsilon_{1}, \ldots, x_{D}+\epsilon_{D}\right)=y\left(x_{1}, \ldots, x_{D}\right)+\sum_{i=1}^{D} \frac{\partial y}{\partial x_{i}} \epsilon_{i}+O\left(\epsilon^{2}\right) \end{aligned} ​y(x+ϵ)=y(x)+ dxdy​ϵ+O(ϵ2)y(x1​+ϵ1​,…,xD​+ϵD​)=y(x1​,…,xD​)+i=1∑D​∂xi​∂y​ϵi​+O(ϵ2)​

三、变分

3.1 函数变分

定义 δ\deltaδ 为变分算子,则 y(x)y(x)y(x) 与另一可取函数 y0(x)y_0(x)y0​(x) 之差 y(x)−y0(x)y(x)-y_0(x)y(x)−y0​(x) 为函数 y(x)y(x)y(x) 在 y0(x)y_0(x)y0​(x) 处的变分(函数的变分):
δy=y(x)−y0(x)=ϵη(x)\delta y=y(x)-y_0(x)=\epsilon \eta(x) δy=y(x)−y0​(x)=ϵη(x)

注意,函数的变分 δy\delta yδy 是两个不同函数 y(x)y(x)y(x) 和 y0(x)y_0(x)y0​(x) 在自变量 xxx 固定时的差,即函数发生了改变;而对于函数的增量 Δy\Delta yΔy,函数未发生改变。

3.2 泛函变分

关注最简泛函:
F[y(x)]=∫G(x,y(x),y′(x))dx,F[y(x)]=\int G\left(x, y(x), y^{\prime}(x)\right) \mathrm{d} x, F[y(x)]=∫G(x,y(x),y′(x))dx,
其中 x,y(x),y′(x)x,y(x),y^{\prime}(x)x,y(x),y′(x) 独立,且 FFF 二阶连续可微,GGG 为泛函的核。

根据泰勒展开式,定义最简泛函 F[y(x)]F[y(x)]F[y(x)] 的增量:
ΔF=F[y(x)+δy]−F[y(x)]=F[y(x)+ϵη(x)]−F[y(x)]=∫[G(x,y+ϵη(x),y′+ϵη′(x))−G(x,y,y′)]dx=ϵ∫{∂G∂yη(x)+∂G∂y′η′(x)}dx+O(ϵ2)\begin{aligned} \Delta F &=F[y(x)+\delta y]-F[y(x)] \\ &=F[y(x)+\epsilon \eta(x)]-F[y(x)] \\ &=\int [G\left(x, y+\epsilon \eta(x), y^{\prime}+\epsilon \eta^{\prime}(x)\right) - G\left(x, y, y^{\prime}\right)] \mathrm{d} x \\ &=\epsilon\int \{\frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y^{\prime}}\eta^{\prime}(x)\}\mathrm{d} x+O\left(\epsilon^{2}\right) \end{aligned} ΔF​=F[y(x)+δy]−F[y(x)]=F[y(x)+ϵη(x)]−F[y(x)]=∫[G(x,y+ϵη(x),y′+ϵη′(x))−G(x,y,y′)]dx=ϵ∫{∂y∂G​η(x)+∂y′∂G​η′(x)}dx+O(ϵ2)​

因此如下定义泛函变分 δF\delta FδF:
δF=ϵ∫{∂G∂yη(x)+∂G∂y′η′(x)}dx\delta F=\epsilon\int \{\frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y^{\prime}}\eta^{\prime}(x)\}\mathrm{d} x δF=ϵ∫{∂y∂G​η(x)+∂y′∂G​η′(x)}dx

四、欧拉-拉格朗日公式 (Euler-Lagrange Equations)

仿照泰勒展开式,定义:
F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫δFδy(x)η(x)dx+O(ϵ2)F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int \frac{\delta F}{\delta y(x)} \eta(x) \mathrm{d} x+O\left(\epsilon^{2}\right) F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫δy(x)δF​η(x)dx+O(ϵ2)
因此泛函 FFF 在 y(x)y(x)y(x) 处取极值需满足:
∫δFδy(x)η(x)dx=0\int \frac{\delta F}{\delta y(x)} \eta(x) \mathrm{d} x=0 ∫δy(x)δF​η(x)dx=0
对任意 η(x)\eta(x)η(x) 成立,即泛函导数 (functional derivative) δFδy(x)=0\displaystyle\frac{\delta F}{\delta y(x)}=0δy(x)δF​=0。

当 F[y(x)]F[y(x)]F[y(x)] 为固定边界的最简泛函,即
F[y(x)]=∫G(x,y(x),y′(x))dx,F[y(x)]=\int G\left(x, y(x), y^{\prime}(x)\right) \mathrm{d} x, F[y(x)]=∫G(x,y(x),y′(x))dx,
其中 y(x)y(x)y(x) 在边界上的值固定,即 η(x)\eta(x)η(x) 在边界上的值为 0,则根据泰勒展开得到:
F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂G∂yη(x)+∂G∂y′η′(x)}dx+O(ϵ2)F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int\left\{\frac{\partial G}{\partial y} \eta(x)+\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)\right\} \mathrm{d} x+O\left(\epsilon^{2}\right) F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂y∂G​η(x)+∂y′∂G​η′(x)}dx+O(ϵ2)
使用全微分公式对 ∂G∂y′η′(x)\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)∂y′∂G​η′(x) 展开:
∂G∂y′η′(x)=∂G∂y′dη(x)dx=ddx(∂G∂y′η(x))−η(x)ddx(∂G∂y′)\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)=\frac{\partial G}{\partial y^{\prime}} \frac{\mathrm{d} \eta(x)}{\mathrm{d} x}=\frac{\mathrm{d}}{\mathrm{d} x} (\frac{\partial G}{\partial y^{\prime}} \eta(x))-\eta(x)\frac{\mathrm{d}}{\mathrm{d} x}(\frac{\partial G}{\partial y^{\prime}}) ∂y′∂G​η′(x)=∂y′∂G​dxdη(x)​=dxd​(∂y′∂G​η(x))−η(x)dxd​(∂y′∂G​)
由于 η(x)\eta(x)η(x) 在边界上的值为 0,因此:
ϵ∫ddx(∂G∂y′η(x))dx=ϵ∂G∂y′(0−0)=0\epsilon \int \frac{\mathrm{d}}{\mathrm{d} x} (\frac{\partial G}{\partial y^{\prime}} \eta(x)) \mathrm{d} x=\epsilon \frac{\partial G}{\partial y^{\prime}}(0-0)=0 ϵ∫dxd​(∂y′∂G​η(x))dx=ϵ∂y′∂G​(0−0)=0
代回到 F[y(x)+ϵη(x)]F[y(x)+\epsilon \eta(x)]F[y(x)+ϵη(x)] 中,得到:
F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂G∂y−ddx(∂G∂y′)}η(x)dx+O(ϵ2)F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int\left\{\frac{\partial G}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial G}{\partial y^{\prime}}\right)\right\} \eta(x) \mathrm{d} x+O\left(\epsilon^{2}\right) F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂y∂G​−dxd​(∂y′∂G​)}η(x)dx+O(ϵ2)

因此对于固定边界的最简泛函,泛函 FFF 在 y(x)y(x)y(x) 处取极值需满足:
δFδy(x)=∂G∂y−ddx(∂G∂y′)=0\frac{\delta F}{\delta y(x)}=\frac{\partial G}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial G}{\partial y^{\prime}}\right)=0 δy(x)δF​=∂y∂G​−dxd​(∂y′∂G​)=0
即欧拉-拉格朗日公式。

【PRML 学习笔记】附录 - 变分法 (Calculus of Variations)相关推荐

  1. PRML学习笔记--似然函数到底是什么

    (from PRML中文版by马春鹏) 所以对于tensorflow代码,似然函数 等价于 −(Target−ModelForwardResult)2-(Target - ModelForwardRe ...

  2. 太赞了!开源下载机器学习经典书 PRML所有相关资料:中文译本,官方代码,课程视频,学习笔记...

    今天给大家推荐一本机器学习.深度学习的人都应该听说过一本经典教材:<Pattern Recognition and Machine Learning>,中文译名<模式识别与机器学习& ...

  3. 《神经网络与深度学习》—学习笔记

    [nndl.github.io] [神经网络与深度学习] [nndl-book] 深度学习基础 深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法. 深度学习问题是一个机器学习问题,指从 ...

  4. 《数据库系统概论》学习笔记

    第0章 脚手架 0.1 写在前面 本学习笔记的主要用途,是来回顾数据库的一些基本理论知识和SQL语句. 学习笔记的主要参考文献,为王珊著的<数据库系统概论>(第5版,2014)和教育部考试 ...

  5. 网上某位牛人的deep learning学习笔记汇总

    目录(?)[-] 作者tornadomeet 出处httpwwwcnblogscomtornadomeet 欢迎转载或分享但请务必声明文章出处 Deep learning一基础知识_1 Deep le ...

  6. 调度框架学习笔记(3)—— 集群调度框架的架构演进过程

    本章是 The evolution of cluster scheduler architectures 文章的学习笔记.这篇文章讨论了这些年调度架构是如何发展的以及为什么会这样发展. 首先介绍一下这 ...

  7. 影像组学视频学习笔记(32)-使用SimpleITK进行N4偏置场校正、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/ae0f502dc146 来源:简书,已获授权转载 RadiomicsWorld.com "影像组学世界" ...

  8. python学习笔记目录

    人生苦短,我学python学习笔记目录: week1 python入门week2 python基础week3 python进阶week4 python模块week5 python高阶week6 数据结 ...

  9. OpenGL_Qt学习笔记之_05(纹理映射)(转)

    转自:http://www.cnblogs.com/tornadomeet/archive/2012/08/24/2654719.html 纹理映射基础知识 什么叫纹理映射,一开始我也不明白,感觉这个 ...

  10. Web Service学习笔记

    Web Service概述 Web Service的定义 W3C组织对其的定义例如以下,它是一个软件系统,为了支持跨网络的机器间相互操作交互而设计.Web Service服务通常被定义为一组模块化的A ...

最新文章

  1. 为什么工厂模式可以解耦?(一)
  2. Java方法的静态绑定与动态绑定讲解
  3. ActiveX、OLE和COM介绍
  4. Python爬取网页
  5. [翻译]高阶Python一学就会
  6. redhat 登录不慢 传文件很慢
  7. AcWing 867. 分解质因数(唯一分解定理)
  8. js 程序执行与顺序实现详解
  9. Glide 4.x之生命周期与Activity的绑定原理详解
  10. CPLEX:二次规划
  11. editplus软件下载地址
  12. windows 区域截屏以及延迟截屏
  13. 开源旅游网站系统排名
  14. CATIA飞机协同设计制造图形工作站配置方案
  15. Wifi认证及加密详解
  16. 输入一个年份和一个月份,输出该年此月天数;知道日期,计算该日是本年的第几天(c语言)
  17. 用大白菜装centos7_大白菜安装centos7 踩坑记
  18. MySQL自学笔记(二)
  19. win10删除多余账户_win10删除多余账户,win10
  20. Python基础知识(八):模块化、标准库、第三方库

热门文章

  1. 在演示文稿中控制视频播放效果
  2. Java 方法的反射
  3. php vendor 删除,composer update删除第三方库的问题
  4. java treemap get_java.util.TreeMap.get()
  5. go mock mysql_go sqlmocks的使用
  6. vue init download template_Webpack(四)Vue
  7. docker gpu 创建 训练环境_基于 Mesos、Docker 和 Nvidia GPU 的深度学习平台实践
  8. 服务器是怎么响应服务器的细节,我怎样才能得到响应从Web服务器
  9. IDEA中XML与main文件里设置自动补全快捷键
  10. SHAP(SHapley Additive exPlanation):Python的可解释机器学习库