【PRML 学习笔记】附录 - 变分法 (Calculus of Variations)

前言

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

一、泛函

我们最常接触的函数 y(x)y(x)y(x)，以数值 xxx 为输入，以数值 y(x)y(x)y(x) 为输出。

在此基础上，我们可将这个概念进行扩展，定义泛函（functional）F[y]F[y]F[y]，其输入为函数 y(x)y(x)y(x)，输出为数值 F[y]F[y]F[y]。

举个例子，y(x)y(x)y(x) 表示二维平面中经过 (x1,y1),(x2,y2)(x_1,y_1),(x_2,y_2)(x1,y1),(x2,y2) 两点的任意函数，而 F[y]F[y]F[y] 表示函数 y(x)y(x)y(x) 在 (x1,y1),(x2,y2)(x_1,y_1),(x_2,y_2)(x1,y1),(x2,y2) 两点间的曲线长度。y(x)y(x)y(x) 也可以表示连续变量 xxx 的分布函数，则 F[y]F[y]F[y] 表示该分布对应的熵。

二、泰勒展开回顾

y(x+ϵ)=y(x)+dydxϵ+O(ϵ2)y(x1+ϵ1,…,xD+ϵD)=y(x1,…,xD)+∑i=1D∂y∂xiϵi+O(ϵ2)\begin{aligned} & y(x+\epsilon)=y(x)+\frac{\mathrm{d} y}{\mathrm{~d} x} \epsilon+O\left(\epsilon^{2}\right) \\ & y\left(x_{1}+\epsilon_{1}, \ldots, x_{D}+\epsilon_{D}\right)=y\left(x_{1}, \ldots, x_{D}\right)+\sum_{i=1}^{D} \frac{\partial y}{\partial x_{i}} \epsilon_{i}+O\left(\epsilon^{2}\right) \end{aligned} y(x+ϵ)=y(x)+ dxdyϵ+O(ϵ2)y(x1+ϵ1,…,xD+ϵD)=y(x1,…,xD)+i=1∑D∂xi∂yϵi+O(ϵ2)

三、变分

3.1 函数变分

定义 δ\deltaδ 为变分算子，则 y(x)y(x)y(x) 与另一可取函数 y0(x)y_0(x)y0(x) 之差 y(x)−y0(x)y(x)-y_0(x)y(x)−y0(x) 为函数 y(x)y(x)y(x) 在 y0(x)y_0(x)y0(x) 处的变分（函数的变分）：
δy=y(x)−y0(x)=ϵη(x)\delta y=y(x)-y_0(x)=\epsilon \eta(x) δy=y(x)−y0(x)=ϵη(x)

注意，函数的变分 δy\delta yδy 是两个不同函数 y(x)y(x)y(x) 和 y0(x)y_0(x)y0(x) 在自变量 xxx 固定时的差，即函数发生了改变；而对于函数的增量 Δy\Delta yΔy，函数未发生改变。

3.2 泛函变分

关注最简泛函：
F[y(x)]=∫G(x,y(x),y′(x))dx,F[y(x)]=\int G\left(x, y(x), y^{\prime}(x)\right) \mathrm{d} x, F[y(x)]=∫G(x,y(x),y′(x))dx,
其中 x,y(x),y′(x)x,y(x),y^{\prime}(x)x,y(x),y′(x) 独立，且 FFF 二阶连续可微，GGG 为泛函的核。

根据泰勒展开式，定义最简泛函 F[y(x)]F[y(x)]F[y(x)] 的增量：
ΔF=F[y(x)+δy]−F[y(x)]=F[y(x)+ϵη(x)]−F[y(x)]=∫[G(x,y+ϵη(x),y′+ϵη′(x))−G(x,y,y′)]dx=ϵ∫{∂G∂yη(x)+∂G∂y′η′(x)}dx+O(ϵ2)\begin{aligned} \Delta F &=F[y(x)+\delta y]-F[y(x)] \\ &=F[y(x)+\epsilon \eta(x)]-F[y(x)] \\ &=\int [G\left(x, y+\epsilon \eta(x), y^{\prime}+\epsilon \eta^{\prime}(x)\right) - G\left(x, y, y^{\prime}\right)] \mathrm{d} x \\ &=\epsilon\int \{\frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y^{\prime}}\eta^{\prime}(x)\}\mathrm{d} x+O\left(\epsilon^{2}\right) \end{aligned} ΔF=F[y(x)+δy]−F[y(x)]=F[y(x)+ϵη(x)]−F[y(x)]=∫[G(x,y+ϵη(x),y′+ϵη′(x))−G(x,y,y′)]dx=ϵ∫{∂y∂Gη(x)+∂y′∂Gη′(x)}dx+O(ϵ2)

因此如下定义泛函变分 δF\delta FδF：
δF=ϵ∫{∂G∂yη(x)+∂G∂y′η′(x)}dx\delta F=\epsilon\int \{\frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y^{\prime}}\eta^{\prime}(x)\}\mathrm{d} x δF=ϵ∫{∂y∂Gη(x)+∂y′∂Gη′(x)}dx

四、欧拉-拉格朗日公式 (Euler-Lagrange Equations)

仿照泰勒展开式，定义：
F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫δFδy(x)η(x)dx+O(ϵ2)F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int \frac{\delta F}{\delta y(x)} \eta(x) \mathrm{d} x+O\left(\epsilon^{2}\right) F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫δy(x)δFη(x)dx+O(ϵ2)
因此泛函 FFF 在 y(x)y(x)y(x) 处取极值需满足：
∫δFδy(x)η(x)dx=0\int \frac{\delta F}{\delta y(x)} \eta(x) \mathrm{d} x=0 ∫δy(x)δFη(x)dx=0
对任意 η(x)\eta(x)η(x) 成立，即泛函导数 (functional derivative) δFδy(x)=0\displaystyle\frac{\delta F}{\delta y(x)}=0δy(x)δF=0。

当 F[y(x)]F[y(x)]F[y(x)] 为固定边界的最简泛函，即
F[y(x)]=∫G(x,y(x),y′(x))dx,F[y(x)]=\int G\left(x, y(x), y^{\prime}(x)\right) \mathrm{d} x, F[y(x)]=∫G(x,y(x),y′(x))dx,
其中 y(x)y(x)y(x) 在边界上的值固定，即 η(x)\eta(x)η(x) 在边界上的值为 0，则根据泰勒展开得到：
F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂G∂yη(x)+∂G∂y′η′(x)}dx+O(ϵ2)F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int\left\{\frac{\partial G}{\partial y} \eta(x)+\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)\right\} \mathrm{d} x+O\left(\epsilon^{2}\right) F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂y∂Gη(x)+∂y′∂Gη′(x)}dx+O(ϵ2)
使用全微分公式对 ∂G∂y′η′(x)\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)∂y′∂Gη′(x) 展开：
∂G∂y′η′(x)=∂G∂y′dη(x)dx=ddx(∂G∂y′η(x))−η(x)ddx(∂G∂y′)\frac{\partial G}{\partial y^{\prime}} \eta^{\prime}(x)=\frac{\partial G}{\partial y^{\prime}} \frac{\mathrm{d} \eta(x)}{\mathrm{d} x}=\frac{\mathrm{d}}{\mathrm{d} x} (\frac{\partial G}{\partial y^{\prime}} \eta(x))-\eta(x)\frac{\mathrm{d}}{\mathrm{d} x}(\frac{\partial G}{\partial y^{\prime}}) ∂y′∂Gη′(x)=∂y′∂Gdxdη(x)=dxd(∂y′∂Gη(x))−η(x)dxd(∂y′∂G)
由于 η(x)\eta(x)η(x) 在边界上的值为 0，因此：
ϵ∫ddx(∂G∂y′η(x))dx=ϵ∂G∂y′(0−0)=0\epsilon \int \frac{\mathrm{d}}{\mathrm{d} x} (\frac{\partial G}{\partial y^{\prime}} \eta(x)) \mathrm{d} x=\epsilon \frac{\partial G}{\partial y^{\prime}}(0-0)=0 ϵ∫dxd(∂y′∂Gη(x))dx=ϵ∂y′∂G(0−0)=0
代回到 F[y(x)+ϵη(x)]F[y(x)+\epsilon \eta(x)]F[y(x)+ϵη(x)] 中，得到：
F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂G∂y−ddx(∂G∂y′)}η(x)dx+O(ϵ2)F[y(x)+\epsilon \eta(x)]=F[y(x)]+\epsilon \int\left\{\frac{\partial G}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial G}{\partial y^{\prime}}\right)\right\} \eta(x) \mathrm{d} x+O\left(\epsilon^{2}\right) F[y(x)+ϵη(x)]=F[y(x)]+ϵ∫{∂y∂G−dxd(∂y′∂G)}η(x)dx+O(ϵ2)

因此对于固定边界的最简泛函，泛函 FFF 在 y(x)y(x)y(x) 处取极值需满足：
δFδy(x)=∂G∂y−ddx(∂G∂y′)=0\frac{\delta F}{\delta y(x)}=\frac{\partial G}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial G}{\partial y^{\prime}}\right)=0 δy(x)δF=∂y∂G−dxd(∂y′∂G)=0
即欧拉-拉格朗日公式。