第五章: 光滑性与强凸性

文章目录

  • 第五章: 光滑性与强凸性
    • 1. LLL-光滑性
      • 1.1 下降引理
      • 1.2 LLL-光滑函数的一阶等价刻画
      • 1.3 LLL-光滑函数的二阶等价刻画
      • 1.4 光滑参数计算小结
    • 2. σ\sigmaσ-强凸性
    • 3. 光滑性与强凸性的关系
      • 3.1 共轭关联定理
      • 3.2 强凸函数的例子
      • 3.3 强凸参数计算小结
      • 3.4 极小卷积的光滑性与可微性

1. LLL-光滑性

定义1 (LLL-光滑性) 设L≥0L\ge0L≥0. 我们称函数f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]在D⊂ED\subset\mathbb{E}D⊂E上是LLL-光滑的, 若它在DDD上可微且满足∥∇f(x)−∇f(y)∥∗≤L∥x−y∥,∀x,y∈D.\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\le L\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in D.∥∇f(x)−∇f(y)∥∗​≤L∥x−y∥,∀x,y∈D.常数LLL称作是光滑参数 (smoothness parameter). 从定义我们看出LLL是与所选的范数有关的. 因此我们有时会刻意地说成, 在范数∥⋅∥\Vert\cdot\Vert∥⋅∥下的光滑参数.

显然由可微的定义, 若fff在集合D⊂ED\subset\mathbb{E}D⊂E上LLL-光滑, 则必有D⊂int(domf)D\subset\mathrm{int(dom}f)D⊂int(domf); 若函数在全空间E\mathbb{E}E上LLL-光滑, 则我们就直接称其为LLL-光滑函数. 在许多其他的文献中, DDD上的LLL-光滑函数也常被称作“Lipschitz常数为LLL的梯度Lipschitz连续函数”. 我们记DDD上的LLL-光滑函数全体为CL1,1(D)C_L^{1,1}(D)CL1,1​(D). 当D=ED=\mathbb{E}D=E, 就简写为CL1,1C_L^{1,1}CL1,1​. 进一步, 记C1,1={f:∃L≥0,s.t. f∈CL1,1}.C^{1,1}=\left\{f:\exists L\ge0,\,\text{s.t. }f\in C_L^{1,1}\right\}.C1,1={f:∃L≥0,s.t. f∈CL1,1​}.由LLL-光滑性的定义, 显然有CL11,1⊂CL21,1,L2≥L1C_{L_1}^{1,1}\subset C_{L_2}^{1,1},\,L_2\ge L_1CL1​1,1​⊂CL2​1,1​,L2​≥L1​. 因此对某一给定函数, 使其LLL-光滑的参数LLL不止一个. 这些LLL的全体组成的集合显然有下界000, 从而必定有下确界. 但是定出这一给定函数的最小光滑参数则是一件不平凡的事, 也是一件有趣的事.

例1 (二次函数的光滑性) 考虑函数f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R定义为f(x)=12xTAx+bTx+cf(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+cf(x)=21​xTAx+bTx+c, 其中A∈Sn,b∈Rn,c∈R\mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}A∈Sn,b∈Rn,c∈R. 假定Rn\mathbb{R}^nRn上赋以了ℓp\ell_pℓp​-范数(1≤p≤∞1\le p\le\infty1≤p≤∞). 则对∀x,y∈Rn\forall\mathbf{x,y}\in\mathbb{R}^n∀x,y∈Rn,∥∇f(x)−∇f(y)∥q=∥Ax−Ay∥q≤∥A∥p,q∥x−y∥p,\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_q=\Vert\mathbf{Ax-Ay}\Vert_q\le\Vert A\Vert_{p,q}\Vert\mathbf{x-y}\Vert_p,∥∇f(x)−∇f(y)∥q​=∥Ax−Ay∥q​≤∥A∥p,q​∥x−y∥p​,1这里q∈[1,∞]:1p+1q=1q\in[1,\infty]: \frac{1}{p}+\frac{1}{q}=1q∈[1,∞]:p1​+q1​=1. 于是我们得到fff是∥A∥p,q\Vert\mathbf{A}\Vert_{p,q}∥A∥p,q​-光滑的. 下面我们证明∥A∥p,q\Vert\mathbf{A}\Vert_{p,q}∥A∥p,q​是fff的最小光滑参数. 为此只需证明对任一使fff LLL-光滑的LLL都有∥A∥p,q≤L\Vert\mathbf{A}\Vert_{p,q}\le L∥A∥p,q​≤L. 取向量x~:∥x~∥p=1,∥Ax~∥q=∥A∥p,q\tilde\mathbf{x}:\Vert\tilde\mathbf{x}\Vert_p=1,\,\Vert\mathbf{A\tilde x}\Vert_q=\Vert\mathbf{A}\Vert_{p,q}x~:∥x~∥p​=1,∥Ax~∥q​=∥A∥p,q​2. 于是∥A∥p,q=∥Ax~∥q=∥∇f(x~)−∇f(0)∥q≤L∥x~−0∥p=L.\Vert\mathbf{A}\Vert_{p,q}=\Vert\mathbf{A\tilde x}\Vert_q=\Vert\nabla f(\tilde\mathbf{x})-\nabla f(\mathbf{0})\Vert_q\le L\Vert\mathbf{\tilde x-0}\Vert_p=L.∥A∥p,q​=∥Ax~∥q​=∥∇f(x~)−∇f(0)∥q​≤L∥x~−0∥p​=L.

例2 (线性函数的000-光滑性) 设f:E→Rf:\mathbb{E}\to\mathbb{R}f:E→R定义为f(x)=⟨b,x⟩+cf(\mathbf{x})=\langle\mathbf{b,x}\rangle+cf(x)=⟨b,x⟩+c, 其中b∈E∗,c∈R\mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R}b∈E∗,c∈R. 对∀x,y∈E\forall\mathbf{x,y}\in\mathbb{E}∀x,y∈E, ∥∇f(x)−∇f(y)∥∗=∥b−b∥∗=0≤0∥x−y∥.\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*=\Vert\mathbf{b-b}\Vert_*=0\le0\Vert\mathbf{x-y}\Vert.∥∇f(x)−∇f(y)∥∗​=∥b−b∥∗​=0≤0∥x−y∥.从而线性函数都是000-光滑的. 000显然也是它们的最小光滑参数. 注意这一结论对任何范数都成立.

下面的例3与例4要用到正交投影算子的严格非增大性质(firm nonexpansiveness)与非增大性质(nonexpansiveness). 我们在此仅将其列出. 在下一章中我们将证明更一般化的结论.

定理1 设E\mathbb{E}E为欧式空间, C⊂EC\subset\mathbb{E}C⊂E为一非空闭凸集. 于是
(i) (严格非增大性) 对∀v,w∈E\forall\mathbf{v,w}\in\mathbb{E}∀v,w∈E,⟨PC(v)−PC(w),v−w⟩≥∥PC(v)−PC(w)∥2.\langle P_C(\mathbf{v})-P_C(\mathbf{w}),\mathbf{v-w}\rangle\ge\Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert^2.⟨PC​(v)−PC​(w),v−w⟩≥∥PC​(v)−PC​(w)∥2.(ii) (非增大性) 对∀v,w∈E\forall\mathbf{v,w}\in\mathbb{E}∀v,w∈E,∥PC(v)−PC(w)∥≤∥v−w∥.\Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert\le\Vert\mathbf{v-w}\Vert.∥PC​(v)−PC​(w)∥≤∥v−w∥.

例3 (12dC2\frac{1}{2}d_C^221​dC2​的111-光滑性) 设E\mathbb{E}E为欧式空间, C⊂EC\subset\mathbb{E}C⊂E为一非空闭凸集. 考虑函数φC(x)=12dC2(x)\varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x})φC​(x)=21​dC2​(x). 由第三章例9, φC\varphi_CφC​在全空间上可微且∇φC(x)=x−PC(x)\nabla\varphi_C(\mathbf{x})=\mathbf{x}-P_C(\mathbf{x})∇φC​(x)=x−PC​(x). 下面证明φC\varphi_CφC​是111-光滑的. 对∀x,y∈E\forall\mathbf{x,y}\in\mathbb{E}∀x,y∈E,∥∇φC(x)−∇φC(y)∥2=∥x−y−PC(x)+PC(y)∥2=∥x−y∥2−2⟨PC(x)−PC(y),x−y⟩+∥PC(x)−PC(y)∥2≤∥x−y∥2−2∥PC(x)−PC(y)∥2+∥PC(x)−PC(y)∥2(∵严格非增大性)=∥x−y∥2−∥PC(x)−PC(y)∥2=∥x−y∥2.\begin{aligned}\Vert\nabla\varphi_C(\mathbf{x})-\nabla\varphi_C(\mathbf{y})\Vert^2&=\Vert\mathbf{x-y}-P_C(\mathbf{x})+P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2-2\langle P_C(\mathbf{x})-P_C(\mathbf{y}),\mathbf{x-y}\rangle+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&\le\Vert\mathbf{x-y}\Vert^2-2\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\:(\because 严格非增大性)\\&=\Vert\mathbf{x-y}\Vert^2-\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2.\end{aligned}∥∇φC​(x)−∇φC​(y)∥2​=∥x−y−PC​(x)+PC​(y)∥2=∥x−y∥2−2⟨PC​(x)−PC​(y),x−y⟩+∥PC​(x)−PC​(y)∥2≤∥x−y∥2−2∥PC​(x)−PC​(y)∥2+∥PC​(x)−PC​(y)∥2(∵严格非增大性)=∥x−y∥2−∥PC​(x)−PC​(y)∥2=∥x−y∥2.​

例4 (12∥⋅∥2−12dC2\frac{1}{2}\Vert\cdot\Vert^2-\frac{1}{2}d_C^221​∥⋅∥2−21​dC2​的111-光滑性) 设E\mathbb{E}E为欧式空间, C⊂EC\subset\mathbb{E}C⊂E为一非空闭凸集. 考虑函数ψC(x)=12∥x∥2−12dC2(x)\psi_C(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})ψC​(x)=21​∥x∥2−21​dC2​(x). 由第二章的例5, ψC\psi_CψC​是凸函数3. 由上例, 12dC2(x)\frac{1}{2}d_C^2(\mathbf{x})21​dC2​(x)可微, 且梯度为x−PC(x)\mathbf{x}-P_C(\mathbf{x})x−PC​(x). 因此∇ψC(x)=x−(x−PC(x))=PC(x).\nabla\psi_C(\mathbf{x})=\mathbf{x}-(\mathbf{x}-P_C(\mathbf{x}))=P_C(\mathbf{x}).∇ψC​(x)=x−(x−PC​(x))=PC​(x).于是由投影算子的非增大性, 对∀x,y∈E\forall\mathbf{x,y}\in\mathbb{E}∀x,y∈E,∥∇ψC(x)−∇ψC(y)∥=∥PC(x)−PC(y)∥≤∥x−y∥.\Vert\nabla\psi_C(\mathbf{x})-\nabla\psi_C(\mathbf{y})\Vert=\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert\le\Vert\mathbf{x-y}\Vert.∥∇ψC​(x)−∇ψC​(y)∥=∥PC​(x)−PC​(y)∥≤∥x−y∥.

1.1 下降引理

下面的下降引理告诉我们, LLL-光滑函数以某一二次函数为上界.

引理1 (下降引理) 设f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]为在一给定凸集DDD上的LLL-光滑函数 (L≥0)(L\ge0)(L≥0). 则对∀x,y∈D\forall\mathbf{x,y}\in D∀x,y∈D,f(y)≤f(x)+⟨∇f(x),y−x⟩+L2∥x−y∥2.f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2.f(y)≤f(x)+⟨∇f(x),y−x⟩+2L​∥x−y∥2.4
证明: 根据微积分基本定理, f(y)−f(x)=∫01⟨∇f(x+t(y−x)),y−x⟩dt.f(\mathbf{y})-f(\mathbf{x})=\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x})),\mathbf{y-x}\rangle\,\mathrm{d}t.f(y)−f(x)=∫01​⟨∇f(x+t(y−x)),y−x⟩dt.因此, f(y)−f(x)=⟨∇f(x),y−x⟩+∫01⟨∇f(x+t(y−x))−∇f(x),y−x⟩dt.f(\mathbf{y})-f(\mathbf{x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t.f(y)−f(x)=⟨∇f(x),y−x⟩+∫01​⟨∇f(x+t(y−x))−∇f(x),y−x⟩dt.取模可得∣f(y)−f(x)−⟨∇f(x),y−x⟩∣=∣∫01⟨∇f(x+t(y−x))−∇f(x),y−x⟩dt∣≤∫01∣⟨∇f(x+t(y−x))−∇f(x),y−x⟩∣dt≤∫01∥∇f(x+t(y−x))−∇f(x)∥∗⋅∥y−x∥dt≤∫01tL∥y−x∥2dt=L2∥y−x∥2.\begin{aligned}|f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|&=\left|\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t\right|\\&\le\int_0^1|\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|\,\mathrm{d}t\\&\le\int_0^1\Vert\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x})\Vert_*\cdot\Vert\mathbf{y-x}\Vert\,\mathrm{d}t\\&\le\int_0^1tL\Vert\mathbf{y-x}\Vert^2\,\mathrm{d}t\\&=\frac{L}{2}\Vert\mathbf{y-x}\Vert^2.\end{aligned}∣f(y)−f(x)−⟨∇f(x),y−x⟩∣​=∣∣∣∣​∫01​⟨∇f(x+t(y−x))−∇f(x),y−x⟩dt∣∣∣∣​≤∫01​∣⟨∇f(x+t(y−x))−∇f(x),y−x⟩∣dt≤∫01​∥∇f(x+t(y−x))−∇f(x)∥∗​⋅∥y−x∥dt≤∫01​tL∥y−x∥2dt=2L​∥y−x∥2.​

1.2 LLL-光滑函数的一阶等价刻画

当fff为凸函数5时, 下面的定理2给出了全空间上6LLL-光滑函数的几种不同的一阶等价刻画. 值得注意的是, 在这种情形下, 1.1节中的下降引理同时也是使fff成为LLL-光滑函数的充分条件.

定理2 (LLL-光滑函数的一阶等价刻画) 设f:E→Rf:\mathbb{E}\to\mathbb{R}f:E→R为一可微凸函数. 设L>0L>0L>0. 于是下面的四件事是等价的:
(i) fff是LLL-光滑的;
(ii) f(y)≤f(x)+⟨∇f(x),y−x⟩+L2∥x−y∥2,∀x,y∈Ef(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E}f(y)≤f(x)+⟨∇f(x),y−x⟩+2L​∥x−y∥2,∀x,y∈E; (此即下降引理)
(iii) f(y)≥f(x)+⟨∇f(x),y−x⟩+12L∥∇f(x)−∇f(y)∥∗2,∀x,y∈Ef(\mathbf{y})\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E}f(y)≥f(x)+⟨∇f(x),y−x⟩+2L1​∥∇f(x)−∇f(y)∥∗2​,∀x,y∈E;
(iv) ⟨∇f(x)−∇f(y),x−y⟩≥1L∥∇f(x)−∇f(y)∥∗2,∀x,y∈E\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E}⟨∇f(x)−∇f(y),x−y⟩≥L1​∥∇f(x)−∇f(y)∥∗2​,∀x,y∈E;
(v) f(λx+(1−λ)y)≥λf(x)+(1−λ)f(y)−L2λ(1−λ)∥x−y∥2,∀x,y∈E,λ∈[0,1]f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\ge\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{L}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1]f(λx+(1−λ)y)≥λf(x)+(1−λ)f(y)−2L​λ(1−λ)∥x−y∥2,∀x,y∈E,λ∈[0,1].

证明: (i)⇒\Rightarrow⇒(ii): 由下降引理即可得.
(ii)⇒\Rightarrow⇒(iii): 假设(ii)成立. 注意到当∇f(x)=∇f(y)\nabla f(\mathbf{x})=\nabla f(\mathbf{y})∇f(x)=∇f(y)时(iii)显然成立. 所以下面假设∇f(x)≠∇f(y)\nabla f(\mathbf{x})\ne\nabla f(\mathbf{y})∇f(x)​=∇f(y). 固定x∈E\mathbf{x}\in\mathbb{E}x∈E, 考虑gx(y)=f(y)−f(x)−⟨∇f(x),y−x⟩,y∈E.g_{\mathbf{x}}(\mathbf{y})=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle,\quad\mathbf{y}\in\mathbb{E}.gx​(y)=f(y)−f(x)−⟨∇f(x),y−x⟩,y∈E.7可以验证gxg_{\mathbf{x}}gx​也满足(ii). 事实上, 对∀y,z∈E\forall\mathbf{y,z}\in\mathbb{E}∀y,z∈E,gx(z)=f(z)−f(x)−⟨∇f(x),z−x⟩≤f(y)+⟨∇f(y),z−y⟩+L2∥z−y∥2−f(x)−⟨∇f(x),z−x⟩=f(y)−f(x)−⟨∇f(x),y−x⟩+⟨∇f(y)−∇f(x),z−y⟩+L2∥z−y∥2=gx(y)+⟨∇gx(y),z−y⟩+L2∥z−y∥2,\begin{aligned}g_{\mathbf{x}}(\mathbf{z})&=f(\mathbf{z})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&\le f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\langle\nabla f(\mathbf{y})-\nabla f(\mathbf{x}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})+\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2,\end{aligned}gx​(z)​=f(z)−f(x)−⟨∇f(x),z−x⟩≤f(y)+⟨∇f(y),z−y⟩+2L​∥z−y∥2−f(x)−⟨∇f(x),z−x⟩=f(y)−f(x)−⟨∇f(x),y−x⟩+⟨∇f(y)−∇f(x),z−y⟩+2L​∥z−y∥2=gx​(y)+⟨∇gx​(y),z−y⟩+2L​∥z−y∥2,​注意到∇gx(x)=0\nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0}∇gx​(x)=0, 再由gxg_{\mathbf{x}}gx​的凸性, 即得x\mathbf{x}x为ggg的极小点:gx(x)≤gx(z),∀z∈E.g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}.gx​(x)≤gx​(z),∀z∈E.对y∈E\mathbf{y}\in\mathbb{E}y∈E, 令v∈E\mathbf{v}\in\mathbb{E}v∈E为满足∥v∥=1,⟨∇gx(y),v⟩=∥∇gx(y)∥∗\Vert\mathbf{v}\Vert=1,\,\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle=\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*∥v∥=1,⟨∇gx​(y),v⟩=∥∇gx​(y)∥∗​的向量. 令z=y−∥∇gx(y)∥∗Lv\mathbf{z}=\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v}z=y−L∥∇gx​(y)∥∗​​v就有0=gx(x)≤gx(y−∥∇gx(y)∥∗Lv).0=g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}\left(\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v}\right).0=gx​(x)≤gx​(y−L∥∇gx​(y)∥∗​​v).再利用gxg_{\mathbf{x}}gx​的性质可得0=gx(x)≤gx(y)−∥∇gx(y)∥∗L⟨∇gx(y),v⟩+12L∥gx(y)∥∗2⋅∥v∥2=gx(y)−12L∥∇gx(y)∥∗2=f(y)−f(x)−⟨∇f(x),y−x⟩−12L∥∇f(x)−∇f(y)∥∗2,\begin{aligned}0&=g_{\mathbf{x}}(\mathbf{x})\\&\le g_{\mathbf{x}}(\mathbf{y})-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle+\frac{1}{2L}\Vert g_{\mathbf{x}}(\mathbf{y})\Vert_*^2\cdot\Vert\mathbf{v}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})-\frac{1}{2L}\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert^2_*\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle-\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\end{aligned}0​=gx​(x)≤gx​(y)−L∥∇gx​(y)∥∗​​⟨∇gx​(y),v⟩+2L1​∥gx​(y)∥∗2​⋅∥v∥2=gx​(y)−2L1​∥∇gx​(y)∥∗2​=f(y)−f(x)−⟨∇f(x),y−x⟩−2L1​∥∇f(x)−∇f(y)∥∗2​,​这就证明了(iii).
(iii)⇒\Rightarrow⇒(iv): 假设(iii)成立, 则对(x,y)(\mathbf{x,y})(x,y)交替地有f(y)≥f(x)+⟨∇f(x),y−x⟩+12L∥∇f(x)−∇f(y)∥∗2,f(x)≥f(y)+⟨∇f(y),x−y⟩+12L∥∇f(x)−∇f(y)∥∗2.\begin{aligned}f(\mathbf{y})&\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\\f(\mathbf{x})&\ge f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*.\end{aligned}f(y)f(x)​≥f(x)+⟨∇f(x),y−x⟩+2L1​∥∇f(x)−∇f(y)∥∗2​,≥f(y)+⟨∇f(y),x−y⟩+2L1​∥∇f(x)−∇f(y)∥∗2​.​两式相加即得(iv).
(iv)⇒\Rightarrow⇒(i): 假设(iv)成立. 不妨假设∇f(x)≠∇f(y)\nabla f(\mathbf{x})\ne\nabla f(\mathbf{y})∇f(x)​=∇f(y). 由推广的Cauchy-Schwarz不等式, 对∀x,y∈E\forall\mathbf{x,y}\in\mathbb{E}∀x,y∈E,∥∇f(x)−∇f(y)∥∗⋅∥x−y∥≥⟨∇f(x)−∇f(y),x−y⟩≥1L∥∇f(x)−∇f(y)∥∗2.\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\cdot\Vert\mathbf{x-y}\Vert\ge\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*.∥∇f(x)−∇f(y)∥∗​⋅∥x−y∥≥⟨∇f(x)−∇f(y),x−y⟩≥L1​∥∇f(x)−∇f(y)∥∗2​.两边同除∥∇f(x)−∇f(y)∥∗\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*∥∇f(x)−∇f(y)∥∗​再同乘LLL即得(i).
至此, 我们已证明了(i),(ii),(iii)和(iv)的等价性. 为证明(v)与这四条等价, 下面我们证明(ii)⇔\Leftrightarrow⇔(v).
(ii)⇒\Rightarrow⇒(v): 设x,y∈E,λ∈[0,1]\mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1]x,y∈E,λ∈[0,1]. 记xλ=λx+(1−λ)y\mathbf{x}_{\lambda}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y}xλ​=λx+(1−λ)y. 由(ii),f(x)≤f(xλ)+⟨∇f(xλ),x−xλ⟩+L2∥x−xλ∥2,f(y)≤f(xλ)+⟨∇f(xλ),y−xλ⟩+L2∥y−xλ∥2,\begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{x-x}_{\lambda}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{y-x}_{\lambda}\Vert^2,\end{aligned}f(x)f(y)​≤f(xλ​)+⟨∇f(xλ​),x−xλ​⟩+2L​∥x−xλ​∥2,≤f(xλ​)+⟨∇f(xλ​),y−xλ​⟩+2L​∥y−xλ​∥2,​这等同于f(x)≤f(xλ)+(1−λ)⟨∇f(xλ),x−y⟩+L(1−λ)22∥x−y∥2,f(y)≤f(xλ)+λ⟨∇f(xλ),y−x⟩+Lλ22∥x−y∥2,\begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+(1-\lambda)\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-y}\rangle+\frac{L(1-\lambda)^2}{2}\Vert\mathbf{x-y}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\lambda\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}\rangle+\frac{L\lambda^2}{2}\Vert\mathbf{x-y}\Vert^2,\end{aligned}f(x)f(y)​≤f(xλ​)+(1−λ)⟨∇f(xλ​),x−y⟩+2L(1−λ)2​∥x−y∥2,≤f(xλ​)+λ⟨∇f(xλ​),y−x⟩+2Lλ2​∥x−y∥2,​再在第一个不等式两边同乘λ\lambdaλ, 第二个不等式两边同乘1−λ1-\lambda1−λ, 二者再相加即得(v).
(v)⇒\Rightarrow⇒(ii): 重新整理(v)可得f(y)≤f(x)+f(x+(1−λ)(y−x))−f(x)1−λ+L2λ∥x−y∥2.f(\mathbf{y})\le f(\mathbf{x})+\frac{f(\mathbf{x}+(1-\lambda)(\mathbf{y-x}))-f(\mathbf{x})}{1-\lambda}+\frac{L}{2}\lambda\Vert\mathbf{x-y}\Vert^2.f(y)≤f(x)+1−λf(x+(1−λ)(y−x))−f(x)​+2L​λ∥x−y∥2.令λ→1−1\lambda\to1^{-1}λ→1−1, 则推出f(y)≤f(x)+f′(x;y−x)+L2∥x−y∥2.f(\mathbf{y})\le f(\mathbf{x})+f'(\mathbf{x;y-x})+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2.f(y)≤f(x)+f′(x;y−x)+2L​∥x−y∥2.根据第三章定理11, f′(x;y−x)=⟨∇f(x),y−x⟩f'(\mathbf{x;y-x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\ranglef′(x;y−x)=⟨∇f(x),y−x⟩. 即得(ii).

下面的例子需要用到多元函数的微分中值定理.

定理3 (多元函数的微分中值定理) 设f:U→Rf:U\to\mathbb{R}f:U→R为开集U⊂RnU\subset\mathbb{R}^nU⊂Rn上的二次连续可微函数8. 设x∈U,r>0\mathbf{x}\in U,\,r>0x∈U,r>0满足B(x,r)⊂UB(\mathbf{x},r)\subset UB(x,r)⊂U. 则对∀y∈B(x,r)\forall\mathbf{y}\in B(\mathbf{x},r)∀y∈B(x,r), ∃ξ∈[x,y]\exists\bm{\xi}\in[\mathbf{x,y}]∃ξ∈[x,y]9, 使得f(y)=f(x)+∇f(x)T(y−x)+12(y−x)T∇f(ξ)(y−x).f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla f(\bm{\xi})(\mathbf{y-x}).f(y)=f(x)+∇f(x)T(y−x)+21​(y−x)T∇f(ξ)(y−x).

例5 (ℓp\ell_pℓp​-范数函数平方之一半的(p−1)(p-1)(p−1)-光滑性) 考虑凸函数f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R定义为f(x)=12∥x∥p2=12(∑i=1n∣xi∣p)2p,f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2=\frac{1}{2}\left(\sum_{i=1}^n|x_i|^p\right)^{\frac{2}{p}},f(x)=21​∥x∥p2​=21​(i=1∑n​∣xi​∣p)p2​,这里p∈[2,∞)p\in[2,\infty)p∈[2,∞). 下面我们证明fff在ℓp\ell_pℓp​-范数下是(p−1)(p-1)(p−1)-光滑的. 当p=2p=2p=2时, 结论成立(见例1). 因此下面假设p>2p>2p>2. 由于fff是凸函数, 因此我们想要利用定理2去证明结论. 为此, 先计算fff的偏导数与二阶偏导数:∂f∂xi(x)={sgn(xi)∣xi∣p−1∥x∥pp−2,x≠0,0,x=0,\frac{\partial f}{\partial x_i}(\mathbf{x})=\left\{\begin{array}{ll}\mathrm{sgn}(x_i)\frac{|x_i|^{p-1}}{\Vert\mathbf{x}\Vert_p^{p-2}}, & \mathbf{x\ne0},\\0, & \mathbf{x=0},\end{array}\right.∂xi​∂f​(x)={sgn(xi​)∥x∥pp−2​∣xi​∣p−1​,0,​x​=0,x=0,​注意到fff的偏导数在Rn\mathbb{R}^nRn上连续, 因此fff在Rn\mathbb{R}^nRn上可微10. 在x≠0\mathbf{x\ne0}x​=0的点处fff有二阶偏导数:∂2f∂xi∂xj(x)={(2−p)sgn(xj)∣xi∣p−1∣xj∣p−1∥x∥p2p−2,i≠j,(p−1)∣xi∣p−2∥x∥pp−2+(2−p)∣xi∣2p−2∥x∥p2p−2,i=j.\frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}(2-p)\mathrm{sgn}(x_j)\frac{|x_i|^{p-1}|x_j|^{p-1}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i\ne j,\\(p-1)\frac{|x_i|^{p-2}}{\Vert\mathbf{x}\Vert_p^{p-2}}+(2-p)\frac{|x_i|^{2p-2}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i=j.\end{array}\right.∂xi​∂xj​∂2f​(x)=⎩⎨⎧​(2−p)sgn(xj​)∥x∥p2p−2​∣xi​∣p−1∣xj​∣p−1​,(p−1)∥x∥pp−2​∣xi​∣p−2​+(2−p)∥x∥p2p−2​∣xi​∣2p−2​,​i​=j,i=j.​易知fff的二阶偏导数在∀x≠0\forall\mathbf{x\ne0}∀x​=0处是连续的. 下面我们证明fff对L=p−1L=p-1L=p−1满足定理2的(ii). 设x,y∈Rn:0∉[x,y]\mathbf{x,y}\in\mathbb{R}^n:\mathbf{0}\notin[\mathbf{x,y}]x,y∈Rn:0∈/​[x,y]. 于是由微分中值定理, 取UUU为包含[x,y][\mathbf{x,y}][x,y]但不包含0\mathbf{0}0的开集, 存在ξ∈[x,y]\bm{\xi}\in[\mathbf{x,y}]ξ∈[x,y], 使得f(y)=f(x)+∇f(x)T(y−x)+12(y−x)T∇2f(ξ)(y−x).f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}).f(y)=f(x)+∇f(x)T(y−x)+21​(y−x)T∇2f(ξ)(y−x).只需证dT∇2f(ξ)d≤(p−1)∥d∥p2,∀d∈Rn\mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2,\,\forall\mathbf{d}\in\mathbb{R}^ndT∇2f(ξ)d≤(p−1)∥d∥p2​,∀d∈Rn. 由于∇2f(tξ)=∇2f(ξ),∀t∈R∖{0}\nabla^2f(t\bm{\xi})=\nabla^2f(\bm{\xi}),\,\forall t\in\mathbb{R}\setminus\{0\}∇2f(tξ)=∇2f(ξ),∀t∈R∖{0}, 因此我们不妨假设∥ξ∥p=1\Vert\bm{\xi}\Vert_p=1∥ξ∥p​=1. 现对∀d∈Rn\forall\mathbf{d}\in\mathbb{R}^n∀d∈Rn,dT∇2f(ξ)d=(2−p)∥ξ∥p2−2p(∑i=1n∣ξi∣p−1sgn(ξi)di)2+(p−1)∥ξ∥p2−p∑i=1n∣ξi∣p−2di2≤(p−1)∥ξ∥p2−p∑i=1n∣ξi∣p−1di2,\begin{aligned}\mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}&=(2-p)\Vert\bm{\xi}\Vert_p^{2-2p}\left(\sum_{i=1}^n|\xi_i|^{p-1}\mathrm{sgn}(\xi_i)d_i\right)^2+(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-2}d_i^2\\&\le(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-1}d_i^2,\end{aligned}dT∇2f(ξ)d​=(2−p)∥ξ∥p2−2p​(i=1∑n​∣ξi​∣p−1sgn(ξi​)di​)2+(p−1)∥ξ∥p2−p​i=1∑n​∣ξi​∣p−2di2​≤(p−1)∥ξ∥p2−p​i=1∑n​∣ξi​∣p−1di2​,​这里最后一个不等式是由于p>2p>2p>2. 根据Cauchy-Schwarz不等式, ∑i=1n∣ξi∣p−2di2≤(∑i=1n(∣ξi∣p−2)pp−2)p−2p(∑i=1n(di2)p2)2p=(∑i=1n∣ξi∣p)p−2p(∑i=1n∣di∣p)2p=∥d∥p2.\sum_{i=1}^n|\xi_i|^{p-2}d_i^2\le\left(\sum_{i=1}^n\left(|\xi_i|^{p-2}\right)^{\frac{p}{p-2}}\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n\left(d_i^2\right)^{\frac{p}{2}}\right)^{\frac{2}{p}}=\left(\sum_{i=1}^n|\xi_i|^p\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n|d_i|^p\right)^{\frac{2}{p}}=\Vert\mathbf{d}\Vert_p^2.i=1∑n​∣ξi​∣p−2di2​≤(i=1∑n​(∣ξi​∣p−2)p−2p​)pp−2​(i=1∑n​(di2​)2p​)p2​=(i=1∑n​∣ξi​∣p)pp−2​(i=1∑n​∣di​∣p)p2​=∥d∥p2​.于是, 对∀d∈Rn\forall\mathbf{d}\in\mathbb{R}^n∀d∈Rn,dT∇2f(ξ)d≤(p−1)∥d∥p2.\mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2.dT∇2f(ξ)d≤(p−1)∥d∥p2​.若0∈[x,y]\mathbf{0}\in[\mathbf{x,y}]0∈[x,y], 则取一列{yk}k≥0\{\mathbf{y}_k\}_{k\ge0}{yk​}k≥0​收敛到y\mathbf{y}y, 同时又有0∉[x,yk]\mathbf{0}\notin[\mathbf{x,y}_k]0∈/​[x,yk​]. 因此由已有的结论, 对∀k≥0\forall k\ge0∀k≥0,f(yk)≤f(x)+∇f(x)T(yk−x)+p−12∥x−yk∥p2.f(\mathbf{y}_k)\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y}_k-\mathbf{x})+\frac{p-1}{2}\Vert\mathbf{x-y}_k\Vert_p^2.f(yk​)≤f(x)+∇f(x)T(yk​−x)+2p−1​∥x−yk​∥p2​.在不等式两边令k→∞k\to\inftyk→∞并利用fff的连续性即得证.

1.3 LLL-光滑函数的二阶等价刻画

下面考虑E=Rn\mathbb{E}=\mathbb{R}^nE=Rn, 范数为ℓp\ell_pℓp​-范数(p≥1p\ge1p≥1). 对Rn\mathbb{R}^nRn上的二次连续可微函数, 我们可通过其Hessian矩阵的范数刻画其LLL-光滑性.

定理4 (LLL-光滑性与Hessian矩阵范数的有界性) 设f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R为Rn\mathbb{R}^nRn上的二次连续可微函数. 对一给定L≥0L\ge0L≥0, 下面两件事是等价的:
(i) fff在ℓp\ell_pℓp​-范数(p∈[1,∞]p\in[1,\infty]p∈[1,∞])下是LLL-光滑的;
(ii) ∥∇2f(x)∥p,q≤L,∀x∈Rn\Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n∥∇2f(x)∥p,q​≤L,∀x∈Rn, 这里q∈[1,∞]:1p+1q=1q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1q∈[1,∞]:p1​+q1​=1.

证明: (ii)⇒\Rightarrow⇒(i): 假设∥∇2f(x)∥p,q≤L,∀x∈Rn\Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n∥∇2f(x)∥p,q​≤L,∀x∈Rn. 由微积分基本定理, 对∀x,y∈Rn\forall\mathbf{x,y}\in\mathbb{R}^n∀x,y∈Rn,∇f(y)=∇f(x)+∫01∇2f(x+t(y−x))(y−x)dt=∇f(x)+(∫01∇2f(x+t(y−x))dt)⋅(y−x).\begin{aligned}\nabla f(\mathbf{y})&=\nabla f(\mathbf{x})+\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))(\mathbf{y-x})\,\mathrm{d}t\\&=\nabla f(\mathbf{x})+\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x}).\end{aligned}∇f(y)​=∇f(x)+∫01​∇2f(x+t(y−x))(y−x)dt=∇f(x)+(∫01​∇2f(x+t(y−x))dt)⋅(y−x).​于是∥∇f(y)−∇f(x)∥q=∥(∫01∇2f(x+t(y−x))dt)⋅(y−x)∥q≤∥∫01∇2f(x+t(y−x))dt∥p,q⋅∥y−x∥p≤(∫01∥∇2f(x+t(y−x))∥p,qdt)⋅∥y−x∥p≤L∥y−x∥p,\begin{aligned}\Vert\nabla f(\mathbf{y})-\nabla f(\mathbf{x})\Vert_q&=\left\Vert\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x})\right\Vert_q\\ &\le\left\Vert\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right\Vert_{p,q}\cdot\Vert\mathbf{y-x}\Vert_p\\ &\le\left(\int_0^1\left\Vert\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\right\Vert_{p,q}\,\mathrm{d}t\right)\cdot\Vert\mathbf{y-x}\Vert_p\\&\le L\Vert\mathbf{y-x}\Vert_p,\end{aligned}∥∇f(y)−∇f(x)∥q​​=∥∥∥∥​(∫01​∇2f(x+t(y−x))dt)⋅(y−x)∥∥∥∥​q​≤∥∥∥∥​∫01​∇2f(x+t(y−x))dt∥∥∥∥​p,q​⋅∥y−x∥p​≤(∫01​∥∥​∇2f(x+t(y−x))∥∥​p,q​dt)⋅∥y−x∥p​≤L∥y−x∥p​,​这就证明了(i).
(i)⇒\Rightarrow⇒(ii): 假设fff在ℓp\ell_pℓp​-范数下LLL-光滑. 再次由微积分基本定理, 对∀d∈Rn,α>0\forall\mathbf{d}\in\mathbb{R}^n,\,\alpha>0∀d∈Rn,α>0,∇f(x+αd)−∇f(x)=∫0α∇2f(x+td)ddt.\nabla f(\mathbf{x}+\alpha\mathbf{d})-\nabla f(\mathbf{x})=\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\mathbf{d}\,\mathrm{d}t.∇f(x+αd)−∇f(x)=∫0α​∇2f(x+td)ddt.因此,∥(∫0α∇2f(x+td)dt)d∥q≤αL∥d∥p.\left\Vert\left(\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\,\mathrm{d}t\right)\mathbf{d}\right\Vert_q\le\alpha L\Vert\mathbf{d}\Vert_p.∥∥∥∥​(∫0α​∇2f(x+td)dt)d∥∥∥∥​q​≤αL∥d∥p​.同除α\alphaα并令α→0+\alpha\to0^+α→0+, 就有∥∇2f(x)d∥q≤L∥d∥p,∀d∈Rn,\Vert\nabla^2f(\mathbf{x})\mathbf{d}\Vert_q\le L\Vert\mathbf{d}\Vert_p,\quad\forall\mathbf{d}\in\mathbb{R}^n,∥∇2f(x)d∥q​≤L∥d∥p​,∀d∈Rn,这表明∥∇2f(x)∥p,q≤L,∀x∈Rn\Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n∥∇2f(x)∥p,q​≤L,∀x∈Rn.

定理4的直接推论是, 对于二次连续可微的凸函数, 在ℓ2\ell_2ℓ2​-范数下的LLL-光滑性等价于其Hessian矩阵的最大特征值小于等于LLL.

推论1 设f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R为Rn\mathbb{R}^nRn上二次连续可微的凸函数. 则fff在ℓ2\ell_2ℓ2​-范数下LLL-光滑等价于λmax⁡(∇2f(x))≤L,∀x∈Rn\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le L,\,\forall\mathbf{x}\in\mathbb{R}^nλmax​(∇2f(x))≤L,∀x∈Rn.

证明: 因fff是凸函数, 所以∇2f(x)⪰0,∀x∈Rn\nabla^2f(\mathbf{x})\succeq\mathbf{0},\,\forall\mathbf{x}\in\mathbb{R}^n∇2f(x)⪰0,∀x∈Rn. 此时∥∇2f(x)∥2,2=λmax⁡((∇2f(x))2)=λmax⁡(∇2f(x)).\Vert\nabla^2f(\mathbf{x})\Vert_{2,2}=\sqrt{\lambda_{\max}\left((\nabla^2f(\mathbf{x}))^2\right)}=\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right).∥∇2f(x)∥2,2​=λmax​((∇2f(x))2)​=λmax​(∇2f(x)).再结合定理4, 就得证.

例6 (1+∥⋅∥22\sqrt{1+\Vert\cdot\Vert_2^2}1+∥⋅∥22​​在ℓ2\ell_2ℓ2​-范数下的111-光滑性) 设f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R为如下的凸函数f(x)=1+∥x∥22.f(\mathbf{x})=\sqrt{1+\Vert\mathbf{x}\Vert_2^2}.f(x)=1+∥x∥22​​.对∀x∈Rn\forall\mathbf{x}\in\mathbb{R}^n∀x∈Rn,∇f(x)=x∥x∥22+1,∇2f(x)=1∥x∥22+1I−xxT(∥x∥22+1)3/2⪯I.\nabla f(\mathbf{x})=\frac{\mathbf{x}}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}},\,\nabla^2f(\mathbf{x})=\frac{1}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}}\mathbf{I}-\frac{\mathbf{xx}^T}{\left(\Vert\mathbf{x}\Vert_2^2+1\right)^{3/2}}\preceq\mathbf{I}.∇f(x)=∥x∥22​+1​x​,∇2f(x)=∥x∥22​+1​1​I−(∥x∥22​+1)3/2xxT​⪯I.从而有λmax⁡(∇2f(x))≤1,∀x∈Rn\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^nλmax​(∇2f(x))≤1,∀x∈Rn. 根据推论1, 可知fff在ℓ2\ell_2ℓ2​-范数下111-光滑.

例7 (对数求和指数函数在ℓ2\ell_2ℓ2​-,ℓ∞\ell_{\infty}ℓ∞​-范数下的111-光滑性) 考虑对数求和指数函数f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R:f(x)=log⁡(ex1+ex2+⋯+exn).f(\mathbf{x})=\log(e^{x_1}+e^{x_2}+\cdots+e^{x_n}).f(x)=log(ex1​+ex2​+⋯+exn​).首先考虑ℓ2\ell_2ℓ2​-范数. fff的一阶偏导数为∂f∂xi(x)=exi∑k=1nexk,i=1,2,…,n,\frac{\partial f}{\partial x_i}(\mathbf{x})=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}},\quad i=1,2,\ldots,n,∂xi​∂f​(x)=∑k=1n​exk​exi​​,i=1,2,…,n,二阶偏导数为∂2f∂xi∂xj(x)={−exiexj(∑k=1nexk)2,i≠j,−e2xi(∑k=1nexk)2+exi∑k=1nexk,i=j.\frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}-\frac{e^{x_i}e^{x_j}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}, & i\ne j,\\-\frac{e^{2x_i}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}+\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}}, & i=j.\end{array}\right.∂xi​∂xj​∂2f​(x)=⎩⎨⎧​−(∑k=1n​exk​)2exi​exj​​,−(∑k=1n​exk​)2e2xi​​+∑k=1n​exk​exi​​,​i​=j,i=j.​于是Hessian矩阵可以写作∇2f(x)=diag(w)−wwT≻0,\nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\succ\mathbf{0},∇2f(x)=diag(w)−wwT≻0,这里wi=exi∑k=1nexkw_i=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}}wi​=∑k=1n​exk​exi​​. 注意到对∀x∈Rn\forall\mathbf{x}\in\mathbb{R}^n∀x∈Rn,∇2f(x)=diag(w)−wwT⪯diag(w)⪯I,\nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\preceq\mathrm{diag}(\mathbf{w})\preceq\mathbf{I},∇2f(x)=diag(w)−wwT⪯diag(w)⪯I,因此λmax⁡(∇2f(x))≤1,∀x∈Rn\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^nλmax​(∇2f(x))≤1,∀x∈Rn. 再因fff的Hessian矩阵正定, 因此fff是凸函数, 由推论1即得fff在ℓ2\ell_2ℓ2​-范数下是111-光滑的.

下证ℓ∞\ell_{\infty}ℓ∞​-范数的情形. 我们首先证明对∀d∈Rn\forall\mathbf{d}\in\mathbb{R}^n∀d∈Rn,dT∇2f(x)d≤∥d∥∞2.\mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}\le\Vert\mathbf{d}\Vert_{\infty}^2.dT∇2f(x)d≤∥d∥∞2​.事实上, dT∇2f(x)d=dT(diag(w)−wwT)d=dTdiag(w)d−(wTd)2≤dTdiag(w)d=∑i=1nwidi2≤∥d∥∞2∑i=1nwi=∥d∥∞2.\begin{aligned}\mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}&=\mathbf{d}^T\left(\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\right)\mathbf{d}=\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}-\left(\mathbf{w}^T\mathbf{d}\right)^2\\&\le\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}=\sum_{i=1}^nw_id_i^2\\&\le\Vert\mathbf{d}\Vert_{\infty}^2\sum_{i=1}^nw_i=\Vert\mathbf{d}\Vert_{\infty}^2.\end{aligned}dT∇2f(x)d​=dT(diag(w)−wwT)d=dTdiag(w)d−(wTd)2≤dTdiag(w)d=i=1∑n​wi​di2​≤∥d∥∞2​i=1∑n​wi​=∥d∥∞2​.​因fff在Rn\mathbb{R}^nRn上二次连续可微, 于是由微分中值定理, 对∀x,y∈Rn\forall\mathbf{x,y}\in\mathbb{R}^n∀x,y∈Rn, ∃ξ∈[x,y]\exists\bm{\xi}\in[\mathbf{x,y}]∃ξ∈[x,y], 使得f(y)=f(x)+∇f(x)T(y−x)+12(y−x)T∇2f(ξ)(y−x).f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}).f(y)=f(x)+∇f(x)T(y−x)+21​(y−x)T∇2f(ξ)(y−x).结合上面的不等式, 有f(y)≤f(x)+∇f(x)T(y−x)+12∥y−x∥∞2,f(\mathbf{y})\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}\Vert\mathbf{y-x}\Vert_{\infty}^2,f(y)≤f(x)+∇f(x)T(y−x)+21​∥y−x∥∞2​,再由定理2的(ii)即得fff在ℓ∞\ell_{\infty}ℓ∞​-范数下的111-光滑性.

1.4 光滑参数计算小结

下表总结了本节讨论的函数在不同范数下的光滑参数. 其中最后一个函数的讨论放在下一章.

f(x)f(\mathbf{x})f(x) dom(f)\mathrm{dom}(f)dom(f) 光滑参数 范数 例号
12xTAx+bTx+c(A∈Sn,b∈Rn,c∈R)\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R})21​xTAx+bTx+c(A∈Sn,b∈Rn,c∈R) Rn\mathbb{R}^nRn ∥A∥p,q\Vert\mathbf{A}\Vert_{p,q}∥A∥p,q​ ℓp\ell_pℓp​ 1
⟨b,x⟩+c(b∈E∗,c∈R)\langle\mathbf{b,x}\rangle+c\,(\mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R})⟨b,x⟩+c(b∈E∗,c∈R) E\mathbb{E}E 000 任何范数 2
12∥x∥p2,p∈[2,∞)\frac{1}{2}\Vert\mathbf{x}\Vert_p^2,\,p\in[2,\infty)21​∥x∥p2​,p∈[2,∞) Rn\mathbb{R}^nRn p−1p-1p−1 ℓp\ell_pℓp​ 5
1+∥x∥22\sqrt{1+\Vert\mathbf{x}\Vert_2^2}1+∥x∥22​​ Rn\mathbb{R}^nRn 111 ℓ2\ell_2ℓ2​ 6
log⁡(∑i=1nexi)\log(\sum_{i=1}^ne^{x_i})log(∑i=1n​exi​) Rn\mathbb{R}^nRn 111 ℓ2,ℓ∞\ell_2,\ell_{\infty}ℓ2​,ℓ∞​ 7
12dC2(x)(∅≠C⊂E\frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E}21​dC2​(x)(∅​=C⊂E闭凸))) E\mathbb{E}E 111 欧式范数 3
12∥x∥2−12dC2(x)(∅≠C⊂E\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E}21​∥x∥2−21​dC2​(x)(∅​=C⊂E闭凸))) E\mathbb{E}E 111 欧式范数 4
Hμ(x)(μ>0)H_{\mu}(\mathbf{x})\,(\mu>0)Hμ​(x)(μ>0) E\mathbb{E}E 1μ\frac{1}{\mu}μ1​ 欧式范数 第六章例28

2. σ\sigmaσ-强凸性

定义2 (强凸性) 对一给定σ>0\sigma>0σ>0, 我们称函数f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]是σ\sigmaσ-强凸的, 若dom(f)\mathrm{dom}(f)dom(f)是凸集且对∀x,y∈dom(f),λ∈[0,1]\forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1]∀x,y∈dom(f),λ∈[0,1], 均有f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−σ2λ(1−λ)∥x−y∥2.f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2.f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−2σ​λ(1−λ)∥x−y∥2.称σ\sigmaσ为强凸参数. 有时我们也称fff对于参数σ\sigmaσ强凸.

需要说明的是, 强凸参数σ\sigmaσ也依赖于定义所用的范数. 因此我们有时也会刻意地说成, 在范数∥⋅∥\Vert\cdot\Vert∥⋅∥下的强凸参数. 由于如上定义的强凸函数的有效域是凸的, 而且显然有Jensen不等式成立, 所以强凸函数必定是凸函数.

当E\mathbb{E}E是欧式空间时, 我们可给出等价于强凸性的一个简单性质.

定理5 设E\mathbb{E}E为欧式空间11. 则f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]是σ\sigmaσ-强凸函数(σ>0)(\sigma>0)(σ>0)当且仅当f(⋅)−σ2∥⋅∥2f(\cdot)-\frac{\sigma}{2}\Vert\cdot\Vert^2f(⋅)−2σ​∥⋅∥2是凸函数.

证明: 函数g(x)≡f(x)−σ2∥x∥2g(\mathbf{x})\equiv f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x}\Vert^2g(x)≡f(x)−2σ​∥x∥2是凸函数当且仅当其有效域dom(g)=dom(f)\mathrm{dom}(g)=\mathrm{dom}(f)dom(g)=dom(f)是凸集, 且对∀x,y∈dom(f),λ∈[0,1]\forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1]∀x,y∈dom(f),λ∈[0,1],g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y).g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}).g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y).这等价于f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)+σ2[∥λx+(1−λ)y∥2−λ∥x∥2−(1−λ)∥y∥2].f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})+\frac{\sigma}{2}[\Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2].f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)+2σ​[∥λx+(1−λ)y∥2−λ∥x∥2−(1−λ)∥y∥2].由于E\mathbb{E}E是欧式空间, 所以∥λx+(1−λ)y∥2−λ∥x∥2−(1−λ)∥y∥2=−λ(1−λ)∥x−y∥2,\Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2=-\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,∥λx+(1−λ)y∥2−λ∥x∥2−(1−λ)∥y∥2=−λ(1−λ)∥x−y∥2,代入上面的不等式即可得证.

另外, σ\sigmaσ-强凸性也有类似于LLL-光滑性的单调性, 即若函数fff是σ1\sigma_1σ1​-强凸的(σ1>0\sigma_1>0σ1​>0), 则对∀σ2∈(0,σ1)\forall\sigma_2\in(0,\sigma_1)∀σ2​∈(0,σ1​), 它必是σ2\sigma_2σ2​-强凸的. 对应地, 定出一给定函数的最大强凸参数则也是一件不平凡的事, 也是一件有趣的事.

例8 (二次函数的强凸性) 假设E=Rn\mathbb{E}=\mathbb{R}^nE=Rn赋ℓ2\ell_2ℓ2​-范数, 考虑二次函数f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R定义为f(x)=12xTAx+bTx+c,f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c,f(x)=21​xTAx+bTx+c,其中A∈Sn,b∈Rn,c∈R\mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}A∈Sn,b∈Rn,c∈R. 由定理5, fff是σ\sigmaσ-强凸函数当且仅当函数12xT(A−σI)x+bTx+c\frac{1}{2}\mathbf{x}^T(\mathbf{A-\sigma I})\mathbf{x}+\mathbf{b}^T\mathbf{x}+c21​xT(A−σI)x+bTx+c是凸函数, 而这等价于A−σI⪰0\mathbf{A-\sigma I}\succeq\mathbf{0}A−σI⪰0, 即λmin⁡(A)≥σ\lambda_{\min}(\mathbf{A})\ge\sigmaλmin​(A)≥σ. 因此, fff强凸当且仅当A\mathbf{A}A正定, 且此时λmin⁡(A)\lambda_{\min}(\mathbf{A})λmin​(A)就是fff的最大强凸参数.

强凸函数与凸函数的和仍然是强凸函数, 且不改变其强凸参数.

引理1 设f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]是σ\sigmaσ-强凸函数(σ>0(\sigma>0(σ>0), g:E→(−∞,∞]g:\mathbb{E}\to(-\infty,\infty]g:E→(−∞,∞]是凸函数. 则f+gf+gf+g仍然是σ\sigmaσ-强凸函数.

证明: 证明是直接的. 因f,gf,gf,g是凸函数, 所以dom(f),dom(g)\mathrm{dom}(f),\mathrm{dom}(g)dom(f),dom(g)都是凸集, 从而dom(f+g)=dom(f)∩dom(g)\mathrm{dom}(f+g)=\mathrm{dom}(f)\cap\mathrm{dom}(g)dom(f+g)=dom(f)∩dom(g)是凸集. 设x,y∈dom(f)∩dom(g),λ∈[0,1]\mathbf{x,y}\in\mathrm{dom}(f)\cap\mathrm{dom}(g),\,\lambda\in[0,1]x,y∈dom(f)∩dom(g),λ∈[0,1]. 则由fff的σ\sigmaσ-强凸性, f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−σ2λ(1−λ)∥x−y∥2.f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2.f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−2σ​λ(1−λ)∥x−y∥2.再由ggg是凸函数, g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y).g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}).g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y).两不等式相加得到(f+g)(λx+(1−λ)y)≤λ(f+g)(x)+(1−λ)(f+g)(y)−σ2λ(1−λ)∥x−y∥2,(f+g)(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda(f+g)(\mathbf{x})+(1-\lambda)(f+g)(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,(f+g)(λx+(1−λ)y)≤λ(f+g)(x)+(1−λ)(f+g)(y)−2σ​λ(1−λ)∥x−y∥2,得证.

例9 (12∥⋅∥2+δC\frac{1}{2}\Vert\cdot\Vert^2+\delta_C21​∥⋅∥2+δC​的强凸性) 假设E\mathbb{E}E为欧式空间, C⊂EC\subset\mathbb{E}C⊂E为一非空凸集. 则由例8知12∥x∥2\frac{1}{2}\Vert\mathbf{x}\Vert^221​∥x∥2是111-强凸函数, 再由CCC是凸集, 从而δC\delta_CδC​是凸函数. 最后根据引理1, 函数12∥x∥2+δC(x)\frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})21​∥x∥2+δC​(x)就是111-强凸的.

我们之前给出了刻画LLL-光滑函数的一阶和二阶性质. 这里我们也给出σ\sigmaσ-强凸的两个等价一阶性质. 它们的证明要用到下面的一维中值定理(引理212)与线段原理(引理313).

引理2(中值定理) 设f:R→(−∞,∞]f:\mathbb{R}\to(-\infty,\infty]f:R→(−∞,∞]为一闭凸函数, [a,b]⊂dom(f)(a<b)[a,b]\subset\mathrm{dom}(f)(a<b)[a,b]⊂dom(f)(a<b). 于是f(b)−f(a)=∫abh(t)dt,f(b)-f(a)=\int_a^bh(t)\,\mathrm{d}t,f(b)−f(a)=∫ab​h(t)dt,其中h:(a,b)→Rh:(a,b)\to\mathbb{R}h:(a,b)→R满足h(t)∈∂f(t),∀t∈(a,b)h(t)\in\partial f(t),\,\forall t\in(a,b)h(t)∈∂f(t),∀t∈(a,b).

引理3(线段原理) 设CCC为凸集. 假设x∈ri(C),y∈cl(C),λ∈(0,1]\mathbf{x}\in\mathrm{ri}(C),\,\mathbf{y}\in\mathrm{cl}(C),\,\lambda\in(0,1]x∈ri(C),y∈cl(C),λ∈(0,1]. 于是λx+(1−λ)y∈ri(C)\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{ri}(C)λx+(1−λ)y∈ri(C).

定理6 (强凸性的一阶刻画) 设f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]为一正常闭凸函数. 则对一给定σ>0\sigma>0σ>0, 下面三件事是等价的:
(i) fff是σ\sigmaσ-强凸函数;
(ii) f(y)≥f(x)+⟨g,y−x⟩+σ2∥y−x∥2,∀x∈dom(∂f),y∈dom(f),g∈∂f(x)f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle+\frac{\sigma}{2}\Vert\mathbf{y-x}\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x})f(y)≥f(x)+⟨g,y−x⟩+2σ​∥y−x∥2,∀x∈dom(∂f),y∈dom(f),g∈∂f(x)14;
(iii) ⟨gx−gy,x−y⟩≥σ∥x−y∥2,∀x,y∈dom(∂f),gx∈∂f(x),gy∈∂f(y)\langle\mathbf{g_x-g_y,x-y}\rangle\ge\sigma\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y})⟨gx​−gy​,x−y⟩≥σ∥x−y∥2,∀x,y∈dom(∂f),gx​∈∂f(x),gy​∈∂f(y)15.

证明: (ii)⇒\Rightarrow⇒(i): 假设(ii)成立. 任取x,y∈dom(f),λ∈(0,1),z∈ri(dom(f))\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in(0,1),\,\mathbf{z}\in\mathrm{ri(dom}(f))x,y∈dom(f),λ∈(0,1),z∈ri(dom(f)). 于是对∀α∈(0,1]\forall\alpha\in(0,1]∀α∈(0,1], 由线段原理, x~=(1−α)x+αz∈ri(dom(f))\tilde\mathbf{x}=(1-\alpha)\mathbf{x}+\alpha\mathbf{z}\in\mathrm{ri(dom}(f))x~=(1−α)x+αz∈ri(dom(f)). 固定α\alphaα. 记xλ=λx~+(1−λ)y\mathbf{x_{\lambda}}=\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y}xλ​=λx~+(1−λ)y, 再由线段原理, 知xλ∈ri(dom(f)),∀λ∈(0,1)\mathbf{x_{\lambda}}\in\mathrm{ri(dom}(f)),\,\forall\lambda\in(0,1)xλ​∈ri(dom(f)),∀λ∈(0,1). 因此根据第三章定理6, ∂f(xλ)≠∅\partial f(\mathbf{x_{\lambda}})\ne\emptyset∂f(xλ​)​=∅, xλ∈dom(∂f)\mathbf{x_{\lambda}}\in\mathrm{dom}(\partial f)xλ​∈dom(∂f). 取g∈∂f(xλ)\mathbf{g}\in\partial f(\mathbf{x_{\lambda}})g∈∂f(xλ​). 由(ii),f(x~)≥f(xλ)+⟨g,x~−xλ⟩+σ2∥x~−xλ∥2,f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{x_{\lambda}}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{x}-\mathbf{x_{\lambda}}\Vert^2,f(x~)≥f(xλ​)+⟨g,x~−xλ​⟩+2σ​∥x~−xλ​∥2,代入xλ\mathbf{x_{\lambda}}xλ​定义就有f(x~)≥f(xλ)+(1−λ)⟨g,x~−y⟩+σ(1−λ)22∥y−x~∥2.f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+(1-\lambda)\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{y}\rangle+\frac{\sigma(1-\lambda)^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2.f(x~)≥f(xλ​)+(1−λ)⟨g,x~−y⟩+2σ(1−λ)2​∥y−x~∥2.类似地有f(y)≥f(xλ)+λ⟨g,y−x~⟩+σλ22∥y−x~∥2.f(\mathbf{y})\ge f(\mathbf{x_{\lambda}})+\lambda\langle\mathbf{g},\mathbf{y}-\tilde\mathbf{x}\rangle+\frac{\sigma\lambda^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2.f(y)≥f(xλ​)+λ⟨g,y−x~⟩+2σλ2​∥y−x~∥2.前者两边乘以λ\lambdaλ, 后者两边乘以1−λ1-\lambda1−λ, 再相加可得f(λx~+(1−λ)y)≤λf(x~)+(1−λ)f(y)−σλ(1−λ)2∥x~−y∥2.f(\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\tilde\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\tilde\mathbf{x}-\mathbf{y}\Vert^2.f(λx~+(1−λ)y)≤λf(x~)+(1−λ)f(y)−2σλ(1−λ)​∥x~−y∥2.将x~\tilde\mathbf{x}x~的定义代入上式, 可得g1(α)≤λg2(α)+(1−λ)f(y)−σλ(1−λ)2∥(1−α)x+αz−y∥2,g_1(\alpha)\le\lambda g_2(\alpha)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert(1-\alpha)\mathbf{x}+\alpha\mathbf{z}-\mathbf{y}\Vert^2,g1​(α)≤λg2​(α)+(1−λ)f(y)−2σλ(1−λ)​∥(1−α)x+αz−y∥2,其中g1(α)≡f(λ(1−α)x+(1−λ)y+λαz)g_1(\alpha)\equiv f(\lambda(1-\alpha)\mathbf{x}+(1-\lambda)\mathbf{y}+\lambda\alpha\mathbf{z})g1​(α)≡f(λ(1−α)x+(1−λ)y+λαz), g2(α)≡f((1−α)x+αz)g_2(\alpha)\equiv f((1-\alpha)\mathbf{x}+\alpha\mathbf{z})g2​(α)≡f((1−α)x+αz). 函数g1,g2g_1,g_2g1​,g2​均是一维正常闭凸函数, 从而根据第二章定理10可知, 它们都在它们的有效域上连续. 令α→0+\alpha\to0^+α→0+, 推出g1(0)≤λg2(0)+(1−λ)f(y)−σλ(1−λ)2∥x−y∥2.g_1(0)\le\lambda g_2(0)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\mathbf{x-y}\Vert^2.g1​(0)≤λg2​(0)+(1−λ)f(y)−2σλ(1−λ)​∥x−y∥2.又因g1(0)=f(λx+(1−λ)y),g2(0)=f(x)g_1(0)=f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y}),\,g_2(0)=f(\mathbf{x})g1​(0)=f(λx+(1−λ)y),g2​(0)=f(x), 故得fff的σ\sigmaσ-强凸性.

(i)⇒\Rightarrow⇒(iii): 假设(i)成立. 设x,y∈dom(∂f),gx∈∂f(x),gy∈∂f(y)\mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y})x,y∈dom(∂f),gx​∈∂f(x),gy​∈∂f(y). 任取λ∈[0,1)\lambda\in[0,1)λ∈[0,1), 并记xλ=λx+(1−λ)y\mathbf{x_{\lambda}}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y}xλ​=λx+(1−λ)y. 由(i),f(xλ)≤λf(x)+(1−λ)f(y)−σ2λ(1−λ)∥x−y∥2,f(\mathbf{x_{\lambda}})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,f(xλ​)≤λf(x)+(1−λ)f(y)−2σ​λ(1−λ)∥x−y∥2,进一步有f(xλ)−f(x)1−λ≤f(y)−f(x)−σ2λ∥x−y∥2.\frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\lambda\Vert\mathbf{x-y}\Vert^2.1−λf(xλ​)−f(x)​≤f(y)−f(x)−2σ​λ∥x−y∥2.因为gx∈∂f(x)\mathbf{g_x}\in\partial f(\mathbf{x})gx​∈∂f(x), 于是f(xλ)−f(x)1−λ≥⟨gx,xλ−x⟩1−λ=⟨gx,y−x⟩,\frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\ge\frac{\langle\mathbf{g_x,x_{\lambda}-x}\rangle}{1-\lambda}=\langle\mathbf{g_x,y-x}\rangle,1−λf(xλ​)−f(x)​≥1−λ⟨gx​,xλ​−x⟩​=⟨gx​,y−x⟩,所以⟨gx,y−x⟩≤f(y)−f(x)−σλ2∥x−y∥2.\langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma\lambda}{2}\Vert\mathbf{x-y}\Vert^2.⟨gx​,y−x⟩≤f(y)−f(x)−2σλ​∥x−y∥2.令λ→1−1\lambda\to1^{-1}λ→1−1, 就有⟨gx,y−x⟩≤f(y)−f(x)−σ2∥x−y∥2.\langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2.⟨gx​,y−x⟩≤f(y)−f(x)−2σ​∥x−y∥2.交换x,y\mathbf{x,y}x,y的位置又得到⟨gy,x−y⟩≤f(x)−f(y)−σ2∥x−y∥2.\langle\mathbf{g_y,x-y}\rangle\le f(\mathbf{x})-f(\mathbf{y})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2.⟨gy​,x−y⟩≤f(x)−f(y)−2σ​∥x−y∥2.两式相加即得(iii).

(iii)⇒\Rightarrow⇒(ii): 假设(iii)成立. 设x∈dom(∂f),y∈dom(f),g∈∂f(x)\mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x})x∈dom(∂f),y∈dom(f),g∈∂f(x). 令z∈ri(dom(f))\mathbf{z}\in\mathrm{ri(dom}(f))z∈ri(dom(f)), 定义y~=(1−α)y+αz,α∈(0,1)\tilde\mathbf{y}=(1-\alpha)\mathbf{y}+\alpha\mathbf{z},\,\alpha\in(0,1)y~​=(1−α)y+αz,α∈(0,1). 固定α\alphaα. 由线段原理, y~∈ri(dom(f))\tilde\mathbf{y}\in\mathrm{ri(dom}(f))y~​∈ri(dom(f)). 考虑一元函数φ(λ)=f(xλ),λ∈[0,1],\varphi(\lambda)=f(\mathbf{x_{\lambda}}),\quad\lambda\in[0,1],φ(λ)=f(xλ​),λ∈[0,1],其中xλ=(1−λ)x+λy~\mathbf{x_{\lambda}}=(1-\lambda)\mathbf{x}+\lambda\tilde\mathbf{y}xλ​=(1−λ)x+λy~​. 对∀λ∈(0,1)\forall\lambda\in(0,1)∀λ∈(0,1), 令gλ∈∂f(xλ)\mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}})gλ​∈∂f(xλ​)16. 于是⟨gλ,y~−x⟩∈∂φ(λ)\langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\in\partial\varphi(\lambda)⟨gλ​,y~​−x⟩∈∂φ(λ), 从而由中值定理,f(y~)−f(x)=φ(1)−φ(0)=∫01⟨gλ,y~−x⟩dλ.f(\tilde\mathbf{y})-f(\mathbf{x})=\varphi(1)-\varphi(0)=\int_0^1\langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\,\mathrm{d}\lambda.f(y~​)−f(x)=φ(1)−φ(0)=∫01​⟨gλ​,y~​−x⟩dλ.因为g∈∂f(x),gλ∈∂f(xλ)\mathbf{g}\in\partial f(\mathbf{x}),\,\mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}})g∈∂f(x),gλ​∈∂f(xλ​), 根据(iii),⟨gλ−g,xλ−x⟩≥σ∥xλ−x∥2,\langle\mathbf{g_{\lambda}-g,x_{\lambda}-x}\rangle\ge\sigma\Vert\mathbf{x_{\lambda}-x}\Vert^2,⟨gλ​−g,xλ​−x⟩≥σ∥xλ​−x∥2,代入xλ\mathbf{x_{\lambda}}xλ​的定义, ⟨gλ,y~−x⟩≥⟨g,y~−x⟩+σλ∥y~−x∥2.\langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\ge\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2.⟨gλ​,y~​−x⟩≥⟨g,y~​−x⟩+σλ∥y~​−x∥2.将此代入中值定理的不等式, 就有f(y~)−f(x)≥∫01[⟨g,y~−x⟩+σλ∥y~−x∥2]dλ=⟨g,y~−x⟩+σ2∥y~−x∥2.f(\tilde\mathbf{y})-f(\mathbf{x})\ge\int_0^1\left[\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2\right]\,\mathrm{d}\lambda=\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2.f(y~​)−f(x)≥∫01​[⟨g,y~​−x⟩+σλ∥y~​−x∥2]dλ=⟨g,y~​−x⟩+2σ​∥y~​−x∥2.代入y~\tilde\mathbf{y}y~​的定义, 我们有对∀α∈(0,1)\forall\alpha\in(0,1)∀α∈(0,1),f((1−α)y+αz)≥f(x)+⟨g,(1−α)y+αz−x⟩+σ2∥(1−α)y+αz−x∥2.f((1-\alpha)\mathbf{y}+\alpha\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{g},(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\Vert^2.f((1−α)y+αz)≥f(x)+⟨g,(1−α)y+αz−x⟩+2σ​∥(1−α)y+αz−x∥2.令α→0+\alpha\to0^+α→0+并利用一元函数α↦f((1−α)y+αz)\alpha\mapsto f((1-\alpha)\mathbf{y}+\alpha\mathbf{z})α↦f((1−α)y+αz)在[0,1][0,1][0,1]上的连续性17就得证.

下一个定理表明, 正常闭强凸函数有唯一的极小点, 且它在极小点附近满足一定的增长性质.

定理7 (闭强凸函数极小点的存在唯一性) 设f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]为一正常闭σ\sigmaσ-强凸函数(σ>0\sigma>0σ>0). 于是
(i) fff有唯一全局极小点;
(ii) f(x)−f(x∗)≥σ2∥x−x∗∥2,∀x∈dom(f)f(\mathbf{x})-f(\mathbf{x}^*)\ge\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(f)f(x)−f(x∗)≥2σ​∥x−x∗∥2,∀x∈dom(f), 其中x∗\mathbf{x}^*x∗是(i)中fff的唯一极小点.

证明: (i) 因为dom(f)\mathrm{dom}(f)dom(f)是非空凸集, 从而根据第三章定理5, 存在x0∈ri(dom(f))\mathbf{x}_0\in\mathrm{ri(dom}(f))x0​∈ri(dom(f)), 从而再根据第三章定理6, ∂f(x0)≠∅\partial f(\mathbf{x}_0)\ne\emptyset∂f(x0​)​=∅. 设g∈∂f(x0)\mathbf{g}\in\partial f(\mathbf{x}_0)g∈∂f(x0​). 由定理6的(ii), 推出f(x)≥f(x0)+⟨g,x−x0⟩+σ2∥x−x0∥2,∀x∈E.f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}_0\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}.f(x)≥f(x0​)+⟨g,x−x0​⟩+2σ​∥x−x0​∥2,∀x∈E.因为有限维空间中所有的范数都等价, 所以存在常数C>0C>0C>0使得∥y∥≥C∥y∥a,\Vert\mathbf{y}\Vert\ge\sqrt{C}\Vert\mathbf{y}\Vert_a,∥y∥≥C​∥y∥a​,其中∥⋅∥a\Vert\cdot\Vert_a∥⋅∥a​是与空间内积对应的欧式范数. 因此f(x)≥f(x0)+⟨g,x−x0⟩+Cσ2∥x−x0∥a2,∀x∈E,f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{C\sigma}{2}\Vert\mathbf{x-x}_0\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E},f(x)≥f(x0​)+⟨g,x−x0​⟩+2Cσ​∥x−x0​∥a2​,∀x∈E,配方后可得f(x)≥f(x0)−12Cσ∥g∥a2+Cσ2∥x−(x0−1Cσg)∥a2,∀x∈E.f(\mathbf{x})\ge f(\mathbf{x}_0)-\frac{1}{2C\sigma}\Vert\mathbf{g}\Vert_a^2+\frac{C\sigma}{2}\left\Vert\mathbf{x}-\left(\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g}\right)\right\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E}.f(x)≥f(x0​)−2Cσ1​∥g∥a2​+2Cσ​∥∥∥∥​x−(x0​−Cσ1​g)∥∥∥∥​a2​,∀x∈E.特别地, Lev(f,f(x0))⊂B∥⋅∥a[x0−1Cσg,1Cσ∥g∥a].\mathrm{Lev}(f,f(\mathbf{x}_0))\subset B_{\Vert\cdot\Vert_a}\left[\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g},\frac{1}{C\sigma}\Vert\mathbf{g}\Vert_a\right].Lev(f,f(x0​))⊂B∥⋅∥a​​[x0​−Cσ1​g,Cσ1​∥g∥a​].由于fff是闭函数, 所以根据第二章定理1, 上述水平集是闭集(同时也是有界集). 因此Lev(f,f(x0))\mathrm{Lev}(f,f(\mathbf{x}_0))Lev(f,f(x0​))是紧集. 同时注意到x0∈Lev(f,f(x0))\mathbf{x}_0\in\mathrm{Lev}(f,f(\mathbf{x}_0))x0​∈Lev(f,f(x0​)). 所以fff在dom(f)\mathrm{dom}(f)dom(f)上的最优点集等同于fff在非空紧集Lev(f,f(x0))\mathrm{Lev}(f,f(\mathbf{x}_0))Lev(f,f(x0​))上的最优点集. 由第二章定理4(闭函数的Weierstrass定理), 得知这样的全局极小点是存在的.
下面证明唯一性. 假设x~,x^\tilde\mathbf{x},\hat\mathbf{x}x~,x^都是fff的全局极小点. 则f(x~)=f(x^)=foptf(\tilde\mathbf{x})=f(\hat\mathbf{x})=f_{\mathrm{opt}}f(x~)=f(x^)=fopt​, 这里foptf_{\mathrm{opt}}fopt​是fff的最小值. 由fff的σ\sigmaσ-强凸性, fopt≤f(12x~+12x^)≤12f(x~)+12f(x^)−σ8∥x~−x^∥2=fopt−σ8∥x~−x^∥2,f_{\mathrm{opt}}\le f\left(\frac{1}{2}\tilde\mathbf{x}+\frac{1}{2}\hat\mathbf{x}\right)\le\frac{1}{2}f(\tilde\mathbf{x})+\frac{1}{2}f(\hat\mathbf{x})-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2=f_{\mathrm{opt}}-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2,fopt​≤f(21​x~+21​x^)≤21​f(x~)+21​f(x^)−8σ​∥x~−x^∥2=fopt​−8σ​∥x~−x^∥2,表明x~=x^\tilde\mathbf{x}=\hat\mathbf{x}x~=x^.

(ii) 设x∗\mathbf{x}^*x∗是(i)中fff的唯一全局极小点. 由Fermat最优性条件, 0∈∂f(x∗)\mathbf{0}\in\partial f(\mathbf{x}^*)0∈∂f(x∗). 再由定理6的(ii), f(x)−f(x∗)≥⟨0,x−x∗⟩+σ2∥x−x∗∥2=σ2∥x−x∗∥2,∀x∈E.f(\mathbf{x})-f(\mathbf{x}^*)\ge\langle\mathbf{0},\mathbf{x-x}^*\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2=\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}.f(x)−f(x∗)≥⟨0,x−x∗⟩+2σ​∥x−x∗∥2=2σ​∥x−x∗∥2,∀x∈E.证毕.

3. 光滑性与强凸性的关系

3.1 共轭关联定理

光滑性与强凸性是靠共轭运算关联起来的. 粗略地讲, fff是σ\sigmaσ-强凸函数当且仅当f∗f^*f∗是1σ\frac{1}{\sigma}σ1​-光滑函数.

定理8 (共轭关联定理) 设σ>0\sigma>0σ>0. 则
(i) 若f:E→Rf:\mathbb{E}\to\mathbb{R}f:E→R为一1σ\frac{1}{\sigma}σ1​-光滑凸函数, 则f∗f^*f∗是对偶范数∥⋅∥∗\Vert\cdot\Vert_*∥⋅∥∗​下的σ\sigmaσ-强凸函数18;
(ii) 若f:R→(−∞,∞]f:\mathbb{R}\to(-\infty,\infty]f:R→(−∞,∞]为一正常闭σ\sigmaσ-强凸函数, 则f∗:E∗→Rf^*:\mathbb{E}^*\to\mathbb{R}f∗:E∗→R是对偶范数下的1σ\frac{1}{\sigma}σ1​-光滑函数.

证明: (i) 假设f:E→Rf:\mathbb{E}\to\mathbb{R}f:E→R为一1σ\frac{1}{\sigma}σ1​-光滑凸函数. 任取y1,y2∈dom(∂f∗),v1∈∂f∗(y1),v2∈∂f∗(y2)\mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2)y1​,y2​∈dom(∂f∗),v1​∈∂f∗(y1​),v2​∈∂f∗(y2​). 根据第四章的共轭次梯度定理以及fff的正常闭凸性, 就有y1∈∂f(v1),y2∈∂f(v2)\mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2)y1​∈∂f(v1​),y2​∈∂f(v2​), 再由fff的可微性, 就有y1=∇f(v1),y2=∇f(v2)\mathbf{y}_1=\nabla f(\mathbf{v}_1),\,\mathbf{y}_2=\nabla f(\mathbf{v}_2)y1​=∇f(v1​),y2​=∇f(v2​). 由定理2(i)与(iv)的等价性, 有⟨y1−y2,v1−v2⟩≥σ∥y1−y2∥∗2.\langle\mathbf{y}_1-\mathbf{y}_2,\mathbf{v}_1-\mathbf{v}_2\rangle\ge\sigma\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*^2.⟨y1​−y2​,v1​−v2​⟩≥σ∥y1​−y2​∥∗2​.因为这一不等式对∀y1,y2∈dom(∂f∗),v1∈∂f∗(y1),v2∈∂f∗(y2)\forall\mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2)∀y1​,y2​∈dom(∂f∗),v1​∈∂f∗(y1​),v2​∈∂f∗(y2​)都成立, 由定理6(i)和(iii)的等价性, 就推出f∗f^*f∗是对偶范数下的σ\sigmaσ-强凸函数.

(ii) 设fff是正常闭σ\sigmaσ-强凸函数. 再由共轭次梯度定理(或其推论), ∂f∗(y)=arg⁡max⁡x∈E{⟨x,y⟩−f(x)},∀y∈E∗.\partial f^*(\mathbf{y})=\arg\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{x})\},\quad\forall\mathbf{y}\in\mathbb{E}^*.∂f∗(y)=argx∈Emax​{⟨x,y⟩−f(x)},∀y∈E∗.根据fff的闭强凸性以及定理7的(i), 我们推出对∀y∈E∗\forall\mathbf{y}\in\mathbb{E}^*∀y∈E∗, ∂f∗(y)\partial f^*(\mathbf{y})∂f∗(y)都是单点集. 于是根据第三章定理12, f∗f^*f∗在整个对偶空间E∗\mathbb{E}^*E∗上就都是可微的. 现任取y1,y2∈E∗\mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^*y1​,y2​∈E∗, 并记v1=∇f∗(y1),v2=∇f∗(y2)\mathbf{v}_1=\nabla f^*(\mathbf{y}_1),\,\mathbf{v}_2=\nabla f^*(\mathbf{y}_2)v1​=∇f∗(y1​),v2​=∇f∗(y2​). 再次利用共轭次梯度定理, 这些等式等价于y1∈∂f(v1),y2∈∂f(v2)\mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2)y1​∈∂f(v1​),y2​∈∂f(v2​). 由定理6(i)与(iii)的等价性以及广义Cauchy-Schwarz不等式, ∥y1−y2∥∗⋅∥∇f∗(y1)−∇f∗(y2)∥≥⟨y1−y2,∇f∗(y1)−∇f∗(y2)⟩≥σ∥∇f∗(y1)−∇f∗(y2)∥2,\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*\cdot\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\ge\langle\mathbf{y}_1-\mathbf{y}_2,\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\rangle\ge\sigma\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert^2,∥y1​−y2​∥∗​⋅∥∇f∗(y1​)−∇f∗(y2​)∥≥⟨y1​−y2​,∇f∗(y1​)−∇f∗(y2​)⟩≥σ∥∇f∗(y1​)−∇f∗(y2​)∥2,于是∥∇f∗(y1)−∇f∗(y2)∥≤1σ∥y1−y2∥∗.\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\le\frac{1}{\sigma}\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*.∥∇f∗(y1​)−∇f∗(y2​)∥≤σ1​∥y1​−y2​∥∗​.

3.2 强凸函数的例子

类似于在第四章我们利用共轭运算得到了一些函数的凸性, 这里我们也可以利用共轭关联定理得到许多重要函数的强凸性.

例10 (单位单纯形上的负熵函数) 考虑函数f:Rn→(−∞,∞]f:\mathbb{R}^n\to(-\infty,\infty]f:Rn→(−∞,∞]定义为f(x)={∑i=1nxilog⁡xi,x∈Δn,∞,其它.f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right.f(x)={∑i=1n​xi​logxi​,∞,​x∈Δn​,其它.​根据第四章第4.10节我们知道, 此函数的共轭是对数求和指数函数f∗(y)=log⁡(∑i=1neyi)f^*(\mathbf{y})=\log\left(\sum_{i=1}^ne^{y_i}\right)f∗(y)=log(∑i=1n​eyi​)(从而使凸函数), 而这在例7中已经证明了, 是在ℓ∞\ell_{\infty}ℓ∞​-与ℓ2\ell_2ℓ2​-范数下的111-光滑函数. 由共轭关联定理, fff就是ℓ1\ell_1ℓ1​-和ℓ2\ell_2ℓ2​-范数下的111-强凸函数.

例11 (平方ℓp\ell_pℓp​-范数, p∈(1,2]p\in(1,2]p∈(1,2]) 考虑函数f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R定义为f(x)=12∥x∥p2(p∈(1,2])f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2(p\in(1,2])f(x)=21​∥x∥p2​(p∈(1,2]). 根据第四章第4.15节, f∗(y)=12∥y∥q2,q≥2:1p+1q=1f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert_q^2,\,q\ge2:\frac{1}{p}+\frac{1}{q}=1f∗(y)=21​∥y∥q2​,q≥2:p1​+q1​=1. 由例5, f∗f^*f∗是ℓp\ell_pℓp​-范数下的(q−1)(q-1)(q−1)-光滑函数, 再由共轭关联定理, 就有fff是ℓp\ell_pℓp​-范数下的1q−1=(p−1)\frac{1}{q-1}=(p-1)q−11​=(p−1)-强凸函数.

例12 (ℓ2\ell_2ℓ2​-范数下半球面函数) 考虑下半球面函数f:Rn→(−∞,∞]f:\mathbb{R}^n\to(-\infty,\infty]f:Rn→(−∞,∞],f(x)={−1−∥x∥22,∥x∥2≤1,∞,其它.f(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{x}\Vert_2^2}, & \Vert\mathbf{x}\Vert_2\le1,\\\infty, & 其它.\end{array}\right.f(x)={−1−∥x∥22​​,∞,​∥x∥2​≤1,其它.​根据第四章第4.13节, fff的共轭函数是f∗(y)=∥y∥22+1,f^*(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+1},f∗(y)=∥y∥22​+1​,而例6告诉我们f∗f^*f∗是ℓ2\ell_2ℓ2​-范数下的111-光滑函数. 因此由共轭关联定理, fff是ℓ2\ell_2ℓ2​-范数下的111-强凸函数.

3.3 强凸参数计算小结

下表总结了本章碰到的所有强凸函数.

f(x)f(\mathbf{x})f(x) dom(f)\mathrm{dom}(f)dom(f) 强凸参数 范数 例号
12xTAx+2bTx+c(A∈S++n,b∈Rn,c∈R)\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+2\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R})21​xTAx+2bTx+c(A∈S++n​,b∈Rn,c∈R) Rn\mathbb{R}^nRn λmin⁡(A)\lambda_{\min}(\mathbf{A})λmin​(A) ℓ2\ell_2ℓ2​ 8
12∥x∥2+δC(x)(∅≠C⊂E\frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E}21​∥x∥2+δC​(x)(∅​=C⊂E凸))) CCC 111 欧式范数 9
−1−∥x∥22-\sqrt{1-\Vert\mathbf{x}\Vert^2_2}−1−∥x∥22​​ B∥⋅∥2[0,1]B_{\Vert\cdot\Vert_2}[\mathbf{0},1]B∥⋅∥2​​[0,1] 111 ℓ2\ell_2ℓ2​ 12
12∥x∥p2(p∈(1,2])\frac{1}{2}\Vert\mathbf{x}\Vert_p^2\,(p\in(1,2])21​∥x∥p2​(p∈(1,2]) Rn\mathbb{R}^nRn p−1p-1p−1 ℓp\ell_pℓp​ 11
∑i=1nxilog⁡xi\sum_{i=1}^nx_i\log x_i∑i=1n​xi​logxi​ Δn\Delta_nΔn​ 111 ℓ2\ell_2ℓ2​或ℓ1\ell_1ℓ1​ 10

3.4 极小卷积的光滑性与可微性

本节我们将基于共轭关联定理, 证明在一定条件下, 一个凸函数和一个LLL-光滑凸函数的极小卷积仍然是LLL-光滑的. 特别地, 我们还将导出其梯度的表达式.

定理9 (极小卷积的光滑性) 设f:E→(−∞,∞]f:\mathbb{E}\to(-\infty,\infty]f:E→(−∞,∞]为一正常闭凸函数, ω:E→R\omega:\mathbb{E}\to\mathbb{R}ω:E→R为一LLL-光滑凸函数. 假定f□ωf\square\omegaf□ω是实值的. 则有以下结论成立:
(i) f□ωf\square\omegaf□ω是LLL-光滑的;
(ii) 设x∈E\mathbf{x}\in\mathbb{E}x∈E, 并假定u(x)\mathbf{u(x)}u(x)是min⁡u{f(u)+ω(x−u)}\min_{\mathbf{u}}\{f(\mathbf{u})+\omega(\mathbf{x-u})\}umin​{f(u)+ω(x−u)}的全局极小点. 则∇(f□ω)(x)=∇ω(x−u(x))\nabla(f\square\omega)(\mathbf{x})=\nabla\omega(\mathbf{x-u(x)})∇(f□ω)(x)=∇ω(x−u(x)).

证明: (i) 根据第四章定理11, f□ω=(f∗+ω∗)∗.f\square\omega=(f^*+\omega^*)^*.f□ω=(f∗+ω∗)∗.又因为f,ωf,\omegaf,ω是正常闭凸函数, 根据第四章定理1和定理2, 就推出f∗,ω∗f^*,\omega^*f∗,ω∗也是正常闭凸函数. 由共轭关联定理, ω∗\omega^*ω∗是1L\frac{1}{L}L1​-强凸函数. 因此, 由引理1, f∗+ω∗f^*+\omega^*f∗+ω∗是1L\frac{1}{L}L1​-强凸函数. 同时作为两个闭函数的和, 它也是闭函数. 为使用共轭关联定理, 我们还需证明它是正常函数. 事实上, 根据第四章定理9, (f□ω)∗=f∗+ω∗.(f\square\omega)^*=f^*+\omega^*.(f□ω)∗=f∗+ω∗.因为极小卷积函数f□ωf\square\omegaf□ω是正常凸函数, 因此根据第四章定理2, f∗+ω∗f^*+\omega^*f∗+ω∗是正常函数. 此时, f∗+ω∗f^*+\omega^*f∗+ω∗是正常闭1L\frac{1}{L}L1​-强凸函数, 由共轭关联定理, 就有f□ω=(f∗+ω∗)∗f\square\omega=(f^*+\omega^*)^*f□ω=(f∗+ω∗)∗是LLL-光滑函数.

(ii) 设x∈E\mathbf{x}\in\mathbb{E}x∈E, (f□ω)(x)=f(u(x))+ω(x−u(x)).(f\square\omega)(\mathbf{x})=f(\mathbf{u(x)})+\omega(\mathbf{x}-\mathbf{u(x)}).(f□ω)(x)=f(u(x))+ω(x−u(x)).记z≡∇ω(x−u(x))\mathbf{z}\equiv\nabla\omega(\mathbf{x}-\mathbf{u(x)})z≡∇ω(x−u(x)). 下证∇(f□ω)(x)=z\nabla(f\square\omega)(\mathbf{x})=\mathbf{z}∇(f□ω)(x)=z. 这需要我们证明lim⁡∥ξ∥→0∣ϕ(ξ)∣/∥ξ∥=0\lim_{\Vert\bm{\xi}\Vert\to0}|\phi(\bm{\xi})|/\Vert\bm{\xi}\Vert=0lim∥ξ∥→0​∣ϕ(ξ)∣/∥ξ∥=0, 其中ϕ(ξ)≡(f□ω)(x+ξ)−(f□ω)(x)−⟨ξ,z⟩\phi(\bm{\xi})\equiv(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangleϕ(ξ)≡(f□ω)(x+ξ)−(f□ω)(x)−⟨ξ,z⟩. 由极小卷积的定义, (f□ω)(x+ξ)≤f(u(x))+ω(x+ξ−u(x)).(f\square\omega)(\mathbf{x+\bm{\xi}})\le f(\mathbf{u(x)})+\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)}).(f□ω)(x+ξ)≤f(u(x))+ω(x+ξ−u(x)).于是, ϕ(ξ)=(f□ω)(x+ξ)−(f□ω)(x)−⟨ξ,z⟩≤ω(x+ξ−u(x))−ω(x−u(x))−⟨ξ,z⟩≤⟨ξ,∇ω(x+ξ−u(x))⟩−⟨ξ,z⟩(ω的梯度不等式)=⟨ξ,∇ω(x+ξ−u(x))−∇ω(x−u(x))⟩≤∥ξ∥⋅∥∇ω(x+ξ−u(x))−∇ω(x−u(x))∥∗≤L∥ξ∥2.(ω的L−光滑性)\begin{aligned}\phi(\bm{\xi})&=(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\omega(\mathbf{x}-\mathbf{u(x)})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})\rangle-\langle\bm{\xi},\mathbf{z}\rangle\:(\omega的梯度不等式)\\&=\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\rangle\\&\le\Vert\bm{\xi}\Vert\cdot\Vert\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\Vert_*\\&\le L\Vert\bm{\xi}\Vert^2.\:(\omega的L-光滑性)\end{aligned}ϕ(ξ)​=(f□ω)(x+ξ)−(f□ω)(x)−⟨ξ,z⟩≤ω(x+ξ−u(x))−ω(x−u(x))−⟨ξ,z⟩≤⟨ξ,∇ω(x+ξ−u(x))⟩−⟨ξ,z⟩(ω的梯度不等式)=⟨ξ,∇ω(x+ξ−u(x))−∇ω(x−u(x))⟩≤∥ξ∥⋅∥∇ω(x+ξ−u(x))−∇ω(x−u(x))∥∗​≤L∥ξ∥2.(ω的L−光滑性)​下面仅需证明另一边: ϕ(ξ)≥−L∥ξ∥2\phi(\bm{\xi})\ge -L\Vert\bm{\xi}\Vert^2ϕ(ξ)≥−L∥ξ∥2. 因为f□ωf\square\omegaf□ω是凸函数, 从而ϕ\phiϕ也是. 因为ϕ(0)=0\phi(\mathbf{0})=0ϕ(0)=0, 所以0=ϕ(0)≤ϕ(ξ)+ϕ(−ξ),∀ξ0=\phi(\mathbf{0})\le\phi(\bm{\xi})+\phi(-\bm{\xi}),\,\forall\bm{\xi}0=ϕ(0)≤ϕ(ξ)+ϕ(−ξ),∀ξ. 从而ϕ(ξ)≥−ϕ(−ξ)≥−L∥ξ∥2\phi(\bm{\xi})\ge-\phi(-\bm{\xi})\ge-L\Vert\bm{\xi}\Vert^2ϕ(ξ)≥−ϕ(−ξ)≥−L∥ξ∥2.

例13 (12dC2\frac{1}{2}d_C^221​dC2​的111-光滑性) 假设E\mathbb{E}E是欧式空间, C⊂EC\subset\mathbb{E}C⊂E为一非空闭凸集. 考虑函数φC(x)=12dC2(x)\varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x})φC​(x)=21​dC2​(x). 我们已经在例3中证明了它是111-光滑的. 这里我们再提供基于定理9的第二种证明. 因为φC=δC□h\varphi_C=\delta_C\square hφC​=δC​□h, 其中h(x)=12∥x∥2h(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2h(x)=21​∥x∥2, 且hhh为实值111-光滑凸函数, δC\delta_CδC​为正常闭凸函数. 于是由定理9, φC\varphi_CφC​是111-光滑函数.


  1. 这里∥A∥p,q=max⁡{∥Ax∥q:∥x∥p≤1}\Vert\mathbf{A}\Vert_{p,q}=\max\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\}∥A∥p,q​=max{∥Ax∥q​:∥x∥p​≤1}或可参见第一章. ↩︎

  2. 根据诱导范数的定义, 这样的x~\tilde\mathbf{x}x~是存在的. ↩︎

  3. 事实上ψC\psi_CψC​的凸性并不需要CCC是凸集; 但是投影算子的非增大性是需要的. ↩︎

  4. 从这一不等式我们可知, 下降引理实际上还告诉我们, 如果∇f(x)\nabla f(\mathbf{x})∇f(x)与y−x\mathbf{y-x}y−x成钝角且∥x−y∥\Vert\mathbf{x-y}\Vert∥x−y∥充分小, 则当fff从x\mathbf{x}x移动到y\mathbf{y}y时, 函数值至少下降⟨∇f(x),x−y⟩−L2∥x−y∥2\langle\nabla f(\mathbf{x}),\mathbf{x-y}\rangle-\frac{L}{2}\Vert\mathbf{x-y}\Vert^2⟨∇f(x),x−y⟩−2L​∥x−y∥2. 这也是为什么称这个引理为下降引理的原因. ↩︎

  5. 定理2中关于函数凸性的假设是很关键的. 考虑f:Rn→Rf:\mathbb{R}^n\to\mathbb{R}f:Rn→R定义为f(x)=−12∥x∥22f(\mathbf{x})=-\frac{1}{2}\Vert\mathbf{x}\Vert_2^2f(x)=−21​∥x∥22​. 它在ℓ2\ell_2ℓ2​-范数下是111-光滑的, 但不是LLL-光滑的(L<1L<1L<1, 见例1). 但由于fff是凹函数, 因此f(y)≤f(x)+⟨∇f(x),y−x⟩f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\ranglef(y)≤f(x)+⟨∇f(x),y−x⟩, 这表明定理2的(ii)对L=0L=0L=0成立. 但显然fff并不是000-光滑函数. ↩︎

  6. 这里的“全空间”假设是为了在处理时的方便. ↩︎

  7. 特别地, 我们有∇gx(x)=0\nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0}∇gx​(x)=0, 再结合gxg_{\mathbf{x}}gx​是凸函数, 我们推出x\mathbf{x}x是gxg_{\mathbf{x}}gx​的全局极小点:gx(x)≤gx(z),∀z∈E.g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}.gx​(x)≤gx​(z),∀z∈E. ↩︎

  8. 这里在UUU上的二次连续可微意思是, fff的二阶偏导数均在UUU上连续. ↩︎

  9. 这里[x,y][\mathbf{x,y}][x,y]是在第一章第五节中定义的闭线段, 而不是矩形盒. ↩︎

  10. 这里的“可微”, 是按第三章的定义4定义的可微, 内积是点积. ↩︎

  11. 这里欧式空间的假设是关键的. 例如, 考虑单位单纯形上的负熵函数f(x)={∑i=1nxilog⁡xi,x∈Δn,∞,其它.f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right.f(x)={∑i=1n​xi​logxi​,∞,​x∈Δn​,其它.​(之后我们会在例10中证明fff是ℓ1\ell_1ℓ1​-范数下的111-强凸函数) 注意ℓ1\ell_1ℓ1​-范数与空间上的点积是不相容的. 这时函数g(x)=f(x)−α∥x∥12g(\mathbf{x})=f(\mathbf{x})-\alpha\Vert\mathbf{x}\Vert_1^2g(x)=f(x)−α∥x∥12​对∀α>0\forall\alpha>0∀α>0都是凸函数. 这是因为在fff的有效域上恒有∥x∥1=1\Vert\mathbf{x}\Vert_1=1∥x∥1​=1. 如果直接用定理5的结论, 会推出fff对∀α>0\forall\alpha>0∀α>0都是α\alphaα-强凸函数. 但一个函数是不可能如此的. ↩︎

  12. 证明可见Jean-Baptiste Hiriart-Urruty与Claude Lemarechal的专著《Convex Analysis and Minimization Algorithms I》的第26页定理4.2.4 ↩︎

  13. 证明可见R. Tyrrell Rockafellar的专著《Convex Analysis》的第45页定理6.1 ↩︎

  14. 这表明fff以一个严格凸二次函数为下界. ↩︎

  15. (iii)与定理2的(iv)是十分相像的. 这也是建立光滑函数与强凸函数联系的关键. 而架起这一桥梁的是共轭运算. 这可见第四章的共轭次梯度定理. 详细的证明见定理8. ↩︎

  16. 存在性来自于线段原理. ↩︎

  17. 根据第二章定理10)定理10以及此一元函数闭凸. ↩︎

  18. 将fff的有效域设成全空间是为了在使用f∗f^*f∗次微分时遇到不必要的麻烦. 而fff实值其实是保证了fff是闭函数. ↩︎

First Order Methods in Optimization Ch5. Smoothness and Strong Convexity相关推荐

  1. Paper:《First Order Motion Model for Image Animation》翻译与解读

    Paper:<First Order Motion Model for Image Animation>翻译与解读 目录 <First Order Motion Model for ...

  2. Paper/CV之IA:《First Order Motion Model for Image Animation图像动画的一阶运动模型》翻译与解读

    Paper/CV之IA:<First Order Motion Model for Image Animation图像动画的一阶运动模型>翻译与解读 目录 <First Order ...

  3. (分子优化BenchMark)Sample Efficiency Matters: A Benchmark for Practical Molecular Optimization(PMO)

    code and paper: https://arxiv.org/abs/2206.12411 SMILES的benchmark: [13]GuacaMol: Benchmarking Models ...

  4. 【First-order Methods】 8 Primal and Dual Projected Subgradient Methods

    参考文献:first-order methods in optimization: Amir Beck 目录 1  From Gradient Descent to Subgradient Desce ...

  5. METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS 翻译(七)

    METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS(七) 3.7. 最后的话 我们已经讨论了许多解决非线性最小二乘问题的算法.它们都出现在任何好的程序库中,并且 ...

  6. Toward a More Complete, Flexible, and Safer Speed Planning for Autonomous Driving via Convex Optimiz

    Toward a More Complete, Flexible, and Safer Speed Planning for Autonomous Driving via Convex Optimiz ...

  7. CVPR 2011 全部论文标题和摘要

    CVPR 2011 Tian, Yuandong; Narasimhan, Srinivasa G.; , ■Rectification and 3D reconstruction of curved ...

  8. 如何高效的通过BP算法来训练CNN

    < Neural Networks Tricks of the Trade.2nd>这本书是收录了1998-2012年在NN上面的一些技巧.原理.算法性文章,对于初学者或者是正在学习NN的 ...

  9. Indexes and Indexing

    许多因素决定了 MySQL 的性能,但索引是最为特殊的,因为没有它们就无法实现性能.您可以删除其他因素(查询[query].模式[schema].数据[data]等)并仍然获得性能,但删除索引会将性能 ...

  10. Stanford University courses of computer science department(斯坦福计算机系课程设置)

    斯坦福学科目前分为7个department:Business, Earth, Education, Engineering, Humanities & Sciences, Law, Medic ...

最新文章

  1. 简易快速的开发,需要一个快速开发平台来支持
  2. 【新星计划】MATLAB-字符串处理
  3. springMVC上传下载
  4. 区块链系列教程之:比特币的世界
  5. Android开发之解决ListView和ScrollView滑动冲突的方法
  6. web3@0.20.1 在依据abi创建智能合约的时候报错 TypeError: web3.eth.contract is not a function
  7. 老年人自学计算机,老年人怎样学电脑?请问从网上能找到学习资吗?
  8. SoapUI使用方法-01发送http请求
  9. yii mysql 查询 类型转换_Yii2.0 API改造(返回数据库对应字段数据类型)
  10. 关于笔算递归的通用算法——迭代
  11. python数字右对齐_python用format把float、int等数字字符串化设置左对齐右对齐居中对齐,宽度,保留几位...
  12. android 单独编译contacts,Android编译全过程
  13. ADB工具包下载及安装
  14. 深入理解android虚拟机
  15. matlab 实现disparity,disparity-map 利用matlab立体匹配,可获得 图像左右视图的视差图代码,效果不错238万源代码下载- www.pudn.com...
  16. 2019 NeurIPS | Graph Transformer Networks
  17. 【已解决】RuntimeError: module compiled against API version 0xc but this version of numpy is 0xb
  18. 护理学跨考计算机专业,什么是跨专业考研?
  19. 微软原版系统安装Win7篇
  20. 笔记③:牛客校招冲刺集训营---C++工程师(5.9 C++新特性)

热门文章

  1. 手机怎么模拟125k卡_NFC手机能模拟门禁卡吗?
  2. 机器学习“剧透”权游大结局:三傻最先领盒饭,龙妈、小恶魔笑到最后
  3. 个人愚见: React 和 Vue 区别
  4. 岗位:python后端工程师
  5. ECUG Con 2018 早鸟票热卖中 | 大咖聚首 探索云计算下一个十年
  6. 学习挖掘机和程序员哪个好
  7. EIGamal encryption VS Pairing encryption
  8. JS 案例 树形菜单
  9. windows云服务器,如何使用windows云服务器
  10. Cura参数设置-避免支撑拆除带来的困难