文章目录

  • 1 基本性质和例子
  • 2 保留凸性的运算
  • 3 共轭函数
  • 4 拟凸函数
  • 5 对数凹/对数凸函数
  • 6 关于广义不等关系的凸性
  • 参考资料

最优化知识笔记整理汇总,超级棒

1 基本性质和例子

定义\large\color{#70f3ff}{\boxed{\color{brown}{定义 } }}定义​

一个函数 f:Rn→Rf: R^n\rightarrow Rf:Rn→R 是凸的,如果定义域 domfdom\,fdomf 是凸集,并且对于所有 x,y∈f,θ≤1x,y\in f, \theta\leq 1x,y∈f,θ≤1 ,我们有
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)(1)f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y)\tag1 f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)(1)

几何解释:点 (x,f(x))(x,f(x))(x,f(x)) 和 (y,f(y))(y,f(y))(y,f(y)) 之间的线段在 fff 对应的图像上方。

凸函数的图表示。函数上任意两点之间的弦(即线段)位于函数的上方。凸函数的图表示。函数上任意两点之间的弦(即线段)位于函数的上方。 凸函数的图表示。函数上任意两点之间的弦(即线段)位于函数的上方。

  • 函数 fff 是严格凸的,则不等式(1)在 x≠yx\ne yx​=y ,且 0<θ<10<\theta <10<θ<1 时严格成立.

  • 函数 fff 是的,当 −f-f−f 是凸的,严格凹,当 −f-f−f 是严格凸的。

  • 仿射函数既是凸的也是凹的,反过来,既凹又凸的函数是仿射的。

  • 一个函数 fff 是凸的当且仅当对任意 x∈domfx\in dom\,fx∈domf 和任意 vvv ,函数 g(t)=f(x+tv)g(t)=f(x+tv)g(t)=f(x+tv) 是凸的, {t∣x+tv∈domf}.\{t|x+tv\in dom\,f\}.{t∣x+tv∈domf}.这个性质非常有用,因为它允许我们通过将一个函数限定为一条直线来检查它是否为凸函数。

  • 函数f(x):C→Rf (x): C→Rf(x):C→R,其中CCC是非空凸集,如果是凹函数,则有
    f(θx+(1−θ)y)≥θf(x)+(1−θ)f(y)f(\theta x+(1-\theta)y)\geq \theta f(x)+(1-\theta)f(y) f(θx+(1−θ)y)≥θf(x)+(1−θ)f(y)

一个凸函数在其域的相对内部是连续的;它只能在其相对边界上有不连续。

扩展值扩展\large\color{#70f3ff}{\boxed{\color{brown}{扩展值扩展 } }}扩展值扩展​

将凸函数扩展到整个 RnR^nRn ,通常令它在定义域之外取 ∞\infty∞ 。如果 fff 是凸函数那么它的拓展为 f~:Rn→R∪{∞}\widetilde{f} : R^n\rightarrow R \cup \{\infty\}f​:Rn→R∪{∞} ,扩展值定义:
f~(x)={f(x)x∈domf∞x∉domf\widetilde{f}(x)=\left \{\begin{aligned} f(x)\;\; x\in domf\\ \infty\;\; x\not\in domf \end{aligned}\right. f​(x)={f(x)x∈domf∞x​∈domf​
如果函数 f:Rn→Rf: \textbf{R}^n \rightarrow \textbf{R}f:Rn→R 是凹函数,定义其延拓(extended-value extentions)为f~:Rn→R∪{−∞}\tilde{f}: \textbf{R}^n \rightarrow \textbf{R} \cup \{ -\infty\}f~​:Rn→R∪{−∞} :
f~(x)={f(x)x∈domf−∞x∉domf.\tilde{f}(x) =\left\{\begin{array}{ll} f(x) &x \in \textbf{dom}f\\ -\infty &x \notin \textbf{dom}f. \end{array}\right. f~​(x)={f(x)−∞​x∈domfx∈/​domf.​
这样拓展后,不需要每次指出 x∈domfx \in \textbf{dom}fx∈domf

一阶条件\large\color{#70f3ff}{\boxed{\color{brown}{一阶条件 } }}一阶条件​

令函数 fff 是可微的(也就是它的梯度 ∇f\nabla f∇f 在开集的domfdom\,fdomf每个点上都存在)。那么 fff 是凸的,充要条件是 domfdom\,fdomf是凸的,并且对所有的 x,y∈domfx,y\in dom~fx,y∈dom f 有:

f(y)≥f(x)+∇f(x)T(y−x)(2)f(y)\geq f(x)+\nabla f(x)^T(y-x)\tag{2} f(y)≥f(x)+∇f(x)T(y−x)(2)

在每个点上,函数图像都高于在该点的切线。

如果fff是凸可微的,对所有的 x,y∈domfx,y\in dom~fx,y∈dom f 有 f(x)+∇f(x)T(y−x)≤f(y)f(x)+\nabla f(x)^T(y-x)\leq f(y)f(x)+∇f(x)T(y−x)≤f(y)

解释:yyy 的仿射函数 f(x)+∇f(x)T(y−x)f(x)+\nabla f(x)^T(y-x)f(x)+∇f(x)T(y−x) 是 fff 在靠近 xxx 处的一阶泰勒近似。(2)不等式表达了这个一阶泰勒近似是函数的全局下限(global underestimator),反过来,如果函数的一阶泰勒近似总是函数的全局下限,那么这个函数是凸的。

  • 如果 ∇f(x)=0\nabla f(x)=0∇f(x)=0 ,那么对于所有 y∈domfy\in dom~fy∈dom f ,有 f(y)≥f(x)f(y)\geq f(x)f(y)≥f(x) , 也就是在 xxx 处 fff 取到全局最小值( xxx 是全局最小值)。

fff 是严格凸的,当且仅当 domfdom\,fdomf是凸的,且对于所有 x,y∈domf,x≠yx,y\in domf, x\ne yx,y∈domf,x​=y 有
f(y)>f(x)+∇f(x)T(y−x)(3)f(y)>f(x)+\nabla f(x)^T(y-x)\tag3 f(y)>f(x)+∇f(x)T(y−x)(3)

  • 函数fff 是凹函数的充要条件是**domf\textbf{dom}fdomf 是凸集且对∀x,y∈domf\forall x,y \in \textbf{dom}~f∀x,y∈dom f**均有
    f(y)≤f(x)+∇f(x)T(y−x)(4)f(y)\leq f(x)+\nabla f(x)^T(y-x) \tag4 f(y)≤f(x)+∇f(x)T(y−x)(4)

二阶条件\large\color{#70f3ff}{\boxed{\color{brown}{二阶条件 } }}二阶条件​

设函数 fff 是二阶可微的,也就是它在开集 domfdom~fdom f 的每个点上都存在二阶导数 ∇2f\nabla^2 f∇2f。那么 是凸的fff ,充要条件是它的二阶导数是半正定的:∀x∈domf\forall x\in domf∀x∈domf
∇2f(x)⪰0(5)\nabla^2f(x)\succeq 0\tag{5} ∇2f(x)⪰0(5)
假设SSS是一个非空开凸集,且f(x):S→Rf (x): S→Rf(x):S→R是二阶可微的。设H(x)H(x)H(x)表示f(x)f (x)f(x)的HessianHessianHessian,则当且仅当H(x)H(x)H(x)对所有x∈Sx∈Sx∈S是正半定时,f(x)f (x)f(x)是一个凸函数。

几何解释:函数图像在每个定义域的每个点上都有正的曲率(curvature)。

  • 函数 fff 是的,充要条件是 是domfdom~fdom f凸的,并且 ∇2f(x)⪯0\nabla^2f(x)\preceq 0∇2f(x)⪯0 , ∀x∈domf\forall x\in dom~f∀x∈dom f
  • 如果 ∀x∈domf\forall x\in dom~f∀x∈dom f , ∇2f(x)≻0\nabla^2f(x)\succ 0∇2f(x)≻0 ,那么 是*fff*严格凸的。反过来不成立,例如 f(x)=x4f(x)=x^4f(x)=x4 是严格凸的,但是在 x=0x=0x=0 处二阶导数为 000 .

例子\large\color{#70f3ff}{\boxed{\color{brown}{例子 } }}例子​

在 RRR 上 :

  • eax,∀a∈Re^{a x}, \forall a \in Reax,∀a∈R, 在 RRR 上凸。
  • xax^{a}xa, 当 a≥1a \geq 1a≥1 或 a≤0a \leq 0a≤0, 在 R++R_{++}R++​ 上凸, 当 0≤a≤10 \leq a \leq 10≤a≤1 时凹。
  • ∣x∣p,p≥1|x|^{p}, p \geq 1∣x∣p,p≥1, 在R上凸。
  • log⁡x\log xlogx, 在 R++R_{++}R++​ 上凸。
  • 负嫡 xlog⁡xx \log xxlogx, 在 R+R_{+}R+​ 和 R++R_{++}R++​ 上凸。

在 RnR^{n}Rn 上

  • 范数,凸
  • 最大值函数,凸
  • 二次方程函数: f(x,y)=x2/yf(x,y)=x^2/yf(x,y)=x2/y ,domf=R×R++={(x,y)∈Rn∣y>0}dom~f=R\times R_{++}=\{(x,y)\in R^n| y>0\}dom f=R×R++​={(x,y)∈Rn∣y>0} , 凸。
  • f(x)=log(ex1+...+exn)f(x)=log(e^{x_1}+...+e^{x_n})f(x)=log(ex1​+...+exn​) , 凸。
  • 几何平均 f(x)=(∏i=1nxi)1/nf(x)=\left(\prod_{i=1}^{n} x_{i}\right)^{1 / n}f(x)=(∏i=1n​xi​)1/n, 在 R++nR_{++}^{n}R++n​ 上凹。
  • f(X)=log⁡det⁡Xf(X)=\log \operatorname{det} Xf(X)=logdetX, 在 S++nS_{++}^{n}S++n​ 上凹。

子层集\large\color{#70f3ff}{\boxed{\color{brown}{子层集 } }}子层集​

函数 f:Rn→Rf:R^n\rightarrow Rf:Rn→R 的一个α−子层集\alpha -子层集α−子层集是
Cα={x∈domf∣f(x)≤α}(6)C_{\alpha}=\{x\in domf | f(x)\leq \alpha\}\tag{6} Cα​={x∈domf∣f(x)≤α}(6)

  • 凸函数的子层集是凸集,对于所有的 α\alphaα 。反过来不对,例如 f(x)=−exf(x)=-e^xf(x)=−ex 在 RRR 上不是凸的,但是它的所有子层集都是凸集。
  • 凹函数 f:Rn→Rf: \mathbf{R}^{n} \rightarrow \mathbf{R}f:Rn→R 的 α−\alpha-α− 超水平集 被定义为 {x∈dom⁡f∣f(x)≥α}\{x \in \operatorname{dom} f \mid f(x) \geq \alpha\}{x∈domf∣f(x)≥α}, 也就是定义域中使得函数值不小于 α\alphaα 的元素的集合。

对于凹函数, α\alphaα 取任意值时的 α−\alpha-α− 超水平集均为凸集。反过来不成立!

图\large\color{#70f3ff}{\boxed{\color{brown}{图 } }}图​

一个函数 f:Rn→Rf: R^{n} \rightarrow Rf:Rn→R 的图像是
{(x,f(x))∣x∈dom⁡f}(7)\{(x, f(x)) \mid x \in \operatorname{dom} f\}\tag{7} {(x,f(x))∣x∈domf}(7)
它是 Rn+1R^{n+1}Rn+1 的子集。定义函数 fff 的, Rn→RR^{n} \rightarrow RRn→R :

上境图: epif={(x,t)∣x∈domf,f(x)≤t}epi\; f = \{(x,t)| x\in dom f , f(x)\leq t\}epif={(x,t)∣x∈domf,f(x)≤t}

下境图: hypof={(x,t)∣t≤f(x)}hypo\;f = \{(x,t)| t\leq f(x)\}hypof={(x,t)∣t≤f(x)}

  • 函数是凸的当且仅当它的上境图是一个凸集。
  • 函数是凹的当且仅当它的下境图是一个凸集。

函数f的上境图,用阴影表示。下界的颜色更深,是f的图像。函数f的上境图,用阴影表示。下界的颜色更深,是f的图像。 函数f的上境图,用阴影表示。下界的颜色更深,是f的图像。

Jensen不等式及其拓展\large\color{#70f3ff}{\boxed{\color{brown}{ Jensen不等式及其拓展} }}Jensen不等式及其拓展​

基本不等式 (1)(1)(1)
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)(8)f(\theta x+(1-\theta) y) \leq \theta f(x)+(1-\theta) f(y)\tag{8} f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)(8)
有时被叫做Jensen不等式。

  • 它可以拓展到多个点的凸组合:

如果 fff 是凸的, x1,…,xk∈dom⁡f,θ1,…,θk≥0,θ1+…+θk=1x_{1}, \ldots, x_{k} \in \operatorname{dom} f, \theta_{1}, \ldots, \theta_{k} \geq 0, \theta_{1}+\ldots+\theta_{k}=1x1​,…,xk​∈domf,θ1​,…,θk​≥0,θ1​+…+θk​=1 那么
f(θ1x1+…+θkxk)≤θ1f(x1)+…+θkf(xk)(9)f\left(\theta_{1} x_{1}+\ldots+\theta_{k} x_{k}\right) \leq \theta_{1} f\left(x_{1}\right)+\ldots+\theta_{k} f\left(x_{k}\right)\tag{9} f(θ1​x1​+…+θk​xk​)≤θ1​f(x1​)+…+θk​f(xk​)(9)
还可以拓展到无限和,积分,期望:

积分: 如果 p(x)≥0p(x) \geq 0p(x)≥0 在 S⊆dom⁡fS \subseteq \operatorname{dom} fS⊆domf 上, ∫Sp(x)dx=1\int_{S} p(x) d x=1∫S​p(x)dx=1, 那么
f(∫Sp(x)dx)≤∫Sf(x)p(x)dxf\left(\int_{S} p(x) d x\right) \leq \int_{S} f(x) p(x) d x f(∫S​p(x)dx)≤∫S​f(x)p(x)dx
期望: 如果 xxx 是随机变量, x∈domfx \in d o m fx∈domf 的概率为1,且 fff 是凸函数,那么有
f(Ex)≤Ef(x)f(E x) \leq E f(x) f(Ex)≤Ef(x)
如果fff不凸,有一个 xxx 是随机变量, x∈domfx \in d o m fx∈domf 的概率为 1, 使得 f(Ex)>Ef(x)f(E x)>E f(x)f(Ex)>Ef(x).

Jensen不等式简单的一种:
f(x+y2)≤f(x)+f(y)2f\left(\frac{x+y}{2}\right) \leq \frac{f(x)+f(y)}{2} f(2x+y​)≤2f(x)+f(y)​
其他不等式\large\color{#70f3ff}{\boxed{\color{brown}{ 其他不等式} }}其他不等式​

很多关于凸函数的不等式都可以由Jensen不等式导出。例如:

均值不等式: ab≤a+b2\quad \sqrt{a b} \leq \frac{a+b}{2}ab​≤2a+b​,

Hölder不等式: 对于 p>1,1p+1q=1,x,y∈Rnp>1, \quad \frac{1}{p}+\frac{1}{q}=1, \quad x, y \in \mathbf{R}^{n}p>1,p1​+q1​=1,x,y∈Rn, 有
∑i=1nxiyi≤(∑i=1n∣xi∣p)1p(∑i=1n∣yi∣q)1q\sum_{i=1}^{n} x_{i} y_{i} \leq\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}}\left(\sum_{i=1}^{n}\left|y_{i}\right|^{q}\right)^{\frac{1}{q}} i=1∑n​xi​yi​≤(i=1∑n​∣xi​∣p)p1​(i=1∑n​∣yi​∣q)q1​

2 保留凸性的运算

非负加权和\large\color{#70f3ff}{\boxed{\color{brown}{ 非负加权和} }}非负加权和​

如果 f1,...,fmf_1,...,f_mf1​,...,fm​ 是凸函数,他们的集合是一个凸锥——凸函数的非负加权和 f=w1f1+...+wmfm,(w1,...,wm≥0)f=w_1f_1+...+w_mf_m, (w_1,...,w_m\geq 0)f=w1​f1​+...+wm​fm​,(w1​,...,wm​≥0) 是凸的。

  • 还可以拓展到积分:如果 f(x,y)f(x,y)f(x,y) 对于xxx是凸的,对于每个 y∈Ay\in Ay∈A ,且w(y)≥0w(y)\geq 0w(y)≥0, ∀y∈A\forall y\in A∀y∈A ,那么函数 g(x)=∫Aw(y)f(x,y)dyg(x)=\int_A w(y)f(x,y)dyg(x)=∫A​w(y)f(x,y)dy 对于 xxx 是凸的。

与仿射函数的复合\large\color{#70f3ff}{\boxed{\color{brown}{ 与仿射函数的复合} }}与仿射函数的复合​

令 f:Rn→R,A∈Rn×m,b∈Rf: R^{n} \rightarrow R, A \in R^{n \times m}, b \in Rf:Rn→R,A∈Rn×m,b∈R 。定义 g:Rm→Rg: R^{m} \rightarrow Rg:Rm→R 为
g(x)=f(Ax+b),domg={a∣Ax+b∈dom⁡f}(10)g(x)=f(A x+b), domg=\{a \mid A x+b \in \operatorname{dom} f\}\tag{10} g(x)=f(Ax+b),domg={a∣Ax+b∈domf}(10)
那么如果 fff 是凸函数, ggg 也是凸函数。

逐点最大pointwisemaximum\large\color{#70f3ff}{\boxed{\color{brown}{ 逐点最大 pointwise \ \ maximum} }}逐点最大pointwise  maximum​

如果 f1,f2f_{1}, f_{2}f1​,f2​ 是凸函数,那么他们的逐点最大 fff, 定义为
f(x)=max⁡{f1(x),f2(x)}(11)f(x)=\max \left\{f_{1}(x), f_{2}(x)\right\}\tag{11} f(x)=max{f1​(x),f2​(x)}(11)
定义域 domf=dom⁡f1∩domf2d o m f=\operatorname{dom} f_{1} \cap d o m f_{2}domf=domf1​∩domf2​ . fff也是凸集。可以拓展到多个凸函数的逐点最大。

逐点上确界pointwisesupremum\large\color{#70f3ff}{\boxed{\color{brown}{ 逐点上确界 pointwise \ \ supremum} }}逐点上确界pointwise  supremum​

如果对于每个 y∈A,f(x,y)y \in A, f(x, y)y∈A,f(x,y) 关于 xxx 是凸的, 那么函数
g(x)=sup⁡y∈Af(x,y)(12)g(x)=\sup _{y \in A} f(x, y)\tag{12} g(x)=y∈Asup​f(x,y)(12)
关于 xxx 是凸的。 ggg 的定义域是
domg={x∣(x,y)∈domf,∀y∈A,supy∈Af(x,y)<∞}dom g=\{x|(x,y)\in dom f, \forall y\in A, \underset{y\in A}{sup}f(x,y)<\infty\} domg={x∣(x,y)∈domf,∀y∈A,y∈Asup​f(x,y)<∞}

  • 类似地,一组凹函数的逐点下确界是凹函数。
  • epig=⋂y∈Aepif(⋅,y)epi\, g =\bigcap _ {y\in A}epi \, f(\cdot,y)epig=⋂y∈A​epif(⋅,y) .

最小化\large\color{#70f3ff}{\boxed{\color{brown}{ 最小化} }}最小化​

如果 fff 关于 (x,y)(x, y)(x,y) 是凸函数,并且 CCC 是非空凸集,那么函数
g(x)=inf⁡g∈Cf(x,y)(13)g(x)=\inf _{g \in C} f(x, y)\tag{13} g(x)=g∈Cinf​f(x,y)(13)
是关于 xxx 的凸函数,对于所有的 xxx 有 g(x)>−∞g(x)>-\inftyg(x)>−∞ 的定义域是 domfd o m fdomf 到 xxx 轴的投影:
domg={x∣(x,y)∈domf,for some y∈C}(14)dom g=\{x| (x,y)\in domf, \text{for some y} \in C\}\tag{14} domg={x∣(x,y)∈domf,for some y∈C}(14)
函数的透视\large\color{#70f3ff}{\boxed{\color{brown}{ 函数的透视} }}函数的透视​

函数 f:Rn→R,ff: R^{n} \rightarrow R, \quad ff:Rn→R,f 的透视函数为
g:Rn+1→R,g(x,t)=tf(x/t)domg={(x,t)∣x/t∈domf,t>0}(15)g: R^{n+1} \rightarrow R, \quad g(x, t)=t f(x / t)\\ d o m g=\{(x, t) \mid x / t \in d o m f, t>0\}\tag{15} g:Rn+1→R,g(x,t)=tf(x/t)domg={(x,t)∣x/t∈domf,t>0}(15)
透视运算保存凸性:如果函数 fff 是凸的, 那么它的透视函数 ggg 也是凸的; 如果 fff 是凹的, 那 么 ggg 也是凹的。

3 共轭函数

定义和例子\large\color{#70f3ff}{\boxed{\color{brown}{ 定义和例子} }}定义和例子​

令 f:Rn→Rf: R^{n} \rightarrow Rf:Rn→R 函数 f∗:Rn→Rf^{*}: R^{n} \rightarrow Rf∗:Rn→R 定义为
f∗(y)=sup⁡x∈domf (yTx−f(x))(16)f^{*}(y)=\sup _{x \in \text { domf }}\left(y^{T} x-f(x)\right)\tag{16} f∗(y)=x∈ domf sup​(yTx−f(x))(16)
叫做函数 fff 的共轭

共轭函数的定义域 由使得上述上确界有限的 y,y∈Rny, y \in R^{n}y,y∈Rn 组成。也就是说在 dom⁡f\operatorname{dom} fdomf 上 yTx−f(x)y^{T} x-f(x)yTx−f(x) 是有界的。如图:

共轭函数f∗(y)为线性函数xy与f(x)之间的最大间隙,如图虚线所示。如果f是可微的,它发生在点x处f′(x)=y。共轭函数f^∗(y) 为线性函数xy与f(x)之间的最大间隙,如图虚线所示。如果f是可微的,它发生在点x处f′(x) = y。 共轭函数f∗(y)为线性函数xy与f(x)之间的最大间隙,如图虚线所示。如果f是可微的,它发生在点x处f′(x)=y。

  • 共轭函数 f∗f^*f∗ 是凸的,因为它是关于 y 的凸函数的逐点上确界,这一点为真不论 fff 是否是凸的。

基本性质\large\color{#70f3ff}{\boxed{\color{brown}{ 基本性质} }}基本性质​

[Fenchel不等式]

由共轭函数的定义,我们有
f(x)+f∗(y)≥xTy,∀x,y(17)f(x)+f^*(y)\geq x^T y,\forall x,y\tag{17} f(x)+f∗(y)≥xTy,∀x,y(17)
叫做Fenchel不等式。

例如对于 f(x)=(1/2)xTQxf(x)=(1/2)x^TQxf(x)=(1/2)xTQx , Q∈S++nQ\in S^n_{++}Q∈S++n​ 有xTy≤(1/2)xTQx+(1/2)yTQ−1yx^Ty\leq (1/2)x^TQx+(1/2)y^TQ^{-1}yxTy≤(1/2)xTQx+(1/2)yTQ−1y.

[共轭的共轭]

如果函数 fff 是凸且闭的,那么 f∗∗=ff^{**}=ff∗∗=f .

[可微函数]

可微函数 fff 的共轭, 也叫做 fff 的 Legendre变换。令 fff 是凸且可微的, domf=Rnd o m f=R^{n}domf=Rn, 任意使 yTx−f(x)y^{T} x-f(x)yTx−f(x) 取最大值的 x∗x^{*}x∗ 都满足 y=∇f(x∗)y=\nabla f\left(x^{*}\right)y=∇f(x∗) 。

反过来如果 x∗x^{*}x∗ 满足 y=∇f(x∗)y=\nabla f\left(x^{*}\right)y=∇f(x∗), 那么 x∗x^{*}x∗ 使得 yTx−f(x)y^{T} x-f(x)yTx−f(x) 最大化。因此如果 y=∇f(x∗)y=\nabla f\left(x^{*}\right)y=∇f(x∗) 我们有:
f∗(y)=x∗T∇f(x∗)−f(x∗)(18)f^{*}(y)=x^{* T} \nabla f\left(x^{*}\right)-f\left(x^{*}\right)\tag{18} f∗(y)=x∗T∇f(x∗)−f(x∗)(18)
这允许我们能为任何 yyy 通过得到 f∗(y)f^{*}(y)f∗(y) 来解出梯度方程 y=∇f(z)y=\nabla f(z)y=∇f(z) 。

另一种表示, 令 z∈Rnz \in R^{n}z∈Rn 是任意的, 定义 y=∇f(z)y=\nabla f(z)y=∇f(z), 那么有 f∗(y)=zT∇f(z)−f(z)f^{*}(y)=z^{T} \nabla f(z)-f(z)f∗(y)=zT∇f(z)−f(z)

[伸缩变换,与仿射变换的复合]

对于 a>0,b∈Ra>0, b \in Ra>0,b∈R, 函数 g(x)=af(x)+bg(x)=a f(x)+bg(x)=af(x)+b 的共轭是

g∗(y)=af∗(A−1y)−bTA−Ty⋅g^{*}(y)=a f^{*}\left(A^{-1} y\right)-b^{T} A^{-T} y \cdotg∗(y)=af∗(A−1y)−bTA−Ty⋅ 定义域 domg∗=ATdomf∗.d o m g^{*}=A^{T} d o m f^{*} .domg∗=ATdomf∗.

[独立函数的和]

如果 f(u,v)=f1(u)+f2(v),f1,f2f(u, v)=f_{1}(u)+f_{2}(v), \quad f_{1}, f_{2}f(u,v)=f1​(u)+f2​(v),f1​,f2​ 都是凸函数,且有共轭 f1∗,f2∗,f_{1}^{*}, f_{2}^{*}, \quadf1∗​,f2∗​, 那么
f∗(w,z)=f1∗(w)+f2∗(z)f^{*}(w, z)=f_{1}^{*}(w)+f_{2}^{*}(z) f∗(w,z)=f1∗​(w)+f2∗​(z)
也就是,独立凸函数的和的共轭,是函数的共轭的和。

4 拟凸函数

定义和例子\large\color{#70f3ff}{\boxed{\color{brown}{定义和例子} }}定义和例子​

函数 f:Rn→Rf: R^{n} \rightarrow Rf:Rn→R 是拟凸的, 如果它的定义域和所有下水平集 Sα={x∈domf⁡∣f(x)≤α},α∈RS_{\alpha}=\{x \in \operatorname{domf} \mid f(x) \leq \alpha\}, \alpha \in RSα​={x∈domf∣f(x)≤α},α∈R 都是凸的。

  • 一个函数是拟凹(quasiconcave) 的,则 −f-f−f 是拟凸的, 也就是每个上水平集 {x∣f(x)≥α}\{x \mid f(x) \geq \alpha\}{x∣f(x)≥α} 是凸的。
  • 如果一个函数既拟凸又拟凹,那么叫做拟线性(quasilinear)。如果一个函数是拟线性的那么它的定义域和每个下水平集{x∣f(x)=α}\{x \mid f(x)=\alpha\}{x∣f(x)=α} 都是凸的.

对于R上的函数,拟凸要求每个下水平集是一个区间(可能包括无限区间)。拟凸函数的一个例子如图5所示。凸函数具有凸下水平集,拟凸函数也具有凸下水平集。但是反过来是不正确的。


图5图5 图5

图5:一个拟凸函数在R\mathbf{R}R上。对于每个α\alphaα, α\alphaα -子层集SαS_{\alpha}Sα​是凸的,即一个区间。子级别集SαS_{\alpha}Sα​是区间[a,b].[a, b] .[a,b].子级别集SβS_{\beta}Sβ​是区间(−∞,c](-\infty, c](−∞,c]

基本性质\large\color{#70f3ff}{\boxed{\color{brown}{基本性质} }}基本性质​凸和拟凸有很多对应的性质,例如Jesen不等式的拟凸版本:一个函数 fff 是拟凸的, 当且仅当 domfd o m fdomf 是凸的, 且对任意 x,0≤θ≤1x, 0 \leq \theta \leq 1x,0≤θ≤1 有
f(θx+(1−θ)y)≤max⁡{f(x),f(y)}(19)f(\theta x+(1-\theta) y) \leq \max \{f(x), f(y)\}\tag{19} f(θx+(1−θ)y)≤max{f(x),f(y)}(19)
也就是定义域某一段上的函数值,不超过这段两端的函数值的最大值,如图:

[ RRR 上的拟凸函数] 考虑连续函数 f:R∈Rf: R \in Rf:R∈R 是拟凸的, 当且仅当满足以下至少一个条件:

  • fff 是非减的

  • fff 是非增的

  • 存在一个点 c∈domfc \in d o m fc∈domf 使得对于 t≤c(t∈domf),ft \leq c(t \in d o m f), \quad ft≤c(t∈domf),f 是非增的, 且当 t≥c(t∈dom⁡f),ft \geq c(t \in \operatorname{dom} f), \quad ft≥c(t∈domf),f 是非减的。

  • ccc 是一个全局最小点:

可微拟凸函数\large\color{#70f3ff}{\boxed{\color{brown}{可微拟凸函数} }}可微拟凸函数​

令 f:Rn→Rf: R^n\rightarrow Rf:Rn→R 是可微的,那么 fff 是拟凸的当且仅当 domfdomfdomf 是凸的,并且 ∀x,y∈domf\forall x,y\in domf∀x,y∈domf 有

f(y)≤f(x)⇒∇f(x)T(y−x)≤0.(20)f(y)\leq f(x) \Rightarrow \nabla f(x)^T(y-x)\leq 0.\tag{20} f(y)≤f(x)⇒∇f(x)T(y−x)≤0.(20)
简单的几何解释,如图8,给出了拟凸函数fff的三个水平曲线。向量∇f(x)\nabla f(x)∇f(x)定义了子层集合{z∣f(z)≤\{z \mid f(z) \leq{z∣f(z)≤ f(x)}f(x)\}f(x)}在xxx处的支持超平面.


图8图8 图8
[可微拟凸函数—二阶条件] 令 fff 是二次可微的, 如果 fff 是拟凸的, 那么 ∀x∈domf,y∈Rn\forall x \in d o m f, y \in R^{n}∀x∈domf,y∈Rn 有
yT∇f(x)=0⇒yT∇2f(x)y≥0(21)y^{T} \nabla f(x)=0 \Rightarrow y^{T} \nabla^{2} f(x) y \geq 0\tag{21} yT∇f(x)=0⇒yT∇2f(x)y≥0(21)
对于 RRR 上的拟凸函数 fff, 条件简化为 f′(x)=0⇒f′′(x)≥0.f^{\prime}(x)=0 \Rightarrow f^{\prime \prime}(x) \geq 0 .f′(x)=0⇒f′′(x)≥0. 也就是在斜率为 0 的坡的任意点上,二阶导数都是非负的。

[保留拟凸性的运算]

非负加权最大值: f=max⁡{w1f1,…,wmfm},wi≥0,fif=\max \left\{w_{1} f_{1}, \ldots, w_{m} f_{m}\right\}, \quad w_{i} \geq 0, f_{i}f=max{w1​f1​,…,wm​fm​},wi​≥0,fi​ 是拟凸函数。这个性质可以推广到逐点上确界。

复合: 如果 g:Rn→Rg: R^{n} \rightarrow Rg:Rn→R 是拟凸函数, h:R→Rh: R \rightarrow Rh:R→R 是非减的, 那么 f=h∘gf=h \circ gf=h∘g 是拟凸的。拟凸函数和仿射函数或线性-分数函数的复合也是一个拟凸函数。

最小化: f(x,y)f(x, y)f(x,y) 是拟凸函数, CCC 是一个凸集, 那么函数 g(x)=inff⁡y∈C(x,y)g(x)=\operatorname{inff}_{y \in C}(x, y)_{\text { }}g(x)=inffy∈C​(x,y) ​ 是拟凸的。

[用一族凸函数表示] 用凸函数的不等式来表示拟凸函数 fff 的下水平集。找一族凸函数ϕt:Rn→R,t∈R\phi_t:R^n\rightarrow R , t\in Rϕt​:Rn→R,t∈R 满足 f(x)≤t⇔ϕt(x)≤0f(x)\leq t\Leftrightarrow \phi_t(x)\leq 0f(x)≤t⇔ϕt​(x)≤0.

也就是, 拟凸函数 fff 的 ttt -下水平集是凸函数 ϕt\phi_{t}ϕt​ 的 0 -下水平集。

5 对数凹/对数凸函数

[对数凹/凸 log-concave/log-convex] 函数 f:Rn→Rf: R^{n} \rightarrow Rf:Rn→R 是对数凹的, 如果 f(x)>0,∀x∈domff(x)>0, \forall x \in d o m ff(x)>0,∀x∈domf 是的。

fff 是对数凸的当且仅当 1/f1 / f1/f 是对数凹的。

允许 fff 取 0,log⁡f(x)=−∞0, \log f(x)=-\infty0,logf(x)=−∞, 此时 fff 是对数凹的, 如果拓展值函数 log⁡f\log flogf 是凹的。

[用不等式表示] 函数 f:Rn→Rf:R^n\rightarrow Rf:Rn→R 带有凸定义域, 并且 f(x)>0,∀x∈domff(x)>0,\forall x\in domff(x)>0,∀x∈domf 有:
f(θx+(1−θ)y)≥f(x)θf(y)1−θ.f(\theta x+(1-\theta) y) \geq f(x)^{\theta} f(y)^{1-\theta} . f(θx+(1−θ)y)≥f(x)θf(y)1−θ.

  • 特别地,对数凹函数在两点的中点上的值,大于等于 两点上函数值的几何平均数

[二次可微的对数凹/对数凸函数] 令 fff 是二次可微的, domfd o m fdomf 是凸集,那么有
∇2logf(x)=1f(x)∇2f(x)−1f(x)2∇f(x)∇f(x)T.\nabla^2 log f(x)=\frac{1}{f(x)}\nabla^2 f(x)-\frac{1}{f(x)^2}\nabla f(x)\nabla f(x)^T. ∇2logf(x)=f(x)1​∇2f(x)−f(x)21​∇f(x)∇f(x)T.

  • fff 是对数凸的,当且仅当 ∀x∈dom⁡f\forall x \in \operatorname{dom} f∀x∈domf 有:
    f(x)∇2⪰∇f(x)∇f(x)T.f(x)\nabla^2\succeq \nabla f(x)\nabla f(x)^T. f(x)∇2⪰∇f(x)∇f(x)T.

  • fff 是对数凹的,当且仅当 ∀x∈dom⁡f\forall x \in \operatorname{dom} f∀x∈domf 有:
    f(x)∇2⪯∇f(x)∇f(x)T.f(x)\nabla^2\preceq \nabla f(x)\nabla f(x)^T. f(x)∇2⪯∇f(x)∇f(x)T.

[加法,乘法,积分] 对数凸性和对数凹性对于加法和正标量乘法封闭。

  • 如果 f(x,y)f(x, y)f(x,y) 对于所有的 y∈Cy \in Cy∈C 关于 xxx 对数凸, 那么 g(x)=∫Cf(x,y)dyg(x)=\int_{C} f(x, y) d yg(x)=∫C​f(x,y)dy 是对数凸的

[对数凹函数的积分] 在某些特殊情况中积分保留对数凹性。如果 f:Rn×Rm→Rf:R^n\times R^m\rightarrow Rf:Rn×Rm→R 是对 数凹的,那么 g(x)=∫f(x,y)dyg(x)= \int f(x,y)dyg(x)=∫f(x,y)dy 是关于 xxx 的对数凹函数。

  • 这说明对数凹性在卷积下封闭,也就是如果 f,gf, gf,g 是 RnR^{n}Rn 上的对数凹函数,那么卷和 (f∗g)(x)=∫f(x−y)g(y)dy(f*g)(x)=\int f(x-y)g(y)dy(f∗g)(x)=∫f(x−y)g(y)dy 也是对数凹函数

6 关于广义不等关系的凸性

单调性和凸性的推广。

[单调性] 令 K⊆RnK \subseteq R^{n}K⊆Rn 是一个真锥(proper cone),有对应的广义不等关系 ⪯K\preceq_{K}⪯K​ 。

  • 一个函数 f:Rn→Rf: R^{n} \rightarrow Rf:Rn→R 叫做 KKK -非减的, 如果
    x⪯Ky⇒f(x)≤f(y).x\preceq_K y\Rightarrow f(x)\leq f(y). x⪯K​y⇒f(x)≤f(y).

  • fff 是 KKK -增的, 如果
    x≺Ky,x≠y⇒f(x)<f(y).x\prec_K y, x\ne y\Rightarrow f(x)<f(y). x≺K​y,x​=y⇒f(x)<f(y).

类似可以定义 KKK -非增函数,和 KKK -减函数。

[单调性的梯度条件] 一个定义域是凸集的可微函数 fff, 是 KKK -非增的, 当且仅当对于所有的 x∈domfx \in d o m fx∈domf 有 ∇f(x)⪰K∗0\nabla f(x)\succeq_{K^*} 0∇f(x)⪰K∗​0

更严格的情况,如果 ∇f(x)≻K∗0\nabla f(x)\succ_{K^*} 0∇f(x)≻K∗​0 对于所有 x∈domfx\in domfx∈domf 成立,那么说 fff 是 KKK -增的。

[凸性] 令 K⊆RmK \subseteq R^{m}K⊆Rm 是一个正常雉,有对应的广义不等关系 ⪯K\preceq_{K}⪯K​ 。

  • 函数 f:Rn→Rm\mathrm{f}: R^{n} \rightarrow R^{m}f:Rn→Rm 是 KKK -凸的, 当且仅当对于所有 x,y,0≤θ≤1x, y, 0 \leq \theta \leq 1x,y,0≤θ≤1 有
    f(θx+(1−θ)y)⪯Kθf(x)+(1−θ)f(y).f(\theta x+(1-\theta) y)\preceq_K \theta f(x)+(1-\theta)f(y). f(θx+(1−θ)y)⪯K​θf(x)+(1−θ)f(y).

  • 函数 fff 是严格 KKK -凸的,如果对于所有 x≠y,0<θ<1x \neq y, 0<\theta<1x​=y,0<θ<1 有
    f(θx+(1−θ)y)≺Kθf(x)+(1−θ)f(y).f(\theta x+(1-\theta) y)\prec_K \theta f(x)+(1-\theta)f(y). f(θx+(1−θ)y)≺K​θf(x)+(1−θ)f(y).

[ KKK -凸的对偶刻画] 一个函数 fff 是 KKK -凸的当且仅当对于每个 w⪰K∗0w\succeq_{K^*} 0w⪰K∗​0, 实值函数 wTfw^TfwTf 是凸的。 fff 是严格 KKK -凸的当且仅当对于每个非零 w⪰K∗w\succeq_{K^*}w⪰K∗​ 函数 wTfw^{T} fwTf 是严格凸的。

[可微 KKK -凸函数] 一个可微函数 fff 是 KKK -凸的当且仅当它的定义域是凸集, 并且对于所有的 x,y∈dom⁡fx, y \in \operatorname{dom} fx,y∈domf 有
f(y)⪰Kf(x)+Df(x)(y−x).f(y)\succeq_K f(x)+Df(x)(y-x). f(y)⪰K​f(x)+Df(x)(y−x).

此处 Df(x)∈Rm×nD f(x) \in R^{m \times n}Df(x)∈Rm×n 是函数 fff 关于 xxx 的导数或 Jacobian 矩阵。

函数 fff 是严格 KKK -凸的,当且仅当对于所有 x,y∈dom⁡f,x≠yx, y \in \operatorname{dom} f, x \neq yx,y∈domf,x​=y 有
f(y)≻Kf(x)+Df(x)(y−x).f(y)\succ_K f(x)+Df(x)(y-x). f(y)≻K​f(x)+Df(x)(y−x).
[复合定理 composition theorem] 凸函数的非减凸函数是凸的。如果 g:Rn→Rpg:R^n\rightarrow R^pg:Rn→Rp 是 KKK -凸的, h:Rp→Rh: R^p\rightarrow Rh:Rp→R 是凸的, 且 hhh 的值拓展 h~\tilde{h}h~ 是 KKK -非减的,那么 h∘gh \circ gh∘g 是凸的。

参考资料

Stephen BoydConvex Optimization

《凸优化》,Stephen Boyd等著,王书宁等译

MIT凸优化课程

优化理论02----凸函数、共轭函数、拟凸函数、对数凹/对数凸函数、关于广义不等关系的凸性相关推荐

  1. 优化理论(三)凸函数、拟凸函数和保凸运算

    这一节主要学习凸函数的定义以及性质.了解保凸运算,以及上镜图与下水平集等.这些基础知识看似零乱,然而却是后面的基础.特别是,在实际应用中如果我们能把一个问题转化为凸优化问题,是非常好的一步.而能够这样 ...

  2. math: 凸函数、拟凸函数和保凸运算

    这一节主要学习凸函数的定义以及性质.了解保凸运算,以及上镜图与下水平集等.这些基础知识看似零乱,然而却是后面的基础.特别是,在实际应用中如果我们能把一个问题转化为凸优化问题,是非常好的一步.而能够这样 ...

  3. 数据科学和机器学习中的优化理论与算法(下)

    数据科学和机器学习中的优化理论与算法(下) 数据科学和机器学习当前越来越热,其中涉及的优化知识颇多.很多人在做机器学习或者数据科学时,对其中和优化相关的数学基础,包括随机梯度下降.ADMM.KKT 条 ...

  4. Uncertainty Modeling and Optimization-不确定性建模与优化-理论篇(高速更新中)

    Uncertainty Modeling and Optimization-不确定性建模与优化 目录 Uncertainty Modeling and Optimization-不确定性建模与优化 0 ...

  5. 数据科学和机器学习中的优化理论与算法(上)

    数据科学和机器学习中的优化理论与算法(上) 数据科学和机器学习当前越来越热,其中涉及的优化知识颇多.很多人在做机器学习或者数据科学时,对其中和优化相关的数学基础,包括随机梯度下降.ADMM.KKT 条 ...

  6. 『运筹OR帷幄』CSDN官方账号正式上线啦| 运筹学/优化理论/人工智能/数据科学的学习交流社区

    『运筹OR帷幄』四岁啦!谢谢你们陪伴我们又走过了一年.你有没有好奇跟你一样关注我们的小伙伴们都有些什么特点?比如说,大家一般都是什么学历?都居住在哪些地方?是不是从事同一个行业?有没有同一个研究方向的 ...

  7. CQF笔记M2L2优化理论及其在资产组合选择中的应用

    CQF笔记M2L2优化理论及其在资产组合选择中的应用 Module 2 Quantitative Risk & Return Lecture 2 Fundamentals of Optimiz ...

  8. # 数据科学和机器学习中的优化理论与算法(上)

    本场 Chat 从基础知识的角度,用大白话对数据科学和机器学习中用到的最重要的优化理论和算法做个小结. 本场 Chat 内容如下: 优化中涉及的线性代数数学基础 优化理论中最常提到的一些定义.定理 求 ...

  9. ARM NEON指令集优化理论与实践

    ARM NEON指令集优化理论与实践 一.简介 NEON就是一种基于SIMD思想的ARM技术,相比于ARMv6或之前的架构,NEON结合了64-bit和128-bit的SIMD指令集,提供128-bi ...

  10. 综述 | 深度学习中的优化理论

    来源:运筹OR帷幄 本文约5200字,建议阅读10+分钟. 展望未来研究趋势,拒绝做调参侠从我开始. 标签:人工智能 神经网络的训练主要通过求解一个优化问题来完成,但这是一个困难的非线性优化问题,传统 ...

最新文章

  1. (转载兼整理)Linux 2.6 下通过 ptrace 和 plt 实现用户态 API Hook
  2. stm32 hal uart_STM32 非阻塞HAL_UART_Receive_IT解析与实际应用
  3. Android中GridView使用总结
  4. 陈睿学长在CUIT建校70周年校庆上的演讲
  5. HDU - 2571 
  6. NDK 下利用 arm-linux-androideabi-addr2line 定位 so 库问题点
  7. java文件移动重命名_Java重命名文件和移动文件
  8. Scala:函数式编程之下划线underscore
  9. 93、App Links (应用程序链接)实例
  10. 人体面部检测python_使用Python检测面部特征
  11. vsftpd+mysql使用
  12. hadoop安装教程(一次填完所有的坑)
  13. php 61850,IEC61850客户端
  14. 如何理解封装、继承和多态
  15. UCOS操作系统——创建与删除任务(三)
  16. 日常办公,无特殊要求者怎么选择显示器?
  17. 如何维持手机电池寿命_延长iPhone 手机电池寿命的几个方法
  18. 织梦教程:ms在channel标签中调用typeid无效解决办法
  19. 健壮的I/O(RIO)
  20. python的iloc与loc函数

热门文章

  1. Hibernate中的merge方法
  2. Access to the path Library\UnityAssemblies\UnityEngine.xml is denied.
  3. android打造一个简单的欢迎界面
  4. 修改过的Lucida Sans typewriter 字体,另推荐两个不错的编程字体
  5. HDU 6599 I Love Palindrome String (回文树+hash)
  6. MAPZONE GIS SDK接入Openlayers3之二——空间参考扩展
  7. JQ怎样返回顶部代码
  8. 转 TCP中的序号和确认号
  9. 关于事务开启与否对数据库插入数据所需时间的影响的讨论
  10. 电子设计竞赛方案搜集