Proximal Algorithms 1 介绍

文章目录

定义
解释
- 图形解释
- 梯度解释
一个简单的例子

Proximal Algorithms

定义

令f:Rn→R∪{+∞}f: \mathrm{R}^n \rightarrow \mathrm{R} \cup \{+ \infty \}f:Rn→R∪{+∞}为闭的凸函数，即其上镜图:
epif={(x,t)∈Rn×R∣f(x)≤t}\mathbf{epi} f = \{ (x, t) \in \mathrm{R}^n \times \mathrm{R}| f(x) \le t\} epif={(x,t)∈Rn×R∣f(x)≤t}
为非空闭的凸集，定义域：
domf={x∈Rn∣f(x)<+∞}\mathbf{dom} f = \{x \in \mathrm{R}^n| f(x) < + \infty\} domf={x∈Rn∣f(x)<+∞}

近端算子(是这么翻译的?)proximal operator proxf:Rn→Rn\mathbf{prox}_f: \mathrm{R}^n \rightarrow \mathrm{R}^nproxf:Rn→Rn定义为：

我们常常会对添加一个比例系数λ\lambdaλ，而关心λf\lambda fλf的近端算子：

注：等式右边乘以一个常数λ\lambdaλ便是λf\lambda fλf的形式，所以是等价的。

解释

图形解释

注：图中的细黑线是函数fff的等值线，而粗黑线表示定义域的边界。在蓝色的点处估计其proxf\mathbf{prox}_fproxf得到红色的点。

可以发现，proxf(v)\mathbf{prox}_f(v)proxf(v)实际上是对点vvv附近的一个估计。

梯度解释

假设λ\lambdaλ很小，且fff可微，那么，容易知道f(x)+12λ∥x−v∥22f(x) + \frac{1}{2\lambda}\|x-v\|_2^2f(x)+2λ1∥x−v∥22取得极值(实际上也是最值)的条件是：
∇f(x)+x−vλ=0⇒x=v−λ∇f(x)≈v−λ∇f(v)\nabla f(x) +\frac{x-v}{\lambda}=0 \Rightarrow x=v-\lambda \nabla f(x) \approx v-\lambda \nabla f(v) ∇f(x)+λx−v=0⇒x=v−λ∇f(x)≈v−λ∇f(v)
可以看到，proxf(v)\mathbf{prox}_f(v)proxf(v)近似为在vvv点的梯度下降，而λ\lambdaλ为步长。

一个简单的例子

有一个问题，就是，如果我们的目的是最小化f(x)f(x)f(x)，那么利用proxf\mathbf{prox}_fproxf会不会太愚蠢了，既然我们能求解proxf\mathbf{prox}_fproxf，那么直接最小化f(x)f(x)f(x)应该也不是难事吧。这个问题留到以后再讨论吧，我也不知道能否找到一个恰当的例子来反驳。

当fff是一个示性函数：

其中C\mathcal{C}C为非空凸集，我们来看看这个时候的proxf(v)\mathbf{prox}_f(v)proxf(v):
proxλf(v)=argminx IC(x)+12λ∥x−v∥22\mathbf{prox}_{\lambda f}(v)= \mathrm{argmin}_x \: I_{\mathcal{C}}(x) + \frac{1}{2 \lambda}\|x-v\|_2^2 proxλf(v)=argminxIC(x)+2λ1∥x−v∥22
首先，我们可以确定x∈Cx \in \mathcal{C}x∈C, 否则结果为无穷，所以，问题可以转化为一个Euclid范数下投影问题：

所以一个问题是，如果proxf\mathbf{prox}_fproxf的尾项不用ℓ2\ell_2ℓ2范数，用别的范数会变成什么样？