凸优化学习笔记（四）：对偶性、KKT 条件、敏感性分析

前言

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

文章目录

前言
五、对偶性
- 定义
- 对偶函数性质
- 对偶问题性质
- - 强 / 弱对偶 - 对偶间隙
  - KKT 条件
  - - 互补松弛条件 (Complementary Slackness)
    - 稳定性条件 (Stationarity)
    - KKT 条件适用范围
  - KKT 举例
  - 总结
- 敏感性分析

五、对偶性

定义

原问题 P (Primal Problem)：

x∈Rn,D=⋂i=1mdom(fi)∩⋂i=1pdom(hi)x\in R^n,D=\bigcap^m_{i=1}dom(f_i)\cap\bigcap^p_{i=1}dom(h_i)x∈Rn,D=⋂i=1mdom(fi)∩⋂i=1pdom(hi)
min⁡f0(x)s.t.fi(x)≤0,i=1,...,Mhi(x)=0,i=1,...,P\begin{aligned} \min \ & f_0(x) \\ s.t. \ & f_i(x)\leq 0, i=1,...,M \\ & h_i(x)=0,i=1,...,P \end{aligned} min s.t. f0(x)fi(x)≤0,i=1,...,Mhi(x)=0,i=1,...,P

拉格朗日函数 (Lagrangian Function / Lagrangian)：

λ、v\lambda、vλ、v 为拉格朗日乘子 (Lagrange Multiplier / Multiplier)
L(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x)L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^m \lambda_i f_i(x)+\sum\limits_{i=1}^p v_i h_i(x) L(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)

拉格朗日对偶函数 (Lagrange Dual Function / Dual Function)：
g(λ,v)=inf⁡x∈DL(x,λ,v)g(\lambda,v)=\inf_{x\in D}L(x,\lambda,v) g(λ,v)=x∈DinfL(x,λ,v)

对偶问题 D (Dual Problem / Lagrange Dual Problem)：

若对偶函数有部分情况为负无穷，则写对偶问题时可以直接忽略负无穷的部分
max⁡g(λ,v)s.t.λ≥0\begin{aligned} \max \ & g(\lambda,v) \\ s.t. \ & \lambda\geq 0 \end{aligned} max s.t. g(λ,v)λ≥0

对偶函数性质

对偶函数一定是凹函数
∀λ≥0,∀v,g(λ,v)≤p∗\forall \lambda \geq 0,\forall v,g(\lambda,v)\leq p^*∀λ≥0,∀v,g(λ,v)≤p∗，p∗p^*p∗ 为原问题最优值

对偶问题性质

对偶问题一定是凸优化问题
d∗、p∗d^*、p^*d∗、p∗ 分别为对偶问题、原问题的最优值，其中 d∗≤p∗d^*\leq p^*d∗≤p∗
λ∗、v∗\lambda^*、v^*λ∗、v∗ 为最优拉格朗日乘子 (Optimal Lagrange Multiplier)

强 / 弱对偶 - 对偶间隙

对偶概念：

弱对偶 (Weak Duality)：d∗≤p∗d^*\leq p^*d∗≤p∗
强对偶 (Strong Duality)：d∗=p∗d^*=p^*d∗=p∗
对偶间隙 (Duality Gap)：p∗−d∗p^*-d^*p∗−d∗

D 的相对领域 (Relative Interior)：

Relint D={x∈D∣B(x,r)∩affD≤D,∃r>0}D=\{x\in D|B(x,r)\cap aff\ D\leq D,\exists r>0\}D={x∈D∣B(x,r)∩aff D≤D,∃r>0}
其中 affDaff\ Daff D 表示 DDD 的仿射包，B(x,r)B(x,r)B(x,r) 表示以 xxx 为中心，rrr 为半径的小球
D 的相对领域即是去除 D 边缘后的区域

Slater’s Condition (充分条件)：

若有如下凸问题存在，其中 fi(x),∀if_i(x),\forall ifi(x),∀i 为凸，则当 ∃x∈relintD\exists x\in relint \ D∃x∈relint D 使 fi(x)<0,i=1,...,m,Ax=bf_i(x)<0,i=1,...,m,Ax=bfi(x)<0,i=1,...,m,Ax=b 满足时，p∗=d∗p^*=d^*p∗=d∗
min⁡f0(x)s.t.fi(x)≤0,i=1,...,mAx=b\begin{aligned} \min \ & f_0(x) \\ s.t. \ & f_i(x)\leq 0,i=1,...,m\\ & Ax=b \end{aligned} min s.t. f0(x)fi(x)≤0,i=1,...,mAx=b

A weaker Slater’s Condition：

若不等式约束为仿射时，只要可行域非空，必有 p∗=d∗p^*=d^*p∗=d∗
推论：线性规划问题若有可行解，则 p∗=d∗p^*=d^*p∗=d∗

鞍点的解释 (Saddle Point)：

使得下式成立的 x∗、λ∗x^*、\lambda^*x∗、λ∗ 即为鞍点
p∗=inf⁡x∈Dsup⁡λ≥0L(x,λ)=sup⁡λ≥0inf⁡x∈DL(x,λ)=d∗p^*=\inf_{x\in D}\sup_{\lambda\geq 0}L(x,\lambda)=\sup_{\lambda\geq 0}\inf_{x\in D}L(x,\lambda)=d^* p∗=x∈Dinfλ≥0supL(x,λ)=λ≥0supx∈DinfL(x,λ)=d∗

鞍点定理：

若 (x~,λ~)(\tilde{x},\tilde{\lambda})(x~,λ~) 为 L(x,λ)L(x,\lambda)L(x,λ) 的鞍点 ⇔\Leftrightarrow⇔ 强对偶存在，且 x~,λ~\tilde{x},\tilde{\lambda}x~,λ~ 为 Primal 与 Dual 最优解

KKT 条件

p∗=f0(x∗)=d∗=g(λ∗,v∗)=inf⁡x{f0(x)+∑i=1mλi∗fi(x)+∑i=1pvi∗hi(x)}≤f0(x∗)+∑i=1mλi∗fi(x∗)+∑i=1pvi∗hi(x∗)≤f0(x∗)\begin{aligned} p^*=f_0(x^*)=d^*=&g(\lambda^*,v^*)\\ =&\inf_x\{f_0(x)+\sum\limits_{i=1}^m \lambda_i^* f_i(x)+\sum\limits_{i=1}^p v_i^* h_i(x)\}\\ \leq & f_0(x^*)+\sum\limits_{i=1}^m \lambda_i^* f_i(x^*)+\sum\limits_{i=1}^p v_i^* h_i(x^*) \\ \leq & f_0(x^*) \end{aligned} p∗=f0(x∗)=d∗==≤≤g(λ∗,v∗)xinf{f0(x)+i=1∑mλi∗fi(x)+i=1∑pvi∗hi(x)}f0(x∗)+i=1∑mλi∗fi(x∗)+i=1∑pvi∗hi(x∗)f0(x∗)

由此中间的不等号应改为等号，进而推出以下两个条件。

互补松弛条件 (Complementary Slackness)

若 p∗=d∗p^*=d^*p∗=d∗，则 λi∗fi(x∗)=0\lambda_i^*f_i(x^*)=0λi∗fi(x∗)=0，即如果 λi∗>0\lambda_i^*>0λi∗>0 则 fi(x∗)=0f_i(x^*)=0fi(x∗)=0；如果 fi(x∗)<0f_i(x^*)<0fi(x∗)<0 则 λi∗=0\lambda_i^*=0λi∗=0

稳定性条件 (Stationarity)

inf⁡xL(x,λ∗,v∗)=inf⁡x{f0(x)+∑i=1mλi∗fi(x)+∑i=1pvi∗hi(x)}=L(x∗,λ∗,v∗)\inf_xL(x,\lambda^*,v^*)= \inf_x\{f_0(x)+\sum\limits_{i=1}^m \lambda_i^* f_i(x)+\sum\limits_{i=1}^p v_i^* h_i(x)\}=L(x^*,\lambda^*,v^*) xinfL(x,λ∗,v∗)=xinf{f0(x)+i=1∑mλi∗fi(x)+i=1∑pvi∗hi(x)}=L(x∗,λ∗,v∗)

因此 L(x,λ∗,v∗)L(x,\lambda^*,v^*)L(x,λ∗,v∗) 在 x∗x^*x∗ 处取到最小值，即 x∗x^*x∗ 处导数为 0，即
∇f0(x∗)+∑i=1mλi∗∇fi(x∗)+∑i=1pvi∗∇hi(x∗)=0\nabla f_0(x^*)+\sum\limits_{i=1}^m \lambda_i^* \nabla f_i(x^*)+\sum\limits_{i=1}^p v_i^* \nabla h_i(x^*)=0 ∇f0(x∗)+i=1∑mλi∗∇fi(x∗)+i=1∑pvi∗∇hi(x∗)=0

KKT 条件适用范围

KKT 条件从强对偶性质出发进行推导，共得到以下五个条件：

原问题可行性
- fi(x∗)≤0,i=1,...,mf_i(x^*)\leq 0,i=1,...,mfi(x∗)≤0,i=1,...,m
- hi(x∗)=0,i=1,...,ph_i(x^*)=0,i=1,...,phi(x∗)=0,i=1,...,p
对偶问题可行性
- λ∗≥0\lambda^*\geq 0λ∗≥0
互补松弛条件
- λi∗fi(x∗)=0,i=1,...,m\lambda_i^* f_i(x^*)=0,i=1,...,mλi∗fi(x∗)=0,i=1,...,m
稳定性条件
- ∂L(x,λ∗,v∗)∂x∣x=x∗=∇f0(x∗)+∑i=1mλi∗∇fi(x∗)+∑i=1pvi∗∇hi(x∗)=0\displaystyle\frac{\partial L(x,\lambda^*,v^*)}{\partial x}|_{x=x^*}=\nabla f_0(x^*)+\sum\limits_{i=1}^m \lambda_i^* \nabla f_i(x^*)+\sum\limits_{i=1}^p v_i^* \nabla h_i(x^*)=0∂x∂L(x,λ∗,v∗)∣x=x∗=∇f0(x∗)+i=1∑mλi∗∇fi(x∗)+i=1∑pvi∗∇hi(x∗)=0

定理：

对任意问题，若各个函数可微，对偶间隙为零，则 KKT 条件为 (x∗,λ∗,v∗)(x^*,\lambda^*,v^*)(x∗,λ∗,v∗) 为最优解时的必要条件
若原问题为凸问题，各个函数可微，对偶间隙为零，则 KKT 条件为充分条件

若原问题为凸问题且满足 Slater 条件，则 KKT 条件为充要条件

KKT 举例

总结

一般的优化问题（不一定凸）：

若拉格朗日函数 L(x,λ,v)L(x,\lambda,v)L(x,λ,v) 有鞍点 ⇔\Leftrightarrow⇔ 鞍点为原 / 对偶函数的最优解

一般的可微优化问题（不一定凸）：

若对偶间隙为零，则 KKT 条件是 (x∗,λ∗,v∗)(x^*,\lambda^*,v^*)(x∗,λ∗,v∗) 为最优解的必要条件

可微的凸优化问题：

若对偶间隙为零，则 KKT 条件是 (x∗,λ∗,v∗)(x^*,\lambda^*,v^*)(x∗,λ∗,v∗) 为最优解的充要条件

敏感性分析

原问题：
min⁡f0(X)s.t.fi(X)≤0,i=1,...,Mhi(x)=0,i=1,...,P\begin{aligned} \min \ & f_0(X) \\ s.t. \ & f_i(X)\leq 0, i=1,...,M \\ & h_i(x)=0,i=1,...,P \end{aligned} min s.t. f0(X)fi(X)≤0,i=1,...,Mhi(x)=0,i=1,...,P

干扰问题：

P∗(u,w)P^*(u,w)P∗(u,w) 为干扰问题的最优值函数，其中 P∗(0,0)P^*(0,0)P∗(0,0) 为原问题最优值
min⁡f0(X)s.t.fi(X)≤ui,i=1,...,Mhi(x)=wi,i=1,...,P\begin{aligned} \min \ & f_0(X) \\ s.t. \ & f_i(X)\leq u_i, i=1,...,M \\ & h_i(x)=w_i,i=1,...,P \end{aligned} min s.t. f0(X)fi(X)≤ui,i=1,...,Mhi(x)=wi,i=1,...,P

性质：

若原问题为凸，则 P∗(u,w)P^*(u,w)P∗(u,w) 为 (u,w)(u,w)(u,w) 的凸函数
若原问题为凸，对偶间隙为零，λ∗,v∗\lambda^*,v^*λ∗,v∗ 为原问题对偶最优解，则 P∗(u,w)≥P∗(0,0)−(λ∗)Tu−(v∗)TwP^*(u,w)\geq P^*(0,0)-(\lambda^*)^Tu-(v^*)^TwP∗(u,w)≥P∗(0,0)−(λ∗)Tu−(v∗)Tw
- 若 λi∗\lambda_i^*λi∗ 很大，且加紧第 iii 次不等式约束，即 ui<0u_i<0ui<0 则 P∗(u,w)P^*(u,w)P∗(u,w) 可能会急剧上升
- 若 vi∗v_i^*vi∗ 很大正值，且 wi<0w_i<0wi<0；或 vi∗v_i^*vi∗ 为负值，即绝对值很大，且 wi>0w_i>0wi>0，则 P∗(u,w)P^*(u,w)P∗(u,w) 可能会急剧上升
- 若 λi∗\lambda_i^*λi∗ 很小，且 ui>0u_i>0ui>0，则最优值变化不大
- 若 vi∗v_i^*vi∗ 为很小正值，且 wi>0w_i>0wi>0 或 vi∗v_i^*vi∗ 为绝对值很小的负值，且 wi<0w_i<0wi<0，则最优值变化不大
若原问题为凸，对偶间隙为零，且 P∗(u,w)P^*(u,w)P∗(u,w) 在 (u,w)=(0,0)(u,w)=(0,0)(u,w)=(0,0) 处可微，则 λi∗=−∂P∗(0,0)∂ui,vi∗=−∂P∗(0,0)∂wi\lambda_i^*=-\displaystyle\frac{\partial P^*(0,0)}{\partial u_i},v_i^*=-\displaystyle\frac{\partial P^*(0,0)}{\partial w_i}λi∗=−∂ui∂P∗(0,0),vi∗=−∂wi∂P∗(0,0)，即根据泰勒展开，得到 P∗(u,w)≈P∗(0,0)−(λ∗)Tu−(v∗)TwP^*(u,w)\approx P^*(0,0)-(\lambda^*)^Tu-(v^*)^TwP∗(u,w)≈P∗(0,0)−(λ∗)Tu−(v∗)Tw