原问题与对偶问题的定义和关系

东边有棵树的博客# 原问题与对偶问题的定义和关系

(1)原问题与对偶问题定义

一个优化问题的原问题和对偶问题定义如下：

原问题：
最小化 : f ( w ) 限制条件 : { g i ( w ) ≤ 0 i = 1 ⋯ K h i ( w ) = 0 i = 1 ⋯ M (1) 最小化:~~~f(w)\\限制条件: \begin{cases} g_i(w)\leq0~~~i=1\cdots K\\ h_i(w)=0~~~i=1\cdots M \end{cases}\tag{1} 最小化: f(w)限制条件:{gi(w)≤0 i=1⋯Khi(w)=0 i=1⋯M(1)
定义一函数 L ( w , α , β ) L(w,\alpha,\beta) L(w,α,β)为：
L ( w , α , β ) = f ( w ) + ∑ i = 1 K α i g i ( w ) + ∑ i = 1 M β i h i ( w ) (2) L(w,\alpha,\beta)=f(w)+ \sum_{i=1}^K\alpha_ig_i(w)+\sum_{i=1}^M\beta_ih_i(w)\tag{2} L(w,α,β)=f(w)+i=1∑Kαigi(w)+i=1∑Mβihi(w)(2)
当然可以用矩阵写成简单的形式：
L ( w , α , β ) = f ( w ) + α T g ( w ) + β T h ( w ) (3) L(w,\alpha,\beta)=f(w)+\alpha^Tg(w)+\beta^Th(w) \tag{3} L(w,α,β)=f(w)+αTg(w)+βTh(w)(3)
公式 ( 3 ) (3) (3)中 α T \alpha^T αT和 g ( w ) g(w) g(w)都是 K K K维的，而 β T \beta^T βT和 h ( w ) h(w) h(w)都是 M M M维的。则原问题的对偶问题为：
最大化 θ ( α , β ) = inf ⁡ 所有 w { L ( w , α , β ) } 限制条件： α i ≥ 0 ( i = 1 ⋯ K ) (4) 最大化\quad\theta(\alpha,\beta)=\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}\\限制条件：\alpha_i~\ge~0\quad(i=1\cdots K)\tag{4} 最大化θ(α,β)=所有winf{ L(w,α,β) }限制条件：αi ≥ 0(i=1⋯K)(4)
其中 inf ⁡ 所有 w { L ( w , α , β ) } \inf \limits_{所有w}\{~L(w,\alpha,\beta)~\} 所有winf{ L(w,α,β) }的意思是在限制 α \alpha α和 β \beta β的情况下遍历所有的 w w w求最小值，即每确定一个 α \alpha α和 β \beta β都能算出一个最小值，即每一个 α \alpha α和 β \beta β都对应一个值，很明显，这是 α \alpha α和 β \beta β的函数，故写作 θ ( α , β ) \theta(\alpha,\beta) θ(α,β)。那么公式 ( 4 ) (4) (4)是针对所有的 α \alpha α和 β \beta β求最大值，即在所有的最小值中找最大的。

(2)原问题和对偶问题的关系

定理：如果 w ∗ w^* w∗是原问题的解，而 α ∗ \alpha^* α∗， β ∗ \beta^* β∗是对偶问题的解，则有：
f ( w ∗ ) ≥ θ ( α ∗ , β ∗ ) (5) f(w^*)\ge\theta(\alpha^*,\beta^*)\tag{5} f(w∗)≥θ(α∗,β∗)(5)
定理证明如下：
θ ( α ∗ , β ∗ ) = inf ⁡ 所有 w { L ( w , α ∗ , β ∗ ) } ≤ L ( w ∗ , α ∗ , β ∗ ) = f ( w ∗ ) + ∑ i = 1 K α i ∗ g i ( w ∗ ) + ∑ i = 1 M β i ∗ h i ( w ∗ ) 利用原问题和对偶问题的限制条件可知： α i ∗ ≥ 0 , g i ( w ∗ ) ≤ 0 , h i ( w ∗ ) = 0 进而可得： ∑ i = 1 K α i ∗ g i ( w ∗ ) ≤ 0 , ∑ i = 1 M β i ∗ h i ( w ∗ ) = 0 最终可得： θ ( α ∗ , β ∗ ) ≤ f ( w ∗ ) − 证毕 \theta(\alpha^*,\beta^*)=\inf\limits_{所有w}\{~L(w,\alpha^*,\beta^*)~\}\\ \leq L(w^*,\alpha^*,\beta^*)\\ =f(w^*)+\sum_{i=1}^K\alpha_i^*g_i(w^*)+\sum_{i=1}^M\beta_i^*h_i(w^*)\\ 利用原问题和对偶问题的限制条件可知： \\\alpha_i^*\ge0,g_i(w^*)\leq0,h_i(w^*)=0\\ 进而可得：\\ \sum_{i=1}^K\alpha_i^*g_i(w^*)\leq0,\sum_{i=1}^M\beta_i^*h_i(w^*)=0\\ 最终可得：\theta(\alpha^*,\beta^*)\leq f(w^*)-证毕 θ(α∗,β∗)=所有winf{ L(w,α∗,β∗) }≤L(w∗,α∗,β∗)=f(w∗)+i=1∑Kαi∗gi(w∗)+i=1∑Mβi∗hi(w∗)利用原问题和对偶问题的限制条件可知：αi∗≥0,gi(w∗)≤0,hi(w∗)=0进而可得：i=1∑Kαi∗gi(w∗)≤0,i=1∑Mβi∗hi(w∗)=0最终可得：θ(α∗,β∗)≤f(w∗)−证毕
接下来又有一个定义： G = f ( w ∗ ) − θ ( α ∗ , β ∗ ) ≥ 0 G=f(w*)-\theta(\alpha^*,\beta^*)\ge0 G=f(w∗)−θ(α∗,β∗)≥0， G G G叫作原问题与对偶问题的间距，对于某些特定的优化问题，可以证明 G = 0 G=0 G=0。

强对偶定理：若 f ( w ) f(w) f(w)为凸函数，且 g ( w ) = A w + b g(w)=Aw+b g(w)=Aw+b(线性)， h ( w ) = C w + d h(w)=Cw+d h(w)=Cw+d(线性)，则此优化问题原问题与对偶问题的间距为零，即 f ( w ∗ ) = θ ( α ∗ , β ∗ ) f(w^*)=\theta(\alpha^*,\beta^*) f(w∗)=θ(α∗,β∗)，此证明比较麻烦，这里不作证明。这时我们就可以将原问题的求解转化到对偶问题的求解上来。