1.拉格朗日函数

考虑标准形式的优化问题如下所示：
minimizef0(x)s.t.fi(x)≤0,i=1,⋯,mhi(x)=0,i=1,⋯,p(1)\tag{1}\begin{array}{ll} \mathrm{minimize} & f_0(x) \\ \mathrm{s.t.} & f_{i}(x) \leq 0,\quad i=1,\cdots,m\\ &h_{i}(x) = 0, \quad i=1,\cdots,p \end{array} minimizes.t.f0(x)fi(x)≤0,i=1,⋯,mhi(x)=0,i=1,⋯,p(1)其中，自变量x∈Rnx \in \boldsymbol{\mathrm{R}}^{n}x∈Rn。定义域为D=⋂i=0mdom(fi)∩⋂i=1pdom(hi)\mathcal{D}=\bigcap\limits^m_{i=0}\mathrm{dom}(f_i) \cap\bigcap\limits_{i=1}^{p}\mathrm{dom}(h_i)D=i=0⋂mdom(fi)∩i=1⋂pdom(hi)是非空集合，优化问题的最优值为p∗p^{*}p∗。
Lagrange对偶的基本思想是在目标函数中考虑问题(1)(1)(1)的条件约束，即添加约束条件的加权和，得到增广的目标函数。定义问题(1)(1)(1)的拉格朗日函数L:Rn×Rm×Rp→RL:\mathrm{R}^{n} \times \mathrm{R}^{m} \times \mathrm{R}^{p} \rightarrow \mathrm{R}L:Rn×Rm×Rp→R为
L(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x),L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x),L(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x),其中定义域为dom(L)=D×Rm×Rp\mathrm{dom}(L)=\mathcal{D}\times \mathrm{R}^{m}\times \mathrm{R}^{p}dom(L)=D×Rm×Rp。λi\lambda_iλi称为第iii个不等式约束fi(x)≤0f_i(x)\leq0fi(x)≤0对应的Lagrange乘子；类似地，viv_ivi称为第iii个等式约束hi(x)=0h_i(x)=0hi(x)=0对应地Lagrange乘子。向量λ\lambdaλ和vvv称为对偶变量或者问题(1)(1)(1)地Lagrange乘子向量。

2.Lagrange对偶函数

定义Lagrange对偶函数g:Rm×Rp→Rg:\mathrm{R}^{m}\times\mathrm{R}^{p}\rightarrow \mathrm{R}g:Rm×Rp→R为Lagrange函数关于xxx取得地最小值：即对λ∈Rm\lambda \in \mathrm{R}^{m}λ∈Rm，v∈Rpv \in \mathrm{R}^{p}v∈Rp有
g(λ,v)=inf⁡x∈DL(x,λ,v)=inf⁡x∈D(f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x))g(\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}} L(x,\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}}\left(f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x)\right)g(λ,v)=x∈DinfL(x,λ,v)=x∈Dinf(f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x))如果Lagrange函数关于xxx无下界，则对偶函数取值为−∞-\infty−∞。因为对偶函数是一族关于(λ,v)(\lambda,v)(λ,v)地仿射函数地逐点下确界，所以即使原问题(1)(1)(1)不是凸函数，对偶函数也是凹函数。

3.最优值下界

对偶函数构成了原问题(1)(1)(1)最优值p∗p^{*}p∗的下界：即对任意λ⪰0\lambda \succeq 0λ⪰0和vvv下式成立：g(λ,v)≤p∗.(2)\tag{2} g(\lambda,v) \leq p^{*}.g(λ,v)≤p∗.(2)可以很容易验证这个重要的性质。设x~\tilde{x}x~是原问题(1)(1)(1)的一个可行点，即fi(x)≤0f_i(x) \leq 0fi(x)≤0且hi(x)=0h_i(x)=0hi(x)=0。根据假设λ⪰0\lambda \succeq 0λ⪰0，则有∑i=1mλifi(x~)+∑i=1pvihi(x~)≤0,\sum\limits_{i=1}^{m}\lambda_if_i(\tilde{x})+\sum\limits_{i=1}^{p}v_ih_i(\tilde{x}) \leq 0,i=1∑mλifi(x~)+i=1∑pvihi(x~)≤0,这是因为左边的第一项非正而第二项为零。根据上述不等式，则有：L(x~,λ,v)=f0(x~)+∑i=1mλifi(x~)+∑i=1pvihi(x)≤f0(x~).L(\tilde{x},\lambda,v)=f_0(\tilde{x})+\sum\limits_{i=1}^{m}\lambda_if_i(\tilde{x})+\sum\limits_{i=1}^{p}v_ih_i(x) \leq f_0(\tilde{x}).L(x~,λ,v)=f0(x~)+i=1∑mλifi(x~)+i=1∑pvihi(x)≤f0(x~).因此有：g(λ,v)=inf⁡x∈DL(x,λ,v)≤L(x~,λ,v)≤f0(x~).g(\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}}L(x,\lambda,v)\leq L(\tilde{x},\lambda,v)\leq f_0(\tilde{x}).g(λ,v)=x∈DinfL(x,λ,v)≤L(x~,λ,v)≤f0(x~).由于每一个可行点x~\tilde{x}x~都满足g(λ,v)≤f0(x~)g(\lambda,v) \leq f_0(\tilde{x})g(λ,v)≤f0(x~)，因此不等式(2)(2)(2)成立。

4.线性逼近

首先将原问题(1)(1)(1)重新描述为一个无约束问题。minimize⁡f0(x)+∑i=1mI−(fi(x))+∑i=1pI0(hi(x)),(3)\tag{3} \operatorname{minimize} \quad f_0(x)+\sum\limits_{i=1}^{m}I_{-}(f_i(x))+\sum\limits_{i=1}^{p}I_{0}(h_i(x)),minimizef0(x)+i=1∑mI−(fi(x))+i=1∑pI0(hi(x)),(3)其中，I−:R→RI_{-}:\mathrm{R}\rightarrow \mathrm{R}I−:R→R是非正实数集的示例范数I−(u)={0u≤0∞u>0I_{-}(u)=\left\{\begin{array}{ll}0&u\leq 0\\\infty&u>0\end{array}\right.I−(u)={0∞u≤0u>0I0I_0I0是集合{0}\{0\}{0}的示性函数。
在表达式(3)(3)(3)中，用线性函数λiu\lambda_i uλiu代替函数I−(u)I_{-}(u)I−(u)，其中λi≥0\lambda_i \geq 0λi≥0，用函数viuv_iuviu替代I0(u)I_{0}(u)I0(u)。则目标函数变为Lagrange函数L(x,λ,v)L(x,\lambda,v)L(x,λ,v)，且对偶函数值g(λ,v)g(\lambda,v)g(λ,v)是问题minimize⁡L(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x)\operatorname{minimize} L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x)minimizeL(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)的最优值。线性函数可以看成是示例函数的一个下估计。这是因为对任意uuu，有λiu≤I−u\lambda_i u \leq I_{-}uλiu≤I−u和viu≤I0(u)v_i u \leq I_0(u)viu≤I0(u)，随之可以得到对偶问题是原问题最优函数值的一个下界。

5.对偶函数实例

5.1 线性方程组的最小二乘解

考虑问题minimize⁡x⊤xs.t.Ax=b\begin{array}{ll}\operatorname{minimize} & x^{\top} x\\ \mathrm{s.t.}&Ax =b\\\end{array}minimizes.t.x⊤xAx=b其中A∈Rp×nA \in \mathrm{R}^{p \times n}A∈Rp×n。这个问题没有不等式约束，有ppp个（线性）等式约束。其Lagrange函数是L(x,v)=x⊤x+v⊤(Ax−b),L(x,v)=x^{\top}x+v^{\top}(Ax-b),L(x,v)=x⊤x+v⊤(Ax−b),定义为Rn×Rp\mathrm{R}^{n}\times \mathrm{R}^{p}Rn×Rp。对偶函数是g(v)=inf⁡xL(x,v)g(v)=\operatorname{inf}_x L(x,v)g(v)=infxL(x,v)。因为L(x,v)L(x,v)L(x,v)是xxx的二次凸函数，可以通过求解如下最优条件得到函数的最小值，∇xL(x,v)=2x+A⊤v=0,\nabla_x L(x,v)=2x+A^{\top}v=0,∇xL(x,v)=2x+A⊤v=0,在点x=−12A⊤vx=-\frac{1}{2}A^{\top}vx=−21A⊤v处Lagrange函数达到最小值。因此对偶函数为g(v)=L(−12A⊤v,v)=−14v⊤AA⊤v−b⊤v,g(v)=L(-\frac{1}{2}A^{\top}v,v)=-\frac{1}{4}v^{\top}AA^{\top}v-b^{\top}v,g(v)=L(−21A⊤v,v)=−41v⊤AA⊤v−b⊤v,它是一个二次凹函数，定义域为Rp\mathrm{R}^{p}Rp。根据对偶函数给出原问题下界的性质，对任意v∈Rpv \in \mathrm{R}^{p}v∈Rp，有−14v⊤AA⊤v−b⊤v≤inf⁡{x⊤x∣Ax=b}.-\frac{1}{4}v^{\top}AA^{\top}v-b^{\top}v\leq \operatorname{inf}\{x^{\top}x|Ax=b\}.−41v⊤AA⊤v−b⊤v≤inf{x⊤x∣Ax=b}.

5.2标准形式的线性规划

考虑标准形式的线性规划问题minimize⁡c⊤xs.t.Ax=bx⪰0,\begin{array}{ll}\operatorname{minimize}&c^{\top}x\\ \mathrm{s.t.}&Ax=b\\ &x \succeq 0, \end{array}minimizes.t.c⊤xAx=bx⪰0,其中，不等式约束函数为fi(x)=−xi,i=1,...,nf_i(x)=-x_i,i=1,...,nfi(x)=−xi,i=1,...,n。为了推导Lagrange函数，对nnn个不等式约束引入Lagrange乘子λi\lambda_iλi，对等式约束引入Lagrange乘子viv_ivi，能够得到L(x,λ,v)=c⊤x−∑i=1nλixi+v⊤(Ax−b)=−b⊤v+(c+A⊤v−λ)⊤x.L(x,\lambda,v)=c^{\top}x-\sum\limits_{i=1}^{n}\lambda_ix_i+v^{\top}(Ax-b)=-b^{\top}v+(c+A^{\top}v-\lambda)^{\top}x.L(x,λ,v)=c⊤x−i=1∑nλixi+v⊤(Ax−b)=−b⊤v+(c+A⊤v−λ)⊤x.对偶函数为g(λ,v)=inf⁡xL(x,λ,v)=−b⊤v+inf⁡x(c+A⊤v−λ)⊤x,g(\lambda,v)=\underset{x}{\operatorname{inf}}L(x,\lambda,v)=-b^{\top}v+\underset{x}{\operatorname{inf}}(c+A^{\top}v-\lambda)^{\top}x,g(λ,v)=xinfL(x,λ,v)=−b⊤v+xinf(c+A⊤v−λ)⊤x,可以很容易确定对偶函数的解析表达式，因为线性函数只有恒为零时才有下界。因此，当c+A⊤v−λ=0c+A^{\top}v-\lambda=0c+A⊤v−λ=0时，g(λ,v)=−b⊤vg(\lambda,v)=-b^{\top}vg(λ,v)=−b⊤v，其余情况下g(λ,v)=−b⊤vg(\lambda,v)=-b^{\top}vg(λ,v)=−b⊤v，其余情况下g(λ,v)=−∞g(\lambda,v)=-\inftyg(λ,v)=−∞，即g(λ,v)={−b⊤vA⊤v−λ+c=0−∞otherwise.⁡g(\lambda,v)=\left\{\begin{array}{ll}-b^{\top}v & A^{\top}v-\lambda+c=0\\ -\infty & \operatorname{otherwise.}\end{array}\right.g(λ,v)={−b⊤v−∞A⊤v−λ+c=0otherwise.注意到对偶函数ggg只有在Rm×Rp\mathrm{R}^{m}\times \mathrm{R}^{p}Rm×Rp上的一个正常仿射子集上才是有限值。

5.3 双向划分问题

考虑非凸问题minimize⁡x⊤Wxs.t.xi2=1,i=1,⋯,n(4)\tag{4}\begin{array}{ll}\operatorname{minimize}&x^{\top}Wx\\\mathrm{s.t.}&x^{2}_{i}=1,\quad i=1,\cdots,n\end{array}minimizes.t.x⊤Wxxi2=1,i=1,⋯,n(4)其中，W∈SnW \in \mathrm{S}^{n}W∈Sn。约束条件要求xix_ixi的值为111或者−1-1−1，所以原问题等价于寻找这样的向量，其分量为±1\pm 1±1，并使x⊤Wxx^{\top}Wxx⊤Wx最小。可行集是有限的（包含2n2^{n}2n个点），所以此问题本质上可以通过遍历所有可行点来求得最小值。然而，可行点的数量是指数增长的，所以，只有当问题规模较小（比如说n≤30n \leq 30n≤30）时，遍历法才是可行的。一般而言（或当nnn大于505050时），问题(4)(4)(4)很难求解。
将问题(4)(4)(4)看成nnn个元素的集合{1,⋯,n}\{1,\cdots,n\}{1,⋯,n}上的双向划分问题：对任意可行点xxx，将其对应的划分为{1,⋯,n}={i∣xi=−1}∪{i∣xi=1}.\{1,\cdots,n\}=\{i|x_i=-1\}\cup\{i|x_i=1\}.{1,⋯,n}={i∣xi=−1}∪{i∣xi=1}.矩阵系数WijW_{ij}Wij可以看成分量iii和jjj在同一分区内的成本，−Wij-W_{ij}−Wij看成分量iii和jjj在不同分区内的成本。问题(4)(4)(4)中的目标函数是考虑分量间所有配对的成本，因此问题(4)(4)(4)也即寻找使得总成本最小的划分。此问题的Lagrange函数为L(x,v)=x⊤Wx+∑i=1nvi(xi2−1)=x⊤(W+diag(v))x−1⊤v.\begin{aligned}L(x,v)&=x^{\top}Wx+\sum\limits_{i=1}^{n}v_i(x_{i}^{2}-1)\\&=x^{\top}(W+\mathrm{diag}(v))x-\mathrm{1}^{\top}v.\end{aligned}L(x,v)=x⊤Wx+i=1∑nvi(xi2−1)=x⊤(W+diag(v))x−1⊤v.对xxx求极小得到Lagrange对偶函数g(v)=inf⁡x[x⊤(W+diag(v))x−1⊤v]={−1⊤vW+diag(v)⪰0−∞otherwise.g(v)=\underset{x}{\operatorname{inf}}[x^{\top}(W+\mathrm{diag}(v))x-\mathrm{1}^{\top}v]=\left\{\begin{array}{ll}-\mathrm{1^{\top}}v&W+\mathrm{diag}(v)\succeq 0 \\ -\infty & \mathrm{otherwise}. \end{array}\right.g(v)=xinf[x⊤(W+diag(v))x−1⊤v]={−1⊤v−∞W+diag(v)⪰0otherwise.事实上，二次函数求下确界或者是零（如果表达式半正定的），或者是−∞-\infty−∞（如果表达式不是半正定的），因此对偶函数具有上述形式。对偶函数构成了原本复杂的问题(4)(4)(4)的最优值的一个下界。对偶变量的取值为v=−λmin⁡(W)1,v=-\lambda_{\min}(W)\mathrm{1},v=−λmin(W)1,上述取值是对偶可行的，这是因为W+diag(v)=W−λmin⁡(W)I⪰0.W+\mathrm{diag}(v)=W-\lambda_{\min}(W)I \succeq0.W+diag(v)=W−λmin(W)I⪰0.由此可以得到最优值p∗p^{*}p∗的一个下界p∗≥−1⊤v=nλmin⁡(W)p^{*}\geq -1^{\top}v=n\lambda_{\min}(W)p∗≥−1⊤v=nλmin(W)

Lagrange对偶函数相关推荐

凸优化第五章对偶 5.1 Lagrange对偶函数
5.1 Lagrange对偶函数 Lagrange Lagrange对偶函数最优值的下界例子 Lagrange对偶函数和共轭函数 Lagrange 标准形式的优化问题: 其中,问题的定义域,注意这 ...
Lagrange对偶函数和共轭函数
1. 共轭函数定义: 函数f:Rn→Rf:\mathrm{R}^{n} \rightarrow \mathrm{R}f:Rn→R的共轭函数f∗f^{*}f∗为:f∗(y)=sup⁡x∈domf( ...
如何理解拉格朗日对偶函数
转自:https://www.cnblogs.com/gczr/p/10521551.html 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题, ...
凸优化第五章对偶 5.1Lagrange对偶函数
5.1Lagrange对偶函数 Lagrange Lagrange对偶函数最优值的下界例子 Lagrange对偶函数和共轭函数 Lagrange 标准形式的优化问题: 其中,问题的定义域,注意这里 ...
UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶
UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶优化理论基础第四部分介绍对偶问题(Dual problem)及其简单性质,是对偶理论的入门,后续章节会更深入地讨论对 ...
UA SIE545 优化理论基础例题对偶函数的凸性与次梯度计算
UA SIE545 优化理论基础例题对偶函数的凸性与次梯度计算例考虑对偶函数 θ(u1,u2)=min⁡x12+x22≤4x1(2−u1)+x2(3−u2)\theta(u_1,u_2) = ...
L1正则化降噪，对偶函数的构造，求解含L1正则项的优化问题，梯度投影法
L1正则化降噪,对偶函数的构造,求解含L1正则项的优化问题,梯度投影法本文主要实现L1正则化降噪,L2 正则化降噪的文章在: https://blog.csdn.net/IYXUAN/article ...
拉格朗日对偶函数拉格朗日对偶问题
前段时间学了拉格朗日乘子法,学会了构造拉格朗日函数,也就是学会了把带约束(等式或不等式)的优化问题转化为无约束优化问题,私以为这部分就学完了到此为止了,没想到今天推导SVM的数学模型,要推原问题的对偶 ...
凸优化——详解原函数的对偶函数、对偶问题和共轭函数之间的关系（我尽力了）
一. 原函数的对偶函数和共轭函数对偶函数原函数 ==> 拉格朗日函数 ==> 对偶函数(拉格朗日对偶函数) f0f_0f0 ==>L(x,λ\lambdaλ,v) ==> ...

Lagrange对偶函数