Lagrange对偶函数
1.拉格朗日函数
考虑标准形式的优化问题如下所示:
minimizef0(x)s.t.fi(x)≤0,i=1,⋯,mhi(x)=0,i=1,⋯,p(1)\tag{1}\begin{array}{ll} \mathrm{minimize} & f_0(x) \\ \mathrm{s.t.} & f_{i}(x) \leq 0,\quad i=1,\cdots,m\\ &h_{i}(x) = 0, \quad i=1,\cdots,p \end{array} minimizes.t.f0(x)fi(x)≤0,i=1,⋯,mhi(x)=0,i=1,⋯,p(1)其中,自变量x∈Rnx \in \boldsymbol{\mathrm{R}}^{n}x∈Rn。定义域为D=⋂i=0mdom(fi)∩⋂i=1pdom(hi)\mathcal{D}=\bigcap\limits^m_{i=0}\mathrm{dom}(f_i) \cap\bigcap\limits_{i=1}^{p}\mathrm{dom}(h_i)D=i=0⋂mdom(fi)∩i=1⋂pdom(hi)是非空集合,优化问题的最优值为p∗p^{*}p∗。
Lagrange对偶的基本思想是在目标函数中考虑问题(1)(1)(1)的条件约束,即添加约束条件的加权和,得到增广的目标函数。定义问题(1)(1)(1)的拉格朗日函数L:Rn×Rm×Rp→RL:\mathrm{R}^{n} \times \mathrm{R}^{m} \times \mathrm{R}^{p} \rightarrow \mathrm{R}L:Rn×Rm×Rp→R为
L(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x),L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x),L(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x),其中定义域为dom(L)=D×Rm×Rp\mathrm{dom}(L)=\mathcal{D}\times \mathrm{R}^{m}\times \mathrm{R}^{p}dom(L)=D×Rm×Rp。λi\lambda_iλi称为第iii个不等式约束fi(x)≤0f_i(x)\leq0fi(x)≤0对应的Lagrange乘子;类似地,viv_ivi称为第iii个等式约束hi(x)=0h_i(x)=0hi(x)=0对应地Lagrange乘子。向量λ\lambdaλ和vvv称为对偶变量或者问题(1)(1)(1)地Lagrange乘子向量。
2.Lagrange对偶函数
定义Lagrange对偶函数g:Rm×Rp→Rg:\mathrm{R}^{m}\times\mathrm{R}^{p}\rightarrow \mathrm{R}g:Rm×Rp→R为Lagrange函数关于xxx取得地最小值:即对λ∈Rm\lambda \in \mathrm{R}^{m}λ∈Rm,v∈Rpv \in \mathrm{R}^{p}v∈Rp有
g(λ,v)=infx∈DL(x,λ,v)=infx∈D(f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x))g(\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}} L(x,\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}}\left(f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x)\right)g(λ,v)=x∈DinfL(x,λ,v)=x∈Dinf(f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x))如果Lagrange函数关于xxx无下界,则对偶函数取值为−∞-\infty−∞。因为对偶函数是一族关于(λ,v)(\lambda,v)(λ,v)地仿射函数地逐点下确界,所以即使原问题(1)(1)(1)不是凸函数,对偶函数也是凹函数。
3.最优值下界
对偶函数构成了原问题(1)(1)(1)最优值p∗p^{*}p∗的下界:即对任意λ⪰0\lambda \succeq 0λ⪰0和vvv下式成立:g(λ,v)≤p∗.(2)\tag{2} g(\lambda,v) \leq p^{*}.g(λ,v)≤p∗.(2)可以很容易验证这个重要的性质。设x~\tilde{x}x~是原问题(1)(1)(1)的一个可行点,即fi(x)≤0f_i(x) \leq 0fi(x)≤0且hi(x)=0h_i(x)=0hi(x)=0。根据假设λ⪰0\lambda \succeq 0λ⪰0,则有∑i=1mλifi(x~)+∑i=1pvihi(x~)≤0,\sum\limits_{i=1}^{m}\lambda_if_i(\tilde{x})+\sum\limits_{i=1}^{p}v_ih_i(\tilde{x}) \leq 0,i=1∑mλifi(x~)+i=1∑pvihi(x~)≤0,这是因为左边的第一项非正而第二项为零。根据上述不等式,则有:L(x~,λ,v)=f0(x~)+∑i=1mλifi(x~)+∑i=1pvihi(x)≤f0(x~).L(\tilde{x},\lambda,v)=f_0(\tilde{x})+\sum\limits_{i=1}^{m}\lambda_if_i(\tilde{x})+\sum\limits_{i=1}^{p}v_ih_i(x) \leq f_0(\tilde{x}).L(x~,λ,v)=f0(x~)+i=1∑mλifi(x~)+i=1∑pvihi(x)≤f0(x~).因此有:g(λ,v)=infx∈DL(x,λ,v)≤L(x~,λ,v)≤f0(x~).g(\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}}L(x,\lambda,v)\leq L(\tilde{x},\lambda,v)\leq f_0(\tilde{x}).g(λ,v)=x∈DinfL(x,λ,v)≤L(x~,λ,v)≤f0(x~).由于每一个可行点x~\tilde{x}x~都满足g(λ,v)≤f0(x~)g(\lambda,v) \leq f_0(\tilde{x})g(λ,v)≤f0(x~),因此不等式(2)(2)(2)成立。
4.线性逼近
首先将原问题(1)(1)(1)重新描述为一个无约束问题。minimizef0(x)+∑i=1mI−(fi(x))+∑i=1pI0(hi(x)),(3)\tag{3} \operatorname{minimize} \quad f_0(x)+\sum\limits_{i=1}^{m}I_{-}(f_i(x))+\sum\limits_{i=1}^{p}I_{0}(h_i(x)),minimizef0(x)+i=1∑mI−(fi(x))+i=1∑pI0(hi(x)),(3)其中,I−:R→RI_{-}:\mathrm{R}\rightarrow \mathrm{R}I−:R→R是非正实数集的示例范数I−(u)={0u≤0∞u>0I_{-}(u)=\left\{\begin{array}{ll}0&u\leq 0\\\infty&u>0\end{array}\right.I−(u)={0∞u≤0u>0I0I_0I0是集合{0}\{0\}{0}的示性函数。
在表达式(3)(3)(3)中,用线性函数λiu\lambda_i uλiu代替函数I−(u)I_{-}(u)I−(u),其中λi≥0\lambda_i \geq 0λi≥0,用函数viuv_iuviu替代I0(u)I_{0}(u)I0(u)。则目标函数变为Lagrange函数L(x,λ,v)L(x,\lambda,v)L(x,λ,v),且对偶函数值g(λ,v)g(\lambda,v)g(λ,v)是问题minimizeL(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x)\operatorname{minimize} L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x)minimizeL(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)的最优值。线性函数可以看成是示例函数的一个下估计。这是因为对任意uuu,有λiu≤I−u\lambda_i u \leq I_{-}uλiu≤I−u和viu≤I0(u)v_i u \leq I_0(u)viu≤I0(u),随之可以得到对偶问题是原问题最优函数值的一个下界。
5.对偶函数实例
5.1 线性方程组的最小二乘解
考虑问题minimizex⊤xs.t.Ax=b\begin{array}{ll}\operatorname{minimize} & x^{\top} x\\ \mathrm{s.t.}&Ax =b\\\end{array}minimizes.t.x⊤xAx=b其中A∈Rp×nA \in \mathrm{R}^{p \times n}A∈Rp×n。这个问题没有不等式约束,有ppp个(线性)等式约束。其Lagrange函数是L(x,v)=x⊤x+v⊤(Ax−b),L(x,v)=x^{\top}x+v^{\top}(Ax-b),L(x,v)=x⊤x+v⊤(Ax−b),定义为Rn×Rp\mathrm{R}^{n}\times \mathrm{R}^{p}Rn×Rp。对偶函数是g(v)=infxL(x,v)g(v)=\operatorname{inf}_x L(x,v)g(v)=infxL(x,v)。因为L(x,v)L(x,v)L(x,v)是xxx的二次凸函数,可以通过求解如下最优条件得到函数的最小值,∇xL(x,v)=2x+A⊤v=0,\nabla_x L(x,v)=2x+A^{\top}v=0,∇xL(x,v)=2x+A⊤v=0,在点x=−12A⊤vx=-\frac{1}{2}A^{\top}vx=−21A⊤v处Lagrange函数达到最小值。因此对偶函数为g(v)=L(−12A⊤v,v)=−14v⊤AA⊤v−b⊤v,g(v)=L(-\frac{1}{2}A^{\top}v,v)=-\frac{1}{4}v^{\top}AA^{\top}v-b^{\top}v,g(v)=L(−21A⊤v,v)=−41v⊤AA⊤v−b⊤v,它是一个二次凹函数,定义域为Rp\mathrm{R}^{p}Rp。根据对偶函数给出原问题下界的性质,对任意v∈Rpv \in \mathrm{R}^{p}v∈Rp,有−14v⊤AA⊤v−b⊤v≤inf{x⊤x∣Ax=b}.-\frac{1}{4}v^{\top}AA^{\top}v-b^{\top}v\leq \operatorname{inf}\{x^{\top}x|Ax=b\}.−41v⊤AA⊤v−b⊤v≤inf{x⊤x∣Ax=b}.
5.2标准形式的线性规划
考虑标准形式的线性规划问题minimizec⊤xs.t.Ax=bx⪰0,\begin{array}{ll}\operatorname{minimize}&c^{\top}x\\ \mathrm{s.t.}&Ax=b\\ &x \succeq 0, \end{array}minimizes.t.c⊤xAx=bx⪰0,其中,不等式约束函数为fi(x)=−xi,i=1,...,nf_i(x)=-x_i,i=1,...,nfi(x)=−xi,i=1,...,n。为了推导Lagrange函数,对nnn个不等式约束引入Lagrange乘子λi\lambda_iλi,对等式约束引入Lagrange乘子viv_ivi,能够得到L(x,λ,v)=c⊤x−∑i=1nλixi+v⊤(Ax−b)=−b⊤v+(c+A⊤v−λ)⊤x.L(x,\lambda,v)=c^{\top}x-\sum\limits_{i=1}^{n}\lambda_ix_i+v^{\top}(Ax-b)=-b^{\top}v+(c+A^{\top}v-\lambda)^{\top}x.L(x,λ,v)=c⊤x−i=1∑nλixi+v⊤(Ax−b)=−b⊤v+(c+A⊤v−λ)⊤x.对偶函数为g(λ,v)=infxL(x,λ,v)=−b⊤v+infx(c+A⊤v−λ)⊤x,g(\lambda,v)=\underset{x}{\operatorname{inf}}L(x,\lambda,v)=-b^{\top}v+\underset{x}{\operatorname{inf}}(c+A^{\top}v-\lambda)^{\top}x,g(λ,v)=xinfL(x,λ,v)=−b⊤v+xinf(c+A⊤v−λ)⊤x,可以很容易确定对偶函数的解析表达式,因为线性函数只有恒为零时才有下界。因此,当c+A⊤v−λ=0c+A^{\top}v-\lambda=0c+A⊤v−λ=0时,g(λ,v)=−b⊤vg(\lambda,v)=-b^{\top}vg(λ,v)=−b⊤v,其余情况下g(λ,v)=−b⊤vg(\lambda,v)=-b^{\top}vg(λ,v)=−b⊤v,其余情况下g(λ,v)=−∞g(\lambda,v)=-\inftyg(λ,v)=−∞,即g(λ,v)={−b⊤vA⊤v−λ+c=0−∞otherwise.g(\lambda,v)=\left\{\begin{array}{ll}-b^{\top}v & A^{\top}v-\lambda+c=0\\ -\infty & \operatorname{otherwise.}\end{array}\right.g(λ,v)={−b⊤v−∞A⊤v−λ+c=0otherwise.注意到对偶函数ggg只有在Rm×Rp\mathrm{R}^{m}\times \mathrm{R}^{p}Rm×Rp上的一个正常仿射子集上才是有限值。
5.3 双向划分问题
考虑非凸问题minimizex⊤Wxs.t.xi2=1,i=1,⋯,n(4)\tag{4}\begin{array}{ll}\operatorname{minimize}&x^{\top}Wx\\\mathrm{s.t.}&x^{2}_{i}=1,\quad i=1,\cdots,n\end{array}minimizes.t.x⊤Wxxi2=1,i=1,⋯,n(4)其中,W∈SnW \in \mathrm{S}^{n}W∈Sn。约束条件要求xix_ixi的值为111或者−1-1−1,所以原问题等价于寻找这样的向量,其分量为±1\pm 1±1,并使x⊤Wxx^{\top}Wxx⊤Wx最小。可行集是有限的(包含2n2^{n}2n个点),所以此问题本质上可以通过遍历所有可行点来求得最小值。然而,可行点的数量是指数增长的,所以,只有当问题规模较小(比如说n≤30n \leq 30n≤30)时,遍历法才是可行的。一般而言(或当nnn大于505050时),问题(4)(4)(4)很难求解。
将问题(4)(4)(4)看成nnn个元素的集合{1,⋯,n}\{1,\cdots,n\}{1,⋯,n}上的双向划分问题:对任意可行点xxx,将其对应的划分为{1,⋯,n}={i∣xi=−1}∪{i∣xi=1}.\{1,\cdots,n\}=\{i|x_i=-1\}\cup\{i|x_i=1\}.{1,⋯,n}={i∣xi=−1}∪{i∣xi=1}.矩阵系数WijW_{ij}Wij可以看成分量iii和jjj在同一分区内的成本,−Wij-W_{ij}−Wij看成分量iii和jjj在不同分区内的成本。问题(4)(4)(4)中的目标函数是考虑分量间所有配对的成本,因此问题(4)(4)(4)也即寻找使得总成本最小的划分。此问题的Lagrange函数为L(x,v)=x⊤Wx+∑i=1nvi(xi2−1)=x⊤(W+diag(v))x−1⊤v.\begin{aligned}L(x,v)&=x^{\top}Wx+\sum\limits_{i=1}^{n}v_i(x_{i}^{2}-1)\\&=x^{\top}(W+\mathrm{diag}(v))x-\mathrm{1}^{\top}v.\end{aligned}L(x,v)=x⊤Wx+i=1∑nvi(xi2−1)=x⊤(W+diag(v))x−1⊤v.对xxx求极小得到Lagrange对偶函数g(v)=infx[x⊤(W+diag(v))x−1⊤v]={−1⊤vW+diag(v)⪰0−∞otherwise.g(v)=\underset{x}{\operatorname{inf}}[x^{\top}(W+\mathrm{diag}(v))x-\mathrm{1}^{\top}v]=\left\{\begin{array}{ll}-\mathrm{1^{\top}}v&W+\mathrm{diag}(v)\succeq 0 \\ -\infty & \mathrm{otherwise}. \end{array}\right.g(v)=xinf[x⊤(W+diag(v))x−1⊤v]={−1⊤v−∞W+diag(v)⪰0otherwise.事实上,二次函数求下确界或者是零(如果表达式半正定的),或者是−∞-\infty−∞(如果表达式不是半正定的),因此对偶函数具有上述形式。对偶函数构成了原本复杂的问题(4)(4)(4)的最优值的一个下界。对偶变量的取值为v=−λmin(W)1,v=-\lambda_{\min}(W)\mathrm{1},v=−λmin(W)1,上述取值是对偶可行的,这是因为W+diag(v)=W−λmin(W)I⪰0.W+\mathrm{diag}(v)=W-\lambda_{\min}(W)I \succeq0.W+diag(v)=W−λmin(W)I⪰0.由此可以得到最优值p∗p^{*}p∗的一个下界p∗≥−1⊤v=nλmin(W)p^{*}\geq -1^{\top}v=n\lambda_{\min}(W)p∗≥−1⊤v=nλmin(W)
Lagrange对偶函数相关推荐
- 凸优化第五章对偶 5.1 Lagrange对偶函数
5.1 Lagrange对偶函数 Lagrange Lagrange对偶函数 最优值的下界 例子 Lagrange对偶函数和共轭函数 Lagrange 标准形式的优化问题: 其中,问题的定义域,注意这 ...
- Lagrange对偶函数和共轭函数
1. 共轭函数 定义: 函数f:Rn→Rf:\mathrm{R}^{n} \rightarrow \mathrm{R}f:Rn→R的共轭函数f∗f^{*}f∗为:f∗(y)=supx∈domf( ...
- 如何理解拉格朗日对偶函数
转自:https://www.cnblogs.com/gczr/p/10521551.html 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题, ...
- 凸优化第五章对偶 5.1Lagrange对偶函数
5.1Lagrange对偶函数 Lagrange Lagrange对偶函数 最优值的下界 例子 Lagrange对偶函数和共轭函数 Lagrange 标准形式的优化问题: 其中,问题的定义域,注意这里 ...
- UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶
UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶 优化理论基础第四部分介绍对偶问题(Dual problem)及其简单性质,是对偶理论的入门,后续章节会更深入地讨论对 ...
- UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算
UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算 例 考虑对偶函数 θ(u1,u2)=minx12+x22≤4x1(2−u1)+x2(3−u2)\theta(u_1,u_2) = ...
- L1正则化降噪,对偶函数的构造,求解含L1正则项的优化问题,梯度投影法
L1正则化降噪,对偶函数的构造,求解含L1正则项的优化问题,梯度投影法 本文主要实现L1正则化降噪,L2 正则化降噪的文章在: https://blog.csdn.net/IYXUAN/article ...
- 拉格朗日对偶函数拉格朗日对偶问题
前段时间学了拉格朗日乘子法,学会了构造拉格朗日函数,也就是学会了把带约束(等式或不等式)的优化问题转化为无约束优化问题,私以为这部分就学完了到此为止了,没想到今天推导SVM的数学模型,要推原问题的对偶 ...
- 凸优化——详解原函数的对偶函数、对偶问题和共轭函数之间的关系(我尽力了)
一. 原函数的对偶函数和共轭函数 对偶函数 原函数 ==> 拉格朗日函数 ==> 对偶函数(拉格朗日对偶函数) f0f_0f0 ==>L(x,λ\lambdaλ,v) ==> ...
最新文章
- 异形隔离java剧情_异形隔离攻略 系统上手教程 全剧情流程图文攻略(41)
- 数据结构与算法之贪心算法 C++实现
- MIT自然语言处理第三讲:概率语言模型
- cJSON 使用笔记
- 输入3个字符串,按由小到大顺序输出
- 【Linux】GCC程序开发工具(上)
- sonar 分析的质量数据在数据库表中的存储和质量维度数值的研究
- linux和windows启动,Linux和Windows双系统的启动
- python面向对象是什么?面试技巧(三分钟读懂)
- gtest框架的介绍与应用
- c语言求行列式的值原理,新手作品:行列式计算C语言版
- 天体运行轨迹_都说运动是天体的基本特性,那么银河系是绕着什么运动的呢?...
- matlab实验 信号处理,数字信号处理MATLAB实现与实验
- 面试产品经理 应该如何介绍自己的优势和劣势?
- 5G牌照发放了,但需要购买5G手机的用户应等明年再购买
- 移动硬盘突然断电导致坏道产生
- Java8新特性 Stream流式思想(三)
- 中国5G毫米波小基站市场行业运行动态与发展趋势预测报告
- 手机如何远程控制和监控PLC
- 跨境电商的痛点有哪些?