1.拉格朗日函数


 考虑标准形式的优化问题如下所示:
minimizef0(x)s.t.fi(x)≤0,i=1,⋯,mhi(x)=0,i=1,⋯,p(1)\tag{1}\begin{array}{ll} \mathrm{minimize} & f_0(x) \\ \mathrm{s.t.} & f_{i}(x) \leq 0,\quad i=1,\cdots,m\\ &h_{i}(x) = 0, \quad i=1,\cdots,p \end{array} minimizes.t.​f0​(x)fi​(x)≤0,i=1,⋯,mhi​(x)=0,i=1,⋯,p​(1)其中,自变量x∈Rnx \in \boldsymbol{\mathrm{R}}^{n}x∈Rn。定义域为D=⋂i=0mdom(fi)∩⋂i=1pdom(hi)\mathcal{D}=\bigcap\limits^m_{i=0}\mathrm{dom}(f_i) \cap\bigcap\limits_{i=1}^{p}\mathrm{dom}(h_i)D=i=0⋂m​dom(fi​)∩i=1⋂p​dom(hi​)是非空集合,优化问题的最优值为p∗p^{*}p∗。
 Lagrange对偶的基本思想是在目标函数中考虑问题(1)(1)(1)的条件约束,即添加约束条件的加权和,得到增广的目标函数。定义问题(1)(1)(1)的拉格朗日函数L:Rn×Rm×Rp→RL:\mathrm{R}^{n} \times \mathrm{R}^{m} \times \mathrm{R}^{p} \rightarrow \mathrm{R}L:Rn×Rm×Rp→R为
L(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x),L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x),L(x,λ,v)=f0​(x)+i=1∑m​λi​fi​(x)+i=1∑p​vi​hi​(x),其中定义域为dom(L)=D×Rm×Rp\mathrm{dom}(L)=\mathcal{D}\times \mathrm{R}^{m}\times \mathrm{R}^{p}dom(L)=D×Rm×Rp。λi\lambda_iλi​称为第iii个不等式约束fi(x)≤0f_i(x)\leq0fi​(x)≤0对应的Lagrange乘子;类似地,viv_ivi​称为第iii个等式约束hi(x)=0h_i(x)=0hi​(x)=0对应地Lagrange乘子。向量λ\lambdaλ和vvv称为对偶变量或者问题(1)(1)(1)地Lagrange乘子向量。

2.Lagrange对偶函数


 定义Lagrange对偶函数g:Rm×Rp→Rg:\mathrm{R}^{m}\times\mathrm{R}^{p}\rightarrow \mathrm{R}g:Rm×Rp→R为Lagrange函数关于xxx取得地最小值:即对λ∈Rm\lambda \in \mathrm{R}^{m}λ∈Rm,v∈Rpv \in \mathrm{R}^{p}v∈Rp有
g(λ,v)=inf⁡x∈DL(x,λ,v)=inf⁡x∈D(f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x))g(\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}} L(x,\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}}\left(f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x)\right)g(λ,v)=x∈Dinf​L(x,λ,v)=x∈Dinf​(f0​(x)+i=1∑m​λi​fi​(x)+i=1∑p​vi​hi​(x))如果Lagrange函数关于xxx无下界,则对偶函数取值为−∞-\infty−∞。因为对偶函数是一族关于(λ,v)(\lambda,v)(λ,v)地仿射函数地逐点下确界,所以即使原问题(1)(1)(1)不是凸函数,对偶函数也是凹函数。

3.最优值下界


  对偶函数构成了原问题(1)(1)(1)最优值p∗p^{*}p∗的下界:即对任意λ⪰0\lambda \succeq 0λ⪰0和vvv下式成立:g(λ,v)≤p∗.(2)\tag{2} g(\lambda,v) \leq p^{*}.g(λ,v)≤p∗.(2)可以很容易验证这个重要的性质。设x~\tilde{x}x~是原问题(1)(1)(1)的一个可行点,即fi(x)≤0f_i(x) \leq 0fi​(x)≤0且hi(x)=0h_i(x)=0hi​(x)=0。根据假设λ⪰0\lambda \succeq 0λ⪰0,则有∑i=1mλifi(x~)+∑i=1pvihi(x~)≤0,\sum\limits_{i=1}^{m}\lambda_if_i(\tilde{x})+\sum\limits_{i=1}^{p}v_ih_i(\tilde{x}) \leq 0,i=1∑m​λi​fi​(x~)+i=1∑p​vi​hi​(x~)≤0,这是因为左边的第一项非正而第二项为零。根据上述不等式,则有:L(x~,λ,v)=f0(x~)+∑i=1mλifi(x~)+∑i=1pvihi(x)≤f0(x~).L(\tilde{x},\lambda,v)=f_0(\tilde{x})+\sum\limits_{i=1}^{m}\lambda_if_i(\tilde{x})+\sum\limits_{i=1}^{p}v_ih_i(x) \leq f_0(\tilde{x}).L(x~,λ,v)=f0​(x~)+i=1∑m​λi​fi​(x~)+i=1∑p​vi​hi​(x)≤f0​(x~).因此有:g(λ,v)=inf⁡x∈DL(x,λ,v)≤L(x~,λ,v)≤f0(x~).g(\lambda,v)=\underset{x \in \mathcal{D}}{\operatorname{inf}}L(x,\lambda,v)\leq L(\tilde{x},\lambda,v)\leq f_0(\tilde{x}).g(λ,v)=x∈Dinf​L(x,λ,v)≤L(x~,λ,v)≤f0​(x~).由于每一个可行点x~\tilde{x}x~都满足g(λ,v)≤f0(x~)g(\lambda,v) \leq f_0(\tilde{x})g(λ,v)≤f0​(x~),因此不等式(2)(2)(2)成立。

4.线性逼近


  首先将原问题(1)(1)(1)重新描述为一个无约束问题。minimize⁡f0(x)+∑i=1mI−(fi(x))+∑i=1pI0(hi(x)),(3)\tag{3} \operatorname{minimize} \quad f_0(x)+\sum\limits_{i=1}^{m}I_{-}(f_i(x))+\sum\limits_{i=1}^{p}I_{0}(h_i(x)),minimizef0​(x)+i=1∑m​I−​(fi​(x))+i=1∑p​I0​(hi​(x)),(3)其中,I−:R→RI_{-}:\mathrm{R}\rightarrow \mathrm{R}I−​:R→R是非正实数集的示例范数I−(u)={0u≤0∞u>0I_{-}(u)=\left\{\begin{array}{ll}0&u\leq 0\\\infty&u>0\end{array}\right.I−​(u)={0∞​u≤0u>0​I0I_0I0​是集合{0}\{0\}{0}的示性函数。
 在表达式(3)(3)(3)中,用线性函数λiu\lambda_i uλi​u代替函数I−(u)I_{-}(u)I−​(u),其中λi≥0\lambda_i \geq 0λi​≥0,用函数viuv_iuvi​u替代I0(u)I_{0}(u)I0​(u)。则目标函数变为Lagrange函数L(x,λ,v)L(x,\lambda,v)L(x,λ,v),且对偶函数值g(λ,v)g(\lambda,v)g(λ,v)是问题minimize⁡L(x,λ,v)=f0(x)+∑i=1mλifi(x)+∑i=1pvihi(x)\operatorname{minimize} L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^{m}\lambda_if_i(x)+\sum\limits_{i=1}^{p}v_ih_i(x)minimizeL(x,λ,v)=f0​(x)+i=1∑m​λi​fi​(x)+i=1∑p​vi​hi​(x)的最优值。线性函数可以看成是示例函数的一个下估计。这是因为对任意uuu,有λiu≤I−u\lambda_i u \leq I_{-}uλi​u≤I−​u和viu≤I0(u)v_i u \leq I_0(u)vi​u≤I0​(u),随之可以得到对偶问题是原问题最优函数值的一个下界。

5.对偶函数实例


5.1 线性方程组的最小二乘解

 考虑问题minimize⁡x⊤xs.t.Ax=b\begin{array}{ll}\operatorname{minimize} & x^{\top} x\\ \mathrm{s.t.}&Ax =b\\\end{array}minimizes.t.​x⊤xAx=b​其中A∈Rp×nA \in \mathrm{R}^{p \times n}A∈Rp×n。这个问题没有不等式约束,有ppp个(线性)等式约束。其Lagrange函数是L(x,v)=x⊤x+v⊤(Ax−b),L(x,v)=x^{\top}x+v^{\top}(Ax-b),L(x,v)=x⊤x+v⊤(Ax−b),定义为Rn×Rp\mathrm{R}^{n}\times \mathrm{R}^{p}Rn×Rp。对偶函数是g(v)=inf⁡xL(x,v)g(v)=\operatorname{inf}_x L(x,v)g(v)=infx​L(x,v)。因为L(x,v)L(x,v)L(x,v)是xxx的二次凸函数,可以通过求解如下最优条件得到函数的最小值,∇xL(x,v)=2x+A⊤v=0,\nabla_x L(x,v)=2x+A^{\top}v=0,∇x​L(x,v)=2x+A⊤v=0,在点x=−12A⊤vx=-\frac{1}{2}A^{\top}vx=−21​A⊤v处Lagrange函数达到最小值。因此对偶函数为g(v)=L(−12A⊤v,v)=−14v⊤AA⊤v−b⊤v,g(v)=L(-\frac{1}{2}A^{\top}v,v)=-\frac{1}{4}v^{\top}AA^{\top}v-b^{\top}v,g(v)=L(−21​A⊤v,v)=−41​v⊤AA⊤v−b⊤v,它是一个二次凹函数,定义域为Rp\mathrm{R}^{p}Rp。根据对偶函数给出原问题下界的性质,对任意v∈Rpv \in \mathrm{R}^{p}v∈Rp,有−14v⊤AA⊤v−b⊤v≤inf⁡{x⊤x∣Ax=b}.-\frac{1}{4}v^{\top}AA^{\top}v-b^{\top}v\leq \operatorname{inf}\{x^{\top}x|Ax=b\}.−41​v⊤AA⊤v−b⊤v≤inf{x⊤x∣Ax=b}.

5.2标准形式的线性规划


 考虑标准形式的线性规划问题minimize⁡c⊤xs.t.Ax=bx⪰0,\begin{array}{ll}\operatorname{minimize}&c^{\top}x\\ \mathrm{s.t.}&Ax=b\\ &x \succeq 0, \end{array}minimizes.t.​c⊤xAx=bx⪰0,​其中,不等式约束函数为fi(x)=−xi,i=1,...,nf_i(x)=-x_i,i=1,...,nfi​(x)=−xi​,i=1,...,n。为了推导Lagrange函数,对nnn个不等式约束引入Lagrange乘子λi\lambda_iλi​,对等式约束引入Lagrange乘子viv_ivi​,能够得到L(x,λ,v)=c⊤x−∑i=1nλixi+v⊤(Ax−b)=−b⊤v+(c+A⊤v−λ)⊤x.L(x,\lambda,v)=c^{\top}x-\sum\limits_{i=1}^{n}\lambda_ix_i+v^{\top}(Ax-b)=-b^{\top}v+(c+A^{\top}v-\lambda)^{\top}x.L(x,λ,v)=c⊤x−i=1∑n​λi​xi​+v⊤(Ax−b)=−b⊤v+(c+A⊤v−λ)⊤x.对偶函数为g(λ,v)=inf⁡xL(x,λ,v)=−b⊤v+inf⁡x(c+A⊤v−λ)⊤x,g(\lambda,v)=\underset{x}{\operatorname{inf}}L(x,\lambda,v)=-b^{\top}v+\underset{x}{\operatorname{inf}}(c+A^{\top}v-\lambda)^{\top}x,g(λ,v)=xinf​L(x,λ,v)=−b⊤v+xinf​(c+A⊤v−λ)⊤x,可以很容易确定对偶函数的解析表达式,因为线性函数只有恒为零时才有下界。因此,当c+A⊤v−λ=0c+A^{\top}v-\lambda=0c+A⊤v−λ=0时,g(λ,v)=−b⊤vg(\lambda,v)=-b^{\top}vg(λ,v)=−b⊤v,其余情况下g(λ,v)=−b⊤vg(\lambda,v)=-b^{\top}vg(λ,v)=−b⊤v,其余情况下g(λ,v)=−∞g(\lambda,v)=-\inftyg(λ,v)=−∞,即g(λ,v)={−b⊤vA⊤v−λ+c=0−∞otherwise.⁡g(\lambda,v)=\left\{\begin{array}{ll}-b^{\top}v & A^{\top}v-\lambda+c=0\\ -\infty & \operatorname{otherwise.}\end{array}\right.g(λ,v)={−b⊤v−∞​A⊤v−λ+c=0otherwise.​注意到对偶函数ggg只有在Rm×Rp\mathrm{R}^{m}\times \mathrm{R}^{p}Rm×Rp上的一个正常仿射子集上才是有限值。

5.3 双向划分问题

  考虑非凸问题minimize⁡x⊤Wxs.t.xi2=1,i=1,⋯,n(4)\tag{4}\begin{array}{ll}\operatorname{minimize}&x^{\top}Wx\\\mathrm{s.t.}&x^{2}_{i}=1,\quad i=1,\cdots,n\end{array}minimizes.t.​x⊤Wxxi2​=1,i=1,⋯,n​(4)其中,W∈SnW \in \mathrm{S}^{n}W∈Sn。约束条件要求xix_ixi​的值为111或者−1-1−1,所以原问题等价于寻找这样的向量,其分量为±1\pm 1±1,并使x⊤Wxx^{\top}Wxx⊤Wx最小。可行集是有限的(包含2n2^{n}2n个点),所以此问题本质上可以通过遍历所有可行点来求得最小值。然而,可行点的数量是指数增长的,所以,只有当问题规模较小(比如说n≤30n \leq 30n≤30)时,遍历法才是可行的。一般而言(或当nnn大于505050时),问题(4)(4)(4)很难求解。
  将问题(4)(4)(4)看成nnn个元素的集合{1,⋯,n}\{1,\cdots,n\}{1,⋯,n}上的双向划分问题:对任意可行点xxx,将其对应的划分为{1,⋯,n}={i∣xi=−1}∪{i∣xi=1}.\{1,\cdots,n\}=\{i|x_i=-1\}\cup\{i|x_i=1\}.{1,⋯,n}={i∣xi​=−1}∪{i∣xi​=1}.矩阵系数WijW_{ij}Wij​可以看成分量iii和jjj在同一分区内的成本,−Wij-W_{ij}−Wij​看成分量iii和jjj在不同分区内的成本。问题(4)(4)(4)中的目标函数是考虑分量间所有配对的成本,因此问题(4)(4)(4)也即寻找使得总成本最小的划分。此问题的Lagrange函数为L(x,v)=x⊤Wx+∑i=1nvi(xi2−1)=x⊤(W+diag(v))x−1⊤v.\begin{aligned}L(x,v)&=x^{\top}Wx+\sum\limits_{i=1}^{n}v_i(x_{i}^{2}-1)\\&=x^{\top}(W+\mathrm{diag}(v))x-\mathrm{1}^{\top}v.\end{aligned}L(x,v)​=x⊤Wx+i=1∑n​vi​(xi2​−1)=x⊤(W+diag(v))x−1⊤v.​对xxx求极小得到Lagrange对偶函数g(v)=inf⁡x[x⊤(W+diag(v))x−1⊤v]={−1⊤vW+diag(v)⪰0−∞otherwise.g(v)=\underset{x}{\operatorname{inf}}[x^{\top}(W+\mathrm{diag}(v))x-\mathrm{1}^{\top}v]=\left\{\begin{array}{ll}-\mathrm{1^{\top}}v&W+\mathrm{diag}(v)\succeq 0 \\ -\infty & \mathrm{otherwise}. \end{array}\right.g(v)=xinf​[x⊤(W+diag(v))x−1⊤v]={−1⊤v−∞​W+diag(v)⪰0otherwise.​事实上,二次函数求下确界或者是零(如果表达式半正定的),或者是−∞-\infty−∞(如果表达式不是半正定的),因此对偶函数具有上述形式。对偶函数构成了原本复杂的问题(4)(4)(4)的最优值的一个下界。对偶变量的取值为v=−λmin⁡(W)1,v=-\lambda_{\min}(W)\mathrm{1},v=−λmin​(W)1,上述取值是对偶可行的,这是因为W+diag(v)=W−λmin⁡(W)I⪰0.W+\mathrm{diag}(v)=W-\lambda_{\min}(W)I \succeq0.W+diag(v)=W−λmin​(W)I⪰0.由此可以得到最优值p∗p^{*}p∗的一个下界p∗≥−1⊤v=nλmin⁡(W)p^{*}\geq -1^{\top}v=n\lambda_{\min}(W)p∗≥−1⊤v=nλmin​(W)

Lagrange对偶函数相关推荐

  1. 凸优化第五章对偶 5.1 Lagrange对偶函数

    5.1 Lagrange对偶函数 Lagrange Lagrange对偶函数 最优值的下界 例子 Lagrange对偶函数和共轭函数 Lagrange 标准形式的优化问题: 其中,问题的定义域,注意这 ...

  2. Lagrange对偶函数和共轭函数

    1. 共轭函数   定义: 函数f:Rn→Rf:\mathrm{R}^{n} \rightarrow \mathrm{R}f:Rn→R的共轭函数f∗f^{*}f∗为:f∗(y)=sup⁡x∈domf( ...

  3. 如何理解拉格朗日对偶函数

    转自:https://www.cnblogs.com/gczr/p/10521551.html 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题, ...

  4. 凸优化第五章对偶 5.1Lagrange对偶函数

    5.1Lagrange对偶函数 Lagrange Lagrange对偶函数 最优值的下界 例子 Lagrange对偶函数和共轭函数 Lagrange 标准形式的优化问题: 其中,问题的定义域,注意这里 ...

  5. UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶

    UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶 优化理论基础第四部分介绍对偶问题(Dual problem)及其简单性质,是对偶理论的入门,后续章节会更深入地讨论对 ...

  6. UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算

    UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算 例 考虑对偶函数 θ(u1,u2)=min⁡x12+x22≤4x1(2−u1)+x2(3−u2)\theta(u_1,u_2) = ...

  7. L1正则化降噪,对偶函数的构造,求解含L1正则项的优化问题,梯度投影法

    L1正则化降噪,对偶函数的构造,求解含L1正则项的优化问题,梯度投影法 本文主要实现L1正则化降噪,L2 正则化降噪的文章在: https://blog.csdn.net/IYXUAN/article ...

  8. 拉格朗日对偶函数拉格朗日对偶问题

    前段时间学了拉格朗日乘子法,学会了构造拉格朗日函数,也就是学会了把带约束(等式或不等式)的优化问题转化为无约束优化问题,私以为这部分就学完了到此为止了,没想到今天推导SVM的数学模型,要推原问题的对偶 ...

  9. 凸优化——详解原函数的对偶函数、对偶问题和共轭函数之间的关系(我尽力了)

    一. 原函数的对偶函数和共轭函数 对偶函数 原函数 ==> 拉格朗日函数 ==> 对偶函数(拉格朗日对偶函数) f0f_0f0​ ==>L(x,λ\lambdaλ,v) ==> ...

最新文章

  1. 异形隔离java剧情_异形隔离攻略 系统上手教程 全剧情流程图文攻略(41)
  2. 数据结构与算法之贪心算法 C++实现
  3. MIT自然语言处理第三讲:概率语言模型
  4. cJSON 使用笔记
  5. 输入3个字符串,按由小到大顺序输出
  6. 【Linux】GCC程序开发工具(上)
  7. sonar 分析的质量数据在数据库表中的存储和质量维度数值的研究
  8. linux和windows启动,Linux和Windows双系统的启动
  9. python面向对象是什么?面试技巧(三分钟读懂)
  10. gtest框架的介绍与应用
  11. c语言求行列式的值原理,新手作品:行列式计算C语言版
  12. 天体运行轨迹_都说运动是天体的基本特性,那么银河系是绕着什么运动的呢?...
  13. matlab实验 信号处理,数字信号处理MATLAB实现与实验
  14. 面试产品经理 应该如何介绍自己的优势和劣势?
  15. 5G牌照发放了,但需要购买5G手机的用户应等明年再购买
  16. 移动硬盘突然断电导致坏道产生
  17. Java8新特性 Stream流式思想(三)
  18. 中国5G毫米波小基站市场行业运行动态与发展趋势预测报告
  19. 手机如何远程控制和监控PLC
  20. 跨境电商的痛点有哪些?

热门文章

  1. vivoX60pro和vivox60pro+的区别
  2. 棋盘游戏 (二分图匹配)
  3. 怎么样才能考上公务员呢?
  4. c语言杨辉三角(输出10行)
  5. 求两数之和(三种解法)
  6. Java面向对象之抽象类与接口
  7. iview transfer穿梭框
  8. Android10.0 系统解析(02)——搭建Android源代码编译调试环境
  9. 剑网三问题汇总+答疑(2023年7月25日)(长期有效)
  10. java jar包 资源_java jar包资源下载