UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算
UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算
例 考虑对偶函数
θ(u1,u2)=minx12+x22≤4x1(2−u1)+x2(3−u2)\theta(u_1,u_2) = \min_{x_1^2+x_2^2 \le 4} x_1(2-u_1)+x_2(3-u_2)θ(u1,u2)=x12+x22≤4minx1(2−u1)+x2(3−u2)它是凸函数还是凹函数?计算它在(2,3)(2,3)(2,3)处的次梯度。
分析 这个对偶函数对应的原优化问题是
min(x1,x2)∈X2x1+3x2s.t.x1≥0,x2≥0X={(x1,x2):x12+x22≤4}\min_{(x_1,x_2) \in X}2x_1+3x_2 \\ s.t.\ \ x_1 \ge0,x_2 \ge 0 \\ X = \{(x_1,x_2):x_1^2+x_2^2 \le 4\}(x1,x2)∈Xmin2x1+3x2s.t. x1≥0,x2≥0X={(x1,x2):x12+x22≤4}
不难验证这个对偶问题满足强对偶条件,因此原优化与对偶优化的最优值是相等的。
解
第一问:判断对偶函数的凸性,有两种方法:
- 直接法:按照凸性的定义直接验证对偶函数是不是凸函数;
- 解析法:求解出对偶函数的表达式,再判断对偶函数的凸性。
(i) 直接法:考虑u=(u1,u2),v=(v1,v2),λ∈(0,1)u = (u_1,u_2),v=(v_1,v_2), \lambda \in (0,1)u=(u1,u2),v=(v1,v2),λ∈(0,1),θ\thetaθ的定义中,目标函数可以写成
λθ(u)+(1−λ)θ(v)=minx∈Xλ[x1(2−u1)+x2(3−u2)]+minx∈X(1−λ)[x1(2−v1)+x2(3−v2)]≤minx∈Xλ[x1(2−u1)+x2(3−u2)]+(1−λ)[x1(2−v1)+x2(3−v2)]=θ(λu+(1−λ)v)\lambda \theta(u)+(1-\lambda)\theta(v) \\ =\min_{x \in X}\lambda[x_1(2-u_1)+x_2(3-u_2)]+\min_{x \in X}(1-\lambda)[x_1(2-v_1)+x_2(3-v_2)] \\ \le \min_{x \in X} \lambda[x_1(2-u_1)+x_2(3-u_2)]+(1-\lambda)[x_1(2-v_1)+x_2(3-v_2)] \\ = \theta(\lambda u + (1-\lambda)v)λθ(u)+(1−λ)θ(v)=x∈Xminλ[x1(2−u1)+x2(3−u2)]+x∈Xmin(1−λ)[x1(2−v1)+x2(3−v2)]≤x∈Xminλ[x1(2−u1)+x2(3−u2)]+(1−λ)[x1(2−v1)+x2(3−v2)]=θ(λu+(1−λ)v)
于是θ\thetaθ是凹函数;
(ii) 解析法:考虑求解θ(u1,u2)\theta(u_1,u_2)θ(u1,u2)的表达式,把x1,x2x_1,x_2x1,x2消掉,
θ(u1,u2)=minx12+x22≤4x1(2−u1)+x2(3−u2)\theta(u_1,u_2) = \min_{x_1^2+x_2^2 \le 4} x_1(2-u_1)+x_2(3-u_2)θ(u1,u2)=x12+x22≤4minx1(2−u1)+x2(3−u2)这个优化目标函数是线性函数、可行域是圆,可以用几何法求解,当然也可以用代数法,我们先考虑代数法:
记v=[2−u1,3−u2]Tv = [2-u_1,3-u_2]^Tv=[2−u1,3−u2]T,则
θ(u1,u2)=min{xTv:∥x∥≤2}\theta(u_1,u_2) = \min\{x^Tv: \left\| x \right\| \le 2\}θ(u1,u2)=min{xTv:∥x∥≤2}
根据Cauchy-Schwarz不等式,−∥x∥∥v∥≤xTv≤∥x∥∥v∥-\left\| x \right\| \left\| v \right\| \le x^Tv \le \left\| x \right\| \left\| v \right\|−∥x∥∥v∥≤xTv≤∥x∥∥v∥,因此
θ(u1,u2)≥min{−∥x∥∥v∥:∥x∥≤2}=−2∥v∥,∀u1,u2\theta(u_1,u_2) \ge \min\{-\left\| x \right\| \left\| v \right\|: \left\| x \right\| \le 2\}=-2\left\| v \right\|,\forall u_1,u_2θ(u1,u2)≥min{−∥x∥∥v∥:∥x∥≤2}=−2∥v∥,∀u1,u2当且仅当x=−2v∥v∥x = -\frac{2v}{ \left\| v \right\|}x=−∥v∥2v时取等。因此
θ(u1,u2)=−2∥v∥=−2(2−u1)2+(3−u2)2\theta(u_1,u_2)=-2\left\| v \right\| = -2\sqrt{(2-u_1)^2+(3-u_2)^2}θ(u1,u2)=−2∥v∥=−2(2−u1)2+(3−u2)2
不难验证这个是凹函数;
接下来演示一下几何法求θ(u1,u2)\theta(u_1,u_2)θ(u1,u2)的表达式。
θ(u1,u2)=minx12+x22≤4x1(2−u1)+x2(3−u2)\theta(u_1,u_2) = \min_{x_1^2+x_2^2 \le 4} x_1(2-u_1)+x_2(3-u_2)θ(u1,u2)=x12+x22≤4minx1(2−u1)+x2(3−u2)
可行域是圆心在原点,半径为2的圆,目标函数是斜率为2−u1u2−3\frac{2-u_1}{u_2-3}u2−32−u1的直线族的斜率,如果2−u1u2−3=0\frac{2-u_1}{u_2-3}=0u2−32−u1=0,则x1=0,x2=2x_1=0,x_2=2x1=0,x2=2时函数值最小,此时θ(u1,u2)=6−2u2\theta(u_1,u_2)=6-2u_2θ(u1,u2)=6−2u2;如果2−u1u2−3<0\frac{2-u_1}{u_2-3}<0u2−32−u1<0,则直线与圆在第三象限相切时函数值最小,对于圆而言,
2x1dx1+2x2dx2=0⇒dx2dx1=−x1x2=2−u1u2−32x_1dx_1+2x_2dx_2 = 0 \Rightarrow \frac{dx_2}{dx_1}=-\frac{x_1}{x_2}=\frac{2-u_1}{u_2-3}2x1dx1+2x2dx2=0⇒dx1dx2=−x2x1=u2−32−u1
再根据x12+x22=4x_1^2+x_2^2 = 4x12+x22=4,不难解出
{x12=4(2−u1)2(2−u1)2+(3−u2)2x22=4(3−u2)2(2−u1)2+(3−u2)2\begin{cases} x_1^2 = \frac{4(2-u_1)^2}{(2-u_1)^2+(3-u_2)^2} \\ x_2^2 = \frac{4(3-u_2)^2}{(2-u_1)^2+(3-u_2)^2} \end{cases}{x12=(2−u1)2+(3−u2)24(2−u1)2x22=(2−u1)2+(3−u2)24(3−u2)2
如果2−u1u2−3>0\frac{2-u_1}{u_2-3}>0u2−32−u1>0,则直线与圆在第四象限相切时函数值最小,计算过程与上面这个相同。可以算出
θ(u1,u2)=−2(2−u1)2+(3−u2)2\theta(u_1,u_2)=-2\sqrt{(2-u_1)^2+(3-u_2)^2}θ(u1,u2)=−2(2−u1)2+(3−u2)2
显然这个比θ(u1,u2)=6−2u2\theta(u_1,u_2)=6-2u_2θ(u1,u2)=6−2u2更小,综上,
θ(u1,u2)=−2(2−u1)2+(3−u2)2\theta(u_1,u_2)=-2\sqrt{(2-u_1)^2+(3-u_2)^2}θ(u1,u2)=−2(2−u1)2+(3−u2)2
第二问:计算在(2,3)(2,3)(2,3)处的次梯度。次梯度的定义是
f:S→Rf:S \to \mathbb{R}f:S→R is concave where SSS is a nonempty convex set. Then ξ\xiξ is called subgradient of fff at xˉ\bar xxˉ if
f(x)≤f(xˉ)+ξT(x−xˉ),∀x∈Sf(x) \le f(\bar x)+\xi^T(x-\bar x),\forall x \in Sf(x)≤f(xˉ)+ξT(x−xˉ),∀x∈S
根据这个定义,假设ξ\xiξ是次梯度,则
θ(u1,u2)≤θ(2,3)+ξT[u1−2,u2−3]T≤ξT[u1−2,u2−3]T\theta(u_1,u_2) \le \theta(2,3)+\xi^T[u_1-2,u_2-3]^T \\ \le \xi^T[u_1-2,u_2-3]^Tθ(u1,u2)≤θ(2,3)+ξT[u1−2,u2−3]T≤ξT[u1−2,u2−3]T
根据第一问的不同证法,第二问也有两种不同的计算方法:
方法一:如果第一问用的直接法,那么我们观察一下
θ(u1,u2)=minx12+x22≤4x1(2−u1)+x2(3−u2)⇒∀x12+x22≤4,θ(u1,u2)≤xT[u1−2,u2−3]T\theta(u_1,u_2) = \min_{x_1^2+x_2^2 \le 4} x_1(2-u_1)+x_2(3-u_2) \\ \Rightarrow \forall x_1^2+x_2^2 \le 4,\theta(u_1,u_2) \le x^T[u_1-2,u_2-3]^Tθ(u1,u2)=x12+x22≤4minx1(2−u1)+x2(3−u2)⇒∀x12+x22≤4,θ(u1,u2)≤xT[u1−2,u2−3]T
把xxx换成ξ\xiξ就是我们需要的结果,于是∥ξ∥≤2\left\| \xi \right\| \le 2∥ξ∥≤2,次梯度为
{ξ:∥ξ∥≤2}\{\xi:\left\| \xi \right\| \le 2\}{ξ:∥ξ∥≤2}
方法二:如果第一问用的解析法,那么我们已经知道了θ(u1,u2)=−2(2−u1)2+(3−u2)2\theta(u_1,u_2)=-2\sqrt{(2-u_1)^2+(3-u_2)^2}θ(u1,u2)=−2(2−u1)2+(3−u2)2
于是我们要做的是求解:
−2(2−u1)2+(3−u2)2≤ξT[u1−2,u2−3]T-2\sqrt{(2-u_1)^2+(3-u_2)^2} \le \xi^T[u_1-2,u_2-3]^T−2(2−u1)2+(3−u2)2≤ξT[u1−2,u2−3]T
也就是2∥v∥≥ξTv2 \left\| v \right\| \ge \xi^Tv2∥v∥≥ξTv,根据Cauchy-Schwarz定理,∥ξ∥≤2\left\| \xi \right\| \le 2∥ξ∥≤2时对所有v∈R2v \in \mathbb{R}^2v∈R2成立,所以次梯度为
{ξ:∥ξ∥≤2}\{\xi:\left\| \xi \right\| \le 2\}{ξ:∥ξ∥≤2}
UA SIE545 优化理论基础 例题 对偶函数的凸性与次梯度计算相关推荐
- UA SIE545 优化理论基础4 对偶理论简介5 对偶的几何解释
UA SIE545 优化理论基础4 对偶理论简介5 对偶的几何解释 前四讲我们建立了弱对偶与强对偶的概念与理论,这一讲我们试图从直观上理解对偶. 强对偶的几何解释 考虑下面的优化 min(x−2)2 ...
- UA SIE545 优化理论基础4 对偶理论简介2 弱对偶与Duality Gap
UA SIE545 优化理论基础4 对偶理论简介2 弱对偶与Duality Gap 上一讲我们定义了Lagrange对偶,这一讲我们介绍第一个重要结论--弱对偶定理(Weak duality theo ...
- UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶
UA SIE545 优化理论基础4 对偶理论简介1 松弛问题与Lagrange对偶 优化理论基础第四部分介绍对偶问题(Dual problem)及其简单性质,是对偶理论的入门,后续章节会更深入地讨论对 ...
- UA SIE545 优化理论基础1 例题1 常见的凸集
UA SIE545 优化理论基础1 例题1 常见的凸集 一些例题 在优化理论中,我们主要讨论下面几种凸集: 超平面:{x:pTx=β}\{x:p^Tx=\beta\}{x:pTx=β} 半空间:{x: ...
- UA SIE545 优化理论基础 函数凸性的一些有趣的判断方法
UA SIE545 优化理论基础 函数凸性的一些有趣的判断方法 Convex function f:S→Rf:S \to \mathbb{R}f:S→R where SSS is a nonempty ...
- UA SIE545 优化理论基础1 例题3 凸多面体的表示与线性规划
UA SIE545 优化理论基础1 例题3 凸多面体的表示与线性规划 这一讲介绍多面体的表示算法,以及单纯形的计算方法.考虑线性规划: mincTxs.t.Ax=b,x≥0\min \ \ c^Tx ...
- UA SIE545 优化理论基础1 例题2 Farkas定理与相关结论
UA SIE545 优化理论基础1 例题2 Farkas定理与相关结论 Farkas定理的证明方法 Gordan定理 Farkas定理是分离定理的直接结果: Farkas定理 AAA是一个m×nm\t ...
- UA SIE545 优化理论基础1 例题4 证明一个集合是闭集
UA SIE545 优化理论基础1 例题4 证明一个集合是闭集 闭集在分离定理中有非常广泛的应用,很多条件均要求闭凸集,因此验证一个集合是闭集的技术是比较重要的. Closure clScl SclS ...
- UA SIE545 优化理论基础4 对偶理论简介3 强对偶
UA SIE545 优化理论基础4 对偶理论简介3 强对偶 上一讲介绍了弱对偶,弱对偶满足 inf{f(x):x∈X,g(x)≤0,h(x)=0}≥sup{θ(u,v):u≥0}\inf\{f(x ...
最新文章
- QT 下配置OpenCV(VS编译器+QT+OpenCV)
- Java 爬虫--类似Python的requests库--HttpClient, HttpAsyncClient--Maven
- [C] zintrin.h: 智能引入intrinsic函数 V1.01版。改进对Mac OS X的支持,增加INTRIN_WORDSIZE宏...
- 初学Java你有这些疑惑吗?本文给你几个建议
- 【Java数据结构】链表的增、删、返回指定位置元素(添加泛型)
- jSignature签名的用法,一文教会你(二)后台代码
- docker swarm
- linux内核zfs,ZFS与Linux文件系统的变革
- 一次函数的斜率公式_直线斜率k的公式
- mac上文字识别(Tesseract-OCR for mac )
- iredmail创建邮件群组
- 深度残差网络+自适应参数化ReLU激活函数:调参记录2
- 计算机网络网络层之虚电路网络
- 防火墙的双机热备技术(上下行接口连接二层设备)
- POI实现EXCEL单元格合并及边框样式
- jsonp跨域原理及使用
- macbook系统占用硬盘大_mac book pro 系统占用的硬盘空间太大怎么办?
- 源代码 一对一交友源码,一对一聊天系统接口处置方案
- 台媒:台积电预计在台湾新竹建设使用2纳米制程的工厂
- ARouter原理分析