学习笔记_拉格朗日对偶性(Lagrange duality)

最近打算把svm过一遍，结果发现已经把拉格朗日对偶性忘个差不多了(也许当时也没学会)，试着总结一下。
主要参考书目《统计学习方法》
参考了的文章
浅谈最优化问题的KKT条件
拉格朗日乘子法证明
写的很好的博客
blog1

不太会latex排版式子可能会很丑

LAGRANGEDUALITY\mathcal{LAGRANGE\ DUALITY\ }LAGRANGE DUALITY

0.学习前需要知道的知识
a.等式约束优化问题
minf(x1,x2,...,xn)minf(x_1,x_2,...,x_n)minf(x1,x2,...,xn)
s.t.hk(x1,x2,...,xn)=0s.t.\ h_k(x_1,x_2,...,x_n)=0s.t. hk(x1,x2,...,xn)=0
令L(x,λ)=f(x)+∑k=1lλkhk(x)L(x,\lambda)=f(x)+\sum_{k=1}^l \lambda_kh_k(x)L(x,λ)=f(x)+∑k=1lλkhk(x),函数L(x,y)L(x,y)L(x,y)称为Lagrange函数，参数λ\lambdaλ称为Lagrange乘子
联立方程组：
{∂L∂xi=0(i=1,2,...,n)∂L∂λk=0(k=1,2,...,l)\begin{cases} \frac{\partial L}{ \partial x_i}=0(i=1,2,...,n)\\ \frac{\partial L}{ \partial \lambda_k}=0(k=1,2,...,l) \end{cases} {∂xi∂L=0(i=1,2,...,n)∂λk∂L=0(k=1,2,...,l)
得到的解为可能极值点，具体是否为极值点需要讨论。
b.不等式约束优化问题
minf(x)minf(x)minf(x)
s.t.g1(x)=a−x≤0s.t.\ g_1(x)=a-x\le 0s.t. g1(x)=a−x≤0
g2(x)=x−b≤0\quad \ \ \ g_2(x)=x-b\le 0 g2(x)=x−b≤0
优化问题中，我们需要求得一个确定的值，因此不妨令所有的不等式均取到等号。
对于约束g1g_1g1和g2g_2g2，我们分别引入两个松弛变量a12a_1^2a12和a22a_2^2a22，得到h1(x,a1)=g1+a12=0h_1(x,a_1)=g_1+a_1^2=0h1(x,a1)=g1+a12=0和h2(x,a2)=g2+a22=0h_2(x,a_2)=g_2+a_2^2=0h2(x,a2)=g2+a22=0
由此可以得到Lagrange函数
L(x,a1,b1,μ1,μ2)=f(x)+μ1(a−x+a12)+μ2(x−b+b12)L(x,a_1,b_1,\mu_1,\mu_2)=f(x)+\mu_1(a-x+a_1^2)+\mu_2(x-b+b_1^2)L(x,a1,b1,μ1,μ2)=f(x)+μ1(a−x+a12)+μ2(x−b+b12)
列出方程组
{∂L∂x=∂f∂x+μ1∂g1∂x+μ2∂g2∂x,∂L∂μ1=g1+a12,∂L∂μ2=g2+b12,∂L∂a1=2μ1a1=0,∂L∂b1=2μ2b1=0,μ1≥0,μ2≥0.\begin{cases} \frac{\partial L}{ \partial x}=\frac{\partial f}{ \partial x}+\mu_1\frac{\partial g_1}{\partial x}+\mu_2\frac{\partial g_2}{\partial x},\\ \frac{\partial L}{\partial \mu_1}=g_1+a_1^2,\frac{\partial L}{\partial \mu_2}=g_2+b_1^2,\\ \frac{\partial L}{ \partial a_1}=2\mu_1a_1=0,\frac{\partial L}{ \partial b_1}=2\mu_2b_1=0,\\ \mu_1 \ge 0, \mu_2 \ge 0. \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧∂x∂L=∂x∂f+μ1∂x∂g1+μ2∂x∂g2,∂μ1∂L=g1+a12,∂μ2∂L=g2+b12,∂a1∂L=2μ1a1=0,∂b1∂L=2μ2b1=0,μ1≥0,μ2≥0.
极值必要条件
{∂f∂x+μ1∂g1∂x+μ2∂g2∂x=0μ1g1(x)=0,μ2g2(x)=0,μ1≥0,μ2≥0.\begin{cases} \frac{\partial f}{ \partial x}+\mu_1\frac{\partial g_1}{\partial x}+\mu_2\frac{\partial g_2}{\partial x}=0\\ \mu_1g_1(x)=0,\mu_2g_2(x)=0,\\ \mu_1 \ge 0, \mu_2 \ge 0. \end{cases} ⎩⎪⎨⎪⎧∂x∂f+μ1∂x∂g1+μ2∂x∂g2=0μ1g1(x)=0,μ2g2(x)=0,μ1≥0,μ2≥0.
推广至多元
{∂f(x∗)∂xi+∑j=1mμj∂gj(x∗)∂xi=0(i=1,2,...,n),μjgj(x∗)=0(j=1,2,...,m),μj≥0(j=1,2,...,m).\begin{cases} \frac{\partial f(x^*)}{ \partial x_i}+\sum_{j=1}^m\mu_j\frac{\partial g_j(x^*)} {\partial x_i }=0(i=1,2,...,n),\\ \mu_jg_j(x^*)=0\ (j=1,2,...,m),\\ \mu_j \ge 0\ (j=1,2,...,m) . \end{cases} ⎩⎪⎨⎪⎧∂xi∂f(x∗)+∑j=1mμj∂xi∂gj(x∗)=0(i=1,2,...,n),μjgj(x∗)=0 (j=1,2,...,m),μj≥0 (j=1,2,...,m).
关于μ1,μ2≥0\mu_1,\mu_2\ge 0μ1,μ2≥0的问题，可以看这篇文章

1.原始问题
f(x),ci(x),hj(x)f(x),\ c_i(x), \ h_j(x)f(x), ci(x), hj(x)是定义在RnR^nRn上的连续可微函数。考虑最优化问题
minx∈Rnf(x)s.t.ci(x)≤0,i=1,2,...,lhj(x)=0,j=1,2,...,k\underset{x\in R^n}{min}\ \ \ f(x) \\ s.t. \quad c_i(x) \le 0,\ i=1,2,...,l \\ \qquad \ \ \ h_j(x) = 0,j=1,2,...,k x∈Rnmin f(x)s.t.ci(x)≤0, i=1,2,...,l hj(x)=0,j=1,2,...,k
称此约束最优化问题为原始问题。
引进Lagrange函数
L(x,α,β)=f(x)+∑i=1kαici(x)+∑j=1lβjhj(x)L(x,\alpha,\beta)=f(x)+\sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_jh_j(x) L(x,α,β)=f(x)+i=1∑kαici(x)+j=1∑lβjhj(x)
这里，x=(x(1),x(2),...,x(n))T∈Rn,αi,βix=(x^{(1)},x^{(2)},...,x^{(n)})^T\in R^n,\alpha_i,\beta_ix=(x(1),x(2),...,x(n))T∈Rn,αi,βi是拉格朗日乘子，αi≥0\alpha_i \ge0αi≥0.考虑x的函数：
θP(x)=maxα,β:αi≥0L(x,α,β)\theta_P(x)=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\ L(x,\alpha,\beta) θP(x)=α,β:αi≥0max L(x,α,β)
调节αi,βi\alpha_i,\beta_iαi,βi令
θ(x)={f(x),x满足原始问题约束+∞,otherwise\theta(x)= \begin{cases} f(x),x满足原始问题约束\\ +\infty,otherwise \end{cases} θ(x)={f(x),x满足原始问题约束+∞,otherwise
所以如果考虑极小化问题
minxθP(x)=minxmaxα,β:αi≥0L(x,α,β)\underset{x}{min}\theta_P(x)=\underset{x}{min}\ \underset{\alpha,\beta:\alpha_i \ge 0}{max}\ L(x,\alpha,\beta) xminθP(x)=xmin α,β:αi≥0max L(x,α,β)
它与原始问题的解相同与之等价
定义原始问题的最优值
p∗=minxθP(x)p^*=\underset{x}{min}\theta_P(x) p∗=xminθP(x)称为原始问题的值

2.对偶问题
定义
θD(α,β)=minxL(x,α,β)\theta_D(\alpha,\beta)=\underset{x}{min}\ L(x,\alpha,\beta) θD(α,β)=xmin L(x,α,β)
再考虑极大化θD(α,β)=minxL(x,α,β)\theta_D(\alpha,\beta)=\underset{x}{min}\ L(x,\alpha,\beta)θD(α,β)=xmin L(x,α,β),即
maxα,β:αi≥0θD(α,β)=maxα,β:αi≥0minxL(x,α,β)\underset{\alpha,\beta:\alpha_i \ge 0}{max}\theta_D(\alpha,\beta)=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\underset{x}{min}\ L(x,\alpha,\beta) α,β:αi≥0maxθD(α,β)=α,β:αi≥0maxxmin L(x,α,β)
问题maxα,β:αi≥0minxL(x,α,β)\underset{\alpha,\beta:\alpha_i \ge 0}{max}\underset{x}{min}\ L(x,\alpha,\beta)α,β:αi≥0maxxmin L(x,α,β)称为广义Lagrange的极大极小问题。
可以将广义Lagrange的极大极小问题表示为约束最优化问题：
maxα,βθD(α,β)=maxα,βminxL(x,α,β)s.t.αi≥0,i=1,2,...,k\underset{\alpha,\beta}{max}\theta_D(\alpha,\beta)=\underset{\alpha,\beta}{max}\underset{x}{min}\ L(x,\alpha,\beta)\\ s.t. \quad \alpha_i\ge 0 ,i=1,2,...,k α,βmaxθD(α,β)=α,βmaxxmin L(x,α,β)s.t.αi≥0,i=1,2,...,k
称为原始对偶问题。定义对偶问题的最优值
d∗=maxα,β:αi≥0θD(α,β)d^*=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\ \theta_D(\alpha,\beta) d∗=α,β:αi≥0max θD(α,β)

3.原始问题和对偶问题的关系
定理a 若原始问题和对偶问题都有最优值，则
d∗=maxα,β:αi≥0minxL(x,α,β)≤minxmaxα,β:αi≥0L(x,α,β)=p∗d^*=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\underset{x}{min}\ L(x,\alpha,\beta)\le \underset{x}{min}\underset{\alpha,\beta:\alpha_i \ge 0}{max}\ L(x,\alpha,\beta)=p^* d∗=α,β:αi≥0maxxmin L(x,α,β)≤xminα,β:αi≥0max L(x,α,β)=p∗
推论a
设x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别是原始问题和对偶问题的可行解，且d∗=p∗d^*=p^*d∗=p∗,则x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别为原始问题和对偶问题的最优解

定理b
假设函数f(x),ci(x)f(x),c_i(x)f(x),ci(x)是凸函数，hj(x)h_j(x)hj(x)是仿射函数；并且假设不等式约束ci(x)c_i(x)ci(x)严格可行，存在x使得对于所有i有ci(x)<0c_i(x)\lt0ci(x)<0,则存在x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别为原始问题和对偶问题的解，并且
d∗=p∗=L(x∗,α∗,β∗)d^*=p^*= L(x^*,\alpha^*,\beta^*) d∗=p∗=L(x∗,α∗,β∗)
定理c
假设函数f(x),ci(x)f(x),c_i(x)f(x),ci(x)是凸函数，hj(x)h_j(x)hj(x)是仿射函数；并且假设不等式约束ci(x)c_i(x)ci(x)严格可行，则x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别为原始问题和对偶问题的解的充分必要条件是x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗满足以下的KKT条件
∇xL(x∗,α∗,β∗)=0,αi∗ci(x∗)=0,i=1,2,...,kci(x∗)≤0,i=1,2,...,kαi∗≥0,i=1,2,...,khj(x∗)=0,j=1,2,...,l\nabla_x L(x^*,\alpha^*,\beta^*)=0,\\ \alpha_i^*c_i(x^*)=0,\quad i=1,2,...,k\quad \\ c_i(x^*)\le 0,\quad i=1,2,...,k\\ \alpha_i^*\ge 0,\quad i=1,2,...,k\\ h_j(x^*)=0,\quad j=1,2,...,l ∇xL(x∗,α∗,β∗)=0,αi∗ci(x∗)=0,i=1,2,...,kci(x∗)≤0,i=1,2,...,kαi∗≥0,i=1,2,...,khj(x∗)=0,j=1,2,...,l

学习笔记_拉格朗日对偶性(Lagrange duality)相关推荐

oracle11g中用asmlib配置磁盘组,ASM学习笔记_配置ASMLIB磁盘组
ASM学习笔记_配置ASMLIB磁盘组目录 1 ASMLIB Introduction 2 虚拟机添加一个共享磁盘(块设备) 3 下载,安装ASMLIB 4 配置,使用ASMLib 磁盘组 #### ...
MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结
MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结一.VARCHAR存储和行长度限制 1.VARCHAR(N)中,N指的是字符的长度,VARCHAR类型最大支持65535,指的是 ...
系统架构师学习笔记_第六章（下）_连载
系统架构师学习笔记_第六章(下)_连载 6.3 基于 UML 的软件开发过程 6.3.1 开发过程概述 UML 是独立于软件开发过程的,能够在几乎任何一种软件开发过程中使用.迭代的渐进式软件开发过程 ...
Go学习笔记_环境搭建
Go学习笔记_环境搭建 Go背景知识 go的特点(官网): Build fast, reliable, and efficient software at scale- Go is an open s ...
c语言用位运算将一个数清零,C语言学习笔记_位运算
C语言学习笔记_位运算知识点记录基本位运算按位与:全1为1,见0为0:与1相与无变化,与0相与变为0:可用于特定位清零按位或:见1为1,全0为0:与1相或变为1,与0相或无变化:可用于特定位置 ...
数字IC设计学习笔记_静态时序分析STA_ STA基本概念
数字IC设计学习笔记 STA基本概念 1. STA基本概念 2. 时序弧概念 Timing Arc 3. 建立时间和保持时间概念 4. 时序路径概念Timing Path 5. 时钟域概念clock ...
模电学习笔记_双极型晶体管及其放大电路（4）
前置:模电学习笔记_双极型晶体管及其放大电路(3) 一.基本知识点 2.5 晶体管单管放大电路的三种基本组态 2.5.1 共集放大电路(射极输出器.射极跟随器) 1.主要特点:高输入阻抗,低输出阻抗, ...
模电学习笔记_双极型晶体管及其放大电路（2）
前置:双极型晶体管及其放大电路(1) 一.基本知识点补充:集成电路中元器件的特点 1.单个元件的参数精度不高,且受温度影响较大,但参数对称性及温度对称性较好.批量间差异较大 2.集成电路工艺制造出的 ...
人力资源之选人方法学习笔记_职位胜任素质模型
续接上篇:人力资源之选人方法学习笔记_建立科学的人才观本篇主要讲解关于职位胜任素质模型课程的学习笔记. 什么是职位胜任素质模型就是用行为方式来定义员工为了完成某项工作应该具备的知识.技能等特质 ...
CCC3.0学习笔记_数字密钥数据结构
CCC3.0学习笔记_数字密钥数据结构系列文章目录文章目录系列文章目录前言 4.1 Applet Instance Layout 4.2 Digital Key Structure 4.2.1 ...

学习笔记_拉格朗日对偶性(Lagrange duality)

学习笔记_拉格朗日对偶性(Lagrange duality)相关推荐

最新文章

热门文章