学习笔记_拉格朗日对偶性(Lagrange duality)
最近打算把svm过一遍,结果发现已经把拉格朗日对偶性忘个差不多了(也许当时也没学会),试着总结一下。
主要参考书目《统计学习方法》
参考了的文章
浅谈最优化问题的KKT条件
拉格朗日乘子法证明
写的很好的博客
blog1
不太会latex排版 式子可能会很丑
LAGRANGEDUALITY\mathcal{LAGRANGE\ DUALITY\ }LAGRANGE DUALITY
0.学习前需要知道的知识
a.等式约束优化问题
minf(x1,x2,...,xn)minf(x_1,x_2,...,x_n)minf(x1,x2,...,xn)
s.t.hk(x1,x2,...,xn)=0s.t.\ h_k(x_1,x_2,...,x_n)=0s.t. hk(x1,x2,...,xn)=0
令L(x,λ)=f(x)+∑k=1lλkhk(x)L(x,\lambda)=f(x)+\sum_{k=1}^l \lambda_kh_k(x)L(x,λ)=f(x)+∑k=1lλkhk(x),函数L(x,y)L(x,y)L(x,y)称为Lagrange函数,参数λ\lambdaλ称为Lagrange乘子
联立方程组:
{∂L∂xi=0(i=1,2,...,n)∂L∂λk=0(k=1,2,...,l)\begin{cases} \frac{\partial L}{ \partial x_i}=0(i=1,2,...,n)\\ \frac{\partial L}{ \partial \lambda_k}=0(k=1,2,...,l) \end{cases} {∂xi∂L=0(i=1,2,...,n)∂λk∂L=0(k=1,2,...,l)
得到的解为可能极值点,具体是否为极值点需要讨论。
b.不等式约束优化问题
minf(x)minf(x)minf(x)
s.t.g1(x)=a−x≤0s.t.\ g_1(x)=a-x\le 0s.t. g1(x)=a−x≤0
g2(x)=x−b≤0\quad \ \ \ g_2(x)=x-b\le 0 g2(x)=x−b≤0
优化问题中,我们需要求得一个确定的值,因此不妨令所有的不等式均取到等号。
对于约束g1g_1g1和g2g_2g2,我们分别引入两个松弛变量a12a_1^2a12和a22a_2^2a22,得到h1(x,a1)=g1+a12=0h_1(x,a_1)=g_1+a_1^2=0h1(x,a1)=g1+a12=0和h2(x,a2)=g2+a22=0h_2(x,a_2)=g_2+a_2^2=0h2(x,a2)=g2+a22=0
由此可以得到Lagrange函数
L(x,a1,b1,μ1,μ2)=f(x)+μ1(a−x+a12)+μ2(x−b+b12)L(x,a_1,b_1,\mu_1,\mu_2)=f(x)+\mu_1(a-x+a_1^2)+\mu_2(x-b+b_1^2)L(x,a1,b1,μ1,μ2)=f(x)+μ1(a−x+a12)+μ2(x−b+b12)
列出方程组
{∂L∂x=∂f∂x+μ1∂g1∂x+μ2∂g2∂x,∂L∂μ1=g1+a12,∂L∂μ2=g2+b12,∂L∂a1=2μ1a1=0,∂L∂b1=2μ2b1=0,μ1≥0,μ2≥0.\begin{cases} \frac{\partial L}{ \partial x}=\frac{\partial f}{ \partial x}+\mu_1\frac{\partial g_1}{\partial x}+\mu_2\frac{\partial g_2}{\partial x},\\ \frac{\partial L}{\partial \mu_1}=g_1+a_1^2,\frac{\partial L}{\partial \mu_2}=g_2+b_1^2,\\ \frac{\partial L}{ \partial a_1}=2\mu_1a_1=0,\frac{\partial L}{ \partial b_1}=2\mu_2b_1=0,\\ \mu_1 \ge 0, \mu_2 \ge 0. \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧∂x∂L=∂x∂f+μ1∂x∂g1+μ2∂x∂g2,∂μ1∂L=g1+a12,∂μ2∂L=g2+b12,∂a1∂L=2μ1a1=0,∂b1∂L=2μ2b1=0,μ1≥0,μ2≥0.
极值必要条件
{∂f∂x+μ1∂g1∂x+μ2∂g2∂x=0μ1g1(x)=0,μ2g2(x)=0,μ1≥0,μ2≥0.\begin{cases} \frac{\partial f}{ \partial x}+\mu_1\frac{\partial g_1}{\partial x}+\mu_2\frac{\partial g_2}{\partial x}=0\\ \mu_1g_1(x)=0,\mu_2g_2(x)=0,\\ \mu_1 \ge 0, \mu_2 \ge 0. \end{cases} ⎩⎪⎨⎪⎧∂x∂f+μ1∂x∂g1+μ2∂x∂g2=0μ1g1(x)=0,μ2g2(x)=0,μ1≥0,μ2≥0.
推广至多元
{∂f(x∗)∂xi+∑j=1mμj∂gj(x∗)∂xi=0(i=1,2,...,n),μjgj(x∗)=0(j=1,2,...,m),μj≥0(j=1,2,...,m).\begin{cases} \frac{\partial f(x^*)}{ \partial x_i}+\sum_{j=1}^m\mu_j\frac{\partial g_j(x^*)} {\partial x_i }=0(i=1,2,...,n),\\ \mu_jg_j(x^*)=0\ (j=1,2,...,m),\\ \mu_j \ge 0\ (j=1,2,...,m) . \end{cases} ⎩⎪⎨⎪⎧∂xi∂f(x∗)+∑j=1mμj∂xi∂gj(x∗)=0(i=1,2,...,n),μjgj(x∗)=0 (j=1,2,...,m),μj≥0 (j=1,2,...,m).
关于μ1,μ2≥0\mu_1,\mu_2\ge 0μ1,μ2≥0的问题,可以看这篇文章
1.原始问题
f(x),ci(x),hj(x)f(x),\ c_i(x), \ h_j(x)f(x), ci(x), hj(x)是定义在RnR^nRn上的连续可微函数。考虑最优化问题
minx∈Rnf(x)s.t.ci(x)≤0,i=1,2,...,lhj(x)=0,j=1,2,...,k\underset{x\in R^n}{min}\ \ \ f(x) \\ s.t. \quad c_i(x) \le 0,\ i=1,2,...,l \\ \qquad \ \ \ h_j(x) = 0,j=1,2,...,k x∈Rnmin f(x)s.t.ci(x)≤0, i=1,2,...,l hj(x)=0,j=1,2,...,k
称此约束最优化问题为原始问题。
引进Lagrange函数
L(x,α,β)=f(x)+∑i=1kαici(x)+∑j=1lβjhj(x)L(x,\alpha,\beta)=f(x)+\sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_jh_j(x) L(x,α,β)=f(x)+i=1∑kαici(x)+j=1∑lβjhj(x)
这里,x=(x(1),x(2),...,x(n))T∈Rn,αi,βix=(x^{(1)},x^{(2)},...,x^{(n)})^T\in R^n,\alpha_i,\beta_ix=(x(1),x(2),...,x(n))T∈Rn,αi,βi是拉格朗日乘子,αi≥0\alpha_i \ge0αi≥0.考虑x的函数:
θP(x)=maxα,β:αi≥0L(x,α,β)\theta_P(x)=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\ L(x,\alpha,\beta) θP(x)=α,β:αi≥0max L(x,α,β)
调节αi,βi\alpha_i,\beta_iαi,βi令
θ(x)={f(x),x满足原始问题约束+∞,otherwise\theta(x)= \begin{cases} f(x),x满足原始问题约束\\ +\infty,otherwise \end{cases} θ(x)={f(x),x满足原始问题约束+∞,otherwise
所以如果考虑极小化问题
minxθP(x)=minxmaxα,β:αi≥0L(x,α,β)\underset{x}{min}\theta_P(x)=\underset{x}{min}\ \underset{\alpha,\beta:\alpha_i \ge 0}{max}\ L(x,\alpha,\beta) xminθP(x)=xmin α,β:αi≥0max L(x,α,β)
它与原始问题的解相同 与之等价
定义原始问题的最优值
p∗=minxθP(x)p^*=\underset{x}{min}\theta_P(x) p∗=xminθP(x)称为原始问题的值
2.对偶问题
定义
θD(α,β)=minxL(x,α,β)\theta_D(\alpha,\beta)=\underset{x}{min}\ L(x,\alpha,\beta) θD(α,β)=xmin L(x,α,β)
再考虑极大化θD(α,β)=minxL(x,α,β)\theta_D(\alpha,\beta)=\underset{x}{min}\ L(x,\alpha,\beta)θD(α,β)=xmin L(x,α,β),即
maxα,β:αi≥0θD(α,β)=maxα,β:αi≥0minxL(x,α,β)\underset{\alpha,\beta:\alpha_i \ge 0}{max}\theta_D(\alpha,\beta)=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\underset{x}{min}\ L(x,\alpha,\beta) α,β:αi≥0maxθD(α,β)=α,β:αi≥0maxxmin L(x,α,β)
问题maxα,β:αi≥0minxL(x,α,β)\underset{\alpha,\beta:\alpha_i \ge 0}{max}\underset{x}{min}\ L(x,\alpha,\beta)α,β:αi≥0maxxmin L(x,α,β)称为广义Lagrange的极大极小问题。
可以将广义Lagrange的极大极小问题表示为约束最优化问题:
maxα,βθD(α,β)=maxα,βminxL(x,α,β)s.t.αi≥0,i=1,2,...,k\underset{\alpha,\beta}{max}\theta_D(\alpha,\beta)=\underset{\alpha,\beta}{max}\underset{x}{min}\ L(x,\alpha,\beta)\\ s.t. \quad \alpha_i\ge 0 ,i=1,2,...,k α,βmaxθD(α,β)=α,βmaxxmin L(x,α,β)s.t.αi≥0,i=1,2,...,k
称为原始对偶问题。定义对偶问题的最优值
d∗=maxα,β:αi≥0θD(α,β)d^*=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\ \theta_D(\alpha,\beta) d∗=α,β:αi≥0max θD(α,β)
3.原始问题和对偶问题的关系
定理a 若原始问题和对偶问题都有最优值,则
d∗=maxα,β:αi≥0minxL(x,α,β)≤minxmaxα,β:αi≥0L(x,α,β)=p∗d^*=\underset{\alpha,\beta:\alpha_i \ge 0}{max}\underset{x}{min}\ L(x,\alpha,\beta)\le \underset{x}{min}\underset{\alpha,\beta:\alpha_i \ge 0}{max}\ L(x,\alpha,\beta)=p^* d∗=α,β:αi≥0maxxmin L(x,α,β)≤xminα,β:αi≥0max L(x,α,β)=p∗
推论a
设x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别是原始问题和对偶问题的可行解,且d∗=p∗d^*=p^*d∗=p∗,则x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别为原始问题和对偶问题的最优解
定理b
假设函数f(x),ci(x)f(x),c_i(x)f(x),ci(x)是凸函数,hj(x)h_j(x)hj(x)是仿射函数;并且假设不等式约束ci(x)c_i(x)ci(x)严格可行,存在x使得对于所有i有ci(x)<0c_i(x)\lt0ci(x)<0,则存在x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别为原始问题和对偶问题的解,并且
d∗=p∗=L(x∗,α∗,β∗)d^*=p^*= L(x^*,\alpha^*,\beta^*) d∗=p∗=L(x∗,α∗,β∗)
定理c
假设函数f(x),ci(x)f(x),c_i(x)f(x),ci(x)是凸函数,hj(x)h_j(x)hj(x)是仿射函数;并且假设不等式约束ci(x)c_i(x)ci(x)严格可行,则x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗分别为原始问题和对偶问题的解的充分必要条件是x∗,α∗,β∗x^*,\alpha^*,\beta^*x∗,α∗,β∗满足以下的KKT条件
∇xL(x∗,α∗,β∗)=0,αi∗ci(x∗)=0,i=1,2,...,kci(x∗)≤0,i=1,2,...,kαi∗≥0,i=1,2,...,khj(x∗)=0,j=1,2,...,l\nabla_x L(x^*,\alpha^*,\beta^*)=0,\\ \alpha_i^*c_i(x^*)=0,\quad i=1,2,...,k\quad \\ c_i(x^*)\le 0,\quad i=1,2,...,k\\ \alpha_i^*\ge 0,\quad i=1,2,...,k\\ h_j(x^*)=0,\quad j=1,2,...,l ∇xL(x∗,α∗,β∗)=0,αi∗ci(x∗)=0,i=1,2,...,kci(x∗)≤0,i=1,2,...,kαi∗≥0,i=1,2,...,khj(x∗)=0,j=1,2,...,l
学习笔记_拉格朗日对偶性(Lagrange duality)相关推荐
- oracle11g中用asmlib配置磁盘组,ASM学习笔记_配置ASMLIB磁盘组
ASM学习笔记_配置ASMLIB磁盘组 目录 1 ASMLIB Introduction 2 虚拟机添加一个共享磁盘(块设备) 3 下载,安装ASMLIB 4 配置,使用ASMLib 磁盘组 #### ...
- MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结
MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结 一.VARCHAR存储和行长度限制 1.VARCHAR(N)中,N指的是字符的长度,VARCHAR类型最大支持65535,指的是 ...
- 系统架构师学习笔记_第六章(下)_连载
系统架构师学习笔记_第六章(下)_连载 6.3 基于 UML 的软件开发过程 6.3.1 开发过程概述 UML 是独立于软件开发过程的,能够在几乎任何一种软件开发过程中使用.迭代的渐进式软件开发过程 ...
- Go学习笔记_环境搭建
Go学习笔记_环境搭建 Go背景知识 go的特点(官网): Build fast, reliable, and efficient software at scale- Go is an open s ...
- c语言用位运算将一个数清零,C语言学习笔记_位运算
C语言学习笔记_位运算 知识点记录 基本位运算 按位与:全1为1,见0为0:与1相与无变化,与0相与变为0:可用于特定位清零 按位或:见1为1,全0为0:与1相或变为1,与0相或无变化:可用于特定位置 ...
- 数字IC设计学习笔记_静态时序分析STA_ STA基本概念
数字IC设计学习笔记 STA基本概念 1. STA基本概念 2. 时序弧概念 Timing Arc 3. 建立时间和保持时间概念 4. 时序路径概念Timing Path 5. 时钟域概念clock ...
- 模电学习笔记_双极型晶体管及其放大电路(4)
前置:模电学习笔记_双极型晶体管及其放大电路(3) 一.基本知识点 2.5 晶体管单管放大电路的三种基本组态 2.5.1 共集放大电路(射极输出器.射极跟随器) 1.主要特点:高输入阻抗,低输出阻抗, ...
- 模电学习笔记_双极型晶体管及其放大电路(2)
前置:双极型晶体管及其放大电路(1) 一.基本知识点 补充:集成电路中元器件的特点 1.单个元件的参数精度不高,且受温度影响较大,但参数对称性及温度对称性较好.批量间差异较大 2.集成电路工艺制造出的 ...
- 人力资源之选人方法学习笔记_职位胜任素质模型
续接上篇:人力资源之选人方法学习笔记_建立科学的人才观 本篇主要讲解关于职位胜任素质模型课程的学习笔记. 什么是职位胜任素质模型 就是用行为方式来定义员工为了完成某项工作应该具备的知识.技能等特质 ...
- CCC3.0学习笔记_数字密钥数据结构
CCC3.0学习笔记_数字密钥数据结构 系列文章目录 文章目录 系列文章目录 前言 4.1 Applet Instance Layout 4.2 Digital Key Structure 4.2.1 ...
最新文章
- 【决战西二旗】|Redis面试热点之底层实现篇
- 《剑指offer》第四十九题(丑数)
- 人工智能与电气工程及其自动技术论述
- 【控制】遗传算法(GA,Genetic Algorithm)及 Matlab 实现 代码详细版
- 【视频课】图像分割最新内容来了(言有三新录制4部分实例分割算法详解)
- Angular rxjs Subject笔记
- 新版DevEco不用USB线下载程序
- 马斯克光顾北京包子铺被偶遇 本人盖章:好吃!
- 支持HTTP2的cURL——基于Alpine的最小化Docker镜像
- 搜索引擎:获取并处理mdx英汉词典文件为数据库
- TransCAD 交通规划软件
- linux系统自动获取ip地址,Linux系统怎么自动获取ip地址用什么命令
- mac虚拟机服务器设置u盘启动不了,mac虚拟机如何使用u盘启动盘
- 小书童开源免费的二维码批量生成工具
- 中国乡镇企业会计杂志中国乡镇企业会计杂志社中国乡镇企业会计编辑部2022年第12期目录
- 网络安全先进技术与应用发展系列报告 用户实体行为分析技术(UEBA)
- qq、微信、微博的svg小图标
- 百度、Google.yahoo排名机制和优化规则
- [版本发布]OpenNCC百度定制版VCAM发布
- 嵌入式软件设计第7次实验报告-140201235-陈宇
热门文章
- 数据预处理Part5——样本分布不均衡
- 服务器无线桥接怎么设置,路由器怎么设置桥接方法 2个路由器无线桥接设置图解...
- ValueError: bad transparency mask
- 用计算机pol计算方位角,卡西欧计算方位角 计算器算方位角.doc
- 移动端H5页面,通过点击软键盘搜索按钮实现搜索功能
- Linux基础3-实用进阶
- 关于即将到来的软件行业的降维打击的几点想法
- CTWAP、CTNET、彩信
- setdbprefs matlab,matlab数据导入与导出
- C语言将数字转成大写中文数字