文章目录

一、Lagrange函数与Lagrange对偶函数
- 1-Lagrange函数
- 2-Lagrange对偶函数
二、三个实例理解对偶与其性质
- 1-线性约束得二次优化问题
- 2-线性规划问题
- 3-非凸函数，非凸限制
三、对偶函数与共轭函数的联系
- 1-共轭函数
- 2-二者的联系
四、对偶问题与原问题
- 1-概念，定义以及重要性质
- 2-强对偶与弱对偶
- 3-强对偶性何时成立以及slate充分条件
Appendix A：证明：对偶函数一定是凹函数，且其凹性与最优化函数和约束函数无关
Appendix B：证明：对偶函数为最优值下界

一、Lagrange函数与Lagrange对偶函数

1-Lagrange函数

Lagrange函数是微积分就了解的基础概念,简单复盘一下，考虑一个熟悉的优化问题,（不一定是一个凸优化问题）
min⁡f0(x)s.t.fi(x)≤0i=1...mhi(x)=0i=1...p\min \quad f_0(x) \\ s.t. \quad f_i(x)\leq 0\quad i=1...m \\ \quad h_i(x) = 0 \quad i=1...pminf0(x)s.t.fi(x)≤0i=1...mhi(x)=0i=1...p
这个优化问题的定义域为x∈RnD=∩i=0mdomfi∩∩i=1pdomhix\in R^n\quad D=\cap_{i=0}^mdom f_i{\cap} \cap_{i=1}^pdom h_ix∈RnD=∩i=0mdomfi∩∩i=1pdomhi，即所有限制条件与优化函数定义域的交集，假设目标函数最小的函数值为p∗p^*p∗，我们得到Lagrange函数
L(x,λ,ν)=f0(x)+∑i=1mλifi(x)+∑i=1pνihi(x)L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+i=1∑pνihi(x)
该函数是一个三变量的函数，其中xxx是自变量和上面一样，λ\lambdaλ是一个mmm维的向量，即不等式约束的维数，每个λi\lambda_iλi称之为与不等式约束相关的拉格朗日乘子。而ν\nuν是一个ppp维的向量，与等式约束的维数一样，νi\nu_iνi称之为与等式约束相关的拉格朗日乘子。当然这些函数可能都是一些很一般的函数，我们只是对他们进行了线性的加权，并不能构造出很好的函数形式。

2-Lagrange对偶函数

对偶函数定义为如下形式：
g(λ,ν)=inf⁡x∈DL(x,λ,ν)g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)g(λ,ν)=x∈DinfL(x,λ,ν)
即给定任意的(λ,ν)(\lambda,\nu)(λ,ν)，我们任意的选择x∈Dx\in Dx∈D，使得拉格朗日函数的值取得最小。此时我们发现，该函数已经与f0(x)f_0(x)f0(x)的凸性无关了，这变成了一个关于拉格朗日乘子(λ,ν)(\lambda,\nu)(λ,ν)的函数。对偶函数有几个非常重要而且好用的性质：

拉格朗日对偶函数一定是凹函数，且其凹性与最优化函数和约束函数无关。证明放在appendix A中
∀λ≥0,∀ν,g(λ,ν)≤p∗\forall \lambda\geq0,\forall \nu,g(\lambda,\nu)\leq p*∀λ≥0,∀ν,g(λ,ν)≤p∗。即选择任意λ≥0\lambda\geq0λ≥0和ν\nuν，ggg的函数值不可能大于原优化问题的最优解，即构成了原问题最优值的下界？最优值下界的证明放在appendix B中。

二、三个实例理解对偶与其性质

1-线性约束得二次优化问题

首先来考虑一个具有线性约束的二次优化问题：
min⁡XTXs.t.AX=bX∈Rnb∈RnA∈Rp∗n\min \quad X^TX \\ s.t. \quad AX=b\\ X\in R^n\quad b\in R^n\quad A\in R^{p*n}minXTXs.t.AX=bX∈Rnb∈RnA∈Rp∗n
拉格朗日函数：L(X,ν)=XTX+νT(AX−b)\mathbf{拉格朗日函数：L(X,\nu)=X^TX+\nu^T(AX-b)}拉格朗日函数：L(X,ν)=XTX+νT(AX−b)
对偶函数：g(ν)=inf⁡X∈DL(X,ν)=inf⁡X∈DXTX+νTAX−νTb\mathbf{对偶函数：g(\nu)=\inf_{X\in D}L(X,\nu)=\inf_{X\in D}X^TX+\nu^TAX-\nu^Tb}对偶函数：g(ν)=X∈DinfL(X,ν)=X∈DinfXTX+νTAX−νTb
在这里面求最小值的话我们只需要对XXX求个偏导，得到2X+ATν=02X+A^T\nu=02X+ATν=0，那么X=−ATν2X=-\frac{A^T\nu}{2}X=−2ATν，将其带回，使得对偶函数完全变成一个ν\nuν的函数。
g(ν)=νTAATν4−νTAATν2−νTb=−νTAATν4−bTν\mathbf{g(\nu)=\frac{\nu^TAA^T\nu}{4}-\frac{\nu^TAA^T\nu}{2}-\nu^Tb=-\frac{\nu^TAA^T\nu}{4}-b^T\nu}g(ν)=4νTAATν−2νTAATν−νTb=−4νTAATν−bTν
注意b,νb,\nub,ν都是向量，所以内积总是常数，可以随便转置。也就是说我们将优化问题转化成了这个对偶函数，而该函数是一个凹函数，因为−AAT-AA^T−AAT一定是一个半负定的矩阵。

2-线性规划问题

考虑线性规划问题：
min⁡cTxs.t.Ax−b=0−x≤0\min \quad c^Tx \\ s.t. \quad Ax-b=0\\-x\leq 0mincTxs.t.Ax−b=0−x≤0
注意不等式约束一定要写成≤0\leq0≤0的形式。
拉格朗日函数：L(x,λ,ν)=cTx−λTx+νT(Ax−b)=−bTν+(c+AT−λ)Tx\mathbf{拉格朗日函数：L(x,\lambda,\nu)=c^Tx-\lambda^Tx+\nu^T(Ax-b)=-b^T\nu+(c+A^T-\lambda)^Tx}拉格朗日函数：L(x,λ,ν)=cTx−λTx+νT(Ax−b)=−bTν+(c+AT−λ)Tx
对偶函数：g(λ,ν)=inf⁡x∈DL(x,λ,ν)\mathbf{对偶函数：g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)}对偶函数：g(λ,ν)=x∈DinfL(x,λ,ν)
当−bTν+(c+AT−λ)Tx-b^T\nu+(c+A^T-\lambda)^Tx−bTν+(c+AT−λ)Tx一次项的系数等于0的时候，这个函数的最小值是−bTx-b^Tx−bTx，否则我们总能使得这个函数的值取得−∞-\infty−∞，因为在对偶函数里我们已经将原约束优化问题转化成了单独的一个函数，xxx是RnR^nRn上随便取得。因此对偶函数实际上是一个分段函数
−bTν,AT−λ+c=0−∞,otherwise\color{blue}-b^T\nu,\quad A^T-\lambda+c=0\\ -\infty,\quad\quad otherwise−bTν,AT−λ+c=0−∞,otherwise
AT−λ+c=0A^T-\lambda+c=0AT−λ+c=0显然是一个超平面，而这整个函数可以看作,AT−λ+c=0,\quad A^T-\lambda+c=0,AT−λ+c=0对应函数在全空间上的凹扩展，在这个超平面上取值固定，既凸又凹，因此总体是凹函数。

3-非凸函数，非凸限制

最后我们来看一个非凸函数，非凸限制得优化问题
min⁡xTWxs.t.xi2−1=0,i=1...m\min \quad x^TWx \\ s.t. \quad x_i^2-1=0,\quad i=1...mminxTWxs.t.xi2−1=0,i=1...m
拉格朗日函数：L(x,λ,ν)=xTWx+∑i=1nνi(xi2−1)\mathbf{拉格朗日函数：L(x,\lambda,\nu)=x^TWx+\sum_{i=1}^n\nu_i(x_i^2-1)}拉格朗日函数：L(x,λ,ν)=xTWx+i=1∑nνi(xi2−1)
将这个函数进行一步转化得到：L(x,λ,ν)=xT(W+Diag(ν))x−1Tν\color{red}L(x,\lambda,\nu)=x^T(W+Diag(\nu))x-1^T\nuL(x,λ,ν)=xT(W+Diag(ν))x−1Tν
对偶函数：g(λ,ν)=inf⁡x∈DxT(W+Diag(ν))x−1Tν\mathbf{对偶函数：g(\lambda,\nu)=\inf_{x\in D}x^T(W+Diag(\nu))x-1^T\nu}对偶函数：g(λ,ν)=x∈DinfxT(W+Diag(ν))x−1Tν
那么我们对这个对偶函数进行一波分析，当该二次型得系数矩阵半正定时，这个函数能取到得最小值一定是1Tν1^T\nu1Tν，否则，前一项一定可以使得这个函数得最小值取到−inf-inf−inf。也就是说，这个函数是一个分段函数
−1Tν,W+Diag(ν)⪰0−∞,otherwise\color{blue}-1^T\nu,\quad W+Diag(\nu)\succeq0\\ -\infty,\quad\quad otherwise−1Tν,W+Diag(ν)⪰0−∞,otherwise
那么我们只需要证明W+Diag(ν)W+Diag(\nu)W+Diag(ν)是一个凸集即可。这个利用f(θν1)+(1−θ)f(ν2)≤θf(ν1)+(1−θ)fν2)f(\theta \nu_1)+(1-\theta)f(\nu_2)\leq \theta f(\nu_1)+(1-\theta)f\nu_2)f(θν1)+(1−θ)f(ν2)≤θf(ν1)+(1−θ)fν2)即可证明。

三、对偶函数与共轭函数的联系

1-共轭函数

共轭函数在凸优化中有着非常重要的作用，是理解对偶的必不可少的元素。在书中，它被定义为
f∗(y)=sup⁡x∈domf(yTx−f(x))f^*(y)=\sup_{x\in dom f}(y^Tx-f(x))f∗(y)=x∈domfsup(yTx−f(x))
其中，f:Rn→R，f∗:Rn→Rf:R^n\rightarrow R，f^*:R^n\rightarrow Rf:Rn→R，f∗:Rn→R，f∗f^*f∗称为fff的共轭函数。也就是说，共轭函数是线性函数yTxy^TxyTx与原始函数f(x)f(x)f(x)的最大gap.

2-二者的联系

二者的去别主要在于inf,supinf,supinf,sup这两个操作上，我们知道inff(x)=−sup−f(x)inf f(x)=-sup -f(x)inff(x)=−sup−f(x)，因此举几个常规的例子来看一看写出来的共轭函数和对偶函数区别到底在哪里。最简单的：
min⁡f(x)s.t.x=0\min f(x)\\ s.t.\quad x=0minf(x)s.t.x=0
写出他的对偶函数inf⁡(x)+vTx;domL∈domf×Rn\inf(x)+v^Tx;dom L\in dom f×R^ninf(x)+vTx;domL∈domf×Rn

他等价于−sup⁡(−vTx−f(x))-\sup(-v^Tx -f(x))−sup(−vTx−f(x))这就变成共轭函数的形式即−f∗(−v)\mathbf{-f^*(-v)}−f∗(−v)（xxx并不是变量vvv才是），其实对于任意一个函数的对偶函数，我们通过如上形式都可以将它变为以拉格朗日乘子为变量的共轭函数，

四、对偶问题与原问题

1-概念，定义以及重要性质

有了上述的对偶函数，我们知道对偶函数的最优解是原问题的最优值下界，那么我们就能得到两个定义：对偶问题（D：dual）与原问题（P：primary）

(D)max⁡g(λ,ν)s.t.λ⪰0(D) \max \quad g(\lambda,\nu)\\s.t.\quad \color{red}\lambda\succeq0(D)maxg(λ,ν)s.t.λ⪰0
注意如果原问题有不等式约束，那么对偶问题种一定有λ⪰0\lambda\succeq 0λ⪰0的约束条件。他的最优值记为d∗d^*d∗，原问题记为
(P)min⁡f0(x)s.t.fi(x)≤0i=1,...,mbi(x)=0i=1,...,p(P)\min f_0(x)\\s.t.\quad f_i(x)\leq0\quad i=1,...,m\\ b_i(x)=0\quad i=1,...,p(P)minf0(x)s.t.fi(x)≤0i=1,...,mbi(x)=0i=1,...,p
原问题的最优解为p∗p^*p∗,根据最优值下界我们有
d∗≤p∗d^*\leq p^*d∗≤p∗
我们关注两个问题：

这个最优值下界好像没有什么意义，比如说我说你最少活2年，这显然是没有意义的，一定要给一个确界才比较好，比如能活100年。这表现在对偶问题中就是p∗=d∗p^*=d^*p∗=d∗，如何能达到这一点是我们需要考虑的
我们知道对偶问题一定是一个凸问题，但是对偶问题的对偶问题不一定是原问题（同共轭函数的性质），非凸问题的对偶问题的对偶问题依然不会是非凸的，那么是么时候我们可以使得某个问题的对偶问题的对偶是它自身，这是第二个需要考虑的问题。

2-强对偶与弱对偶

我们定义对偶间隙为原问题的最优解与对偶问题的最优解的差p∗−d∗p^*-d^*p∗−d∗（因为d∗d^*d∗是最优值下界，此值一定不小于0）
强对偶：如果等式d∗=p∗d^*=p^*d∗=p∗，即对偶间隙等于0，那么强对偶性成立。
弱对偶：对偶问题一般都具有的性质，只要满足d∗<p∗d^*<p^*d∗<p∗即可。

3-强对偶性何时成立以及slate充分条件

相对内部(Relativeinterior)\textbf{\color{blue}{相对内部(Relative interior)}}相对内部(Relative interior)
首先我们需要给出集合DDD的相对内部(Relative interior)，记作relintD\mathbf{relint} \;DrelintD，他定义如下：
relintD={x∈D∣B(x,r)∩affD∈D,∃r>0}\mathbf{relint} \;D=\{x\in D|B(x,r)\cap\mathbf{aff} D\in D,\exist r>0\}relintD={x∈D∣B(x,r)∩affD∈D,∃r>0}
这个概念其实很简单，我们分为三部分来理解它

首先x∈Dx\in Dx∈D，表示了所有元素都在DDD内部。
B(x,r)∩affD∈DB(x,r)\cap\mathbf{aff} D\in DB(x,r)∩affD∈D表示以xxx为中心，我们能找到一个半径为rrr的圆，他和DDD的仿射包的交集依然在DDD的内部。

可以看到上面，只有在边界上的时候，我们任取一个xxx，找不到半径使得仿射集和圆的交集在DDD内，其实相对内部的定义即去掉该集合的边界。

slate条件\textbf{\color{blue}{slate条件}}slate条件
slate条件回答了什么时候我们可以得到p∗=d∗p^*=d^*p∗=d∗，这是一个充分条件，不满足时对偶问题的最优解也可能是一个下确界，它的定义如下：

对于一般问题，强对偶性不成立。但是如果当原问题是凸问题，即写为：
min⁡f0(x)s.t.fi(x)≤0i=1...mAx=b,\min \quad f_0(x) \\ s.t. \quad f_i(x)\leq 0\quad i=1...m \\ Ax=b,minf0(x)s.t.fi(x)≤0i=1...mAx=b,
其中fi(x)f_i(x)fi(x)是凸函数，此时强对偶性通常（但不总是）成立的（即原问题是凸问题，它的对偶问题一般都具有强对偶性）。必要的时候我们可以使用强对偶性成立的充分条件进行判断：

存在一点x∈relintDx\in \mathbf{relint}Dx∈relintD使得下列等式成立：
fi(x)<0,i=1,...,mAx=bf_i(x)<0,i=1,...,m\quad\quad Ax=bfi(x)<0,i=1,...,mAx=b
即不仅满足等式约束，而且所有的不等式约束都小于0，去掉了等于0的情况。但是这时候我们要找到这样一个xxx来验证是非常难的，因此我们有了更弱一点的slate条件。

弱slate条件\textbf{\color{blue}{弱slate条件}}弱slate条件
如果原问题是一个凸问题，而且不等式约束全部为仿射约束时，只要可行域非空，必有p∗=d∗p^*=d^*p∗=d∗。当不等式约束中存在仿射不等式时，这些仿射不等式不需要严格成立（即他们不需要<0,≤0\leq0≤0即可），只要我们能找到一个x∈relintDx\in\mathbf{relint}Dx∈relintD使得所有非仿射不等式严格成立，这个条件依然是可行的。

Appendix A：证明：对偶函数一定是凹函数，且其凹性与最优化函数和约束函数无关

如果了解保凸运算，那么我们知道函数的逐点上确界一定是一个凸函数，给定下列函数
L(λ,ν)=sup⁡x∈Df0(x)+∑i=1mλifi(x)+∑i=1pνihi(x)L(\lambda,\nu)=\sup_{x\in D}f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)L(λ,ν)=x∈Dsupf0(x)+i=1∑mλifi(x)+i=1∑pνihi(x)
即对每个(λ,ν)(\lambda,\nu)(λ,ν)我们求一个xxx使得函数值最大，这样的函数叫做逐点上确界。而我们现在的函数，是关于(λ,ν)(\lambda,\nu)(λ,ν)的线性函数，线性函数也是凸函数，那如果是求最小呢，就变成了仿射函数的下确界问题，是一个凹函数。我们给出详细的推导过程：

参考自：https://blog.csdn.net/u014540876/article/details/79153913

要证对偶函数一定是凹函数，根据凹函数的定义，就是要证
g(θλ1+(1−θ)λ2,θν1+(1−θ)ν2)≥θg(λ1,ν1)+(1−θ)g(λ2,ν2)θ∈Rg(\theta\lambda_1+(1-\theta)\lambda_2,\theta\nu_1+(1-\theta)\nu_2)\geq \theta g(\lambda_1,\nu_1)+(1-\theta)g(\lambda_2,\nu_2)\quad \theta\in Rg(θλ1+(1−θ)λ2,θν1+(1−θ)ν2)≥θg(λ1,ν1)+(1−θ)g(λ2,ν2)θ∈R
根据对偶函数的定义可知，对偶函数是拉格朗日函数在把λ\lambdaλ和ν\nuν当做常量，xxx变化时的最小值，如果拉格朗日函数没有最小值（可以认为最小值为−∞-\infty−∞)，则对偶函数取值为−∞-\infty−∞，所以，可以把对偶函数按照下面的方式表达：

即无穷多个x变化时，拉格朗日函数的最小值。另外，由于把λ和ν分开来写，式子太长了，为了简便，记γ=(λ,ν)\gamma = (\lambda, \nu)γ=(λ,ν)，那么我们有

我们关注一下LLL这个函数，他是一个关于λ,ν\lambda,\nuλ,ν的线性函数，因此既是凸的也是凹的，利用凸性我们可以得到L(x,θγ1+(1−theta)γ2)≥θL(x,γ1)+(1−θ)L(x,γ2)L(x,\theta\gamma_1+(1-theta)\gamma_2)\geq \theta L(x,\gamma_1)+(1-\theta)L(x,\gamma_2)L(x,θγ1+(1−theta)γ2)≥θL(x,γ1)+(1−θ)L(x,γ2)，因此我们可以得到上式大于等于：

对min函数，我们有一个基本不等式min⁡i=1n(a+b)≥min⁡i=1n(a)+min⁡i=1n(b)\min_{i=1}^n(a+b)\geq \min_{i=1}^n(a)+\min_{i=1}^n(b)mini=1n(a+b)≥mini=1n(a)+mini=1n(b)，其中a={a1,...an},b={b1,...,bn}a=\{a_1,...a_n\},b=\{b_1,...,b_n\}a={a1,...an},b={b1,...,bn}都是向量。那么我们进一步化简上式得到：

所以原命题得证。

Appendix B：证明：对偶函数为最优值下界

我们之前假设的p∗p*p∗为原优化问题的最优解，也即全局最小，设此时自变量值为x∗x^*x∗。那么对于任意的λ≥0\lambda\geq0λ≥0和ν\nuν，我们有L(x∗,λ,ν)=f0(x∗)+∑i=1mλifi(x)+∑i=1pνihi(x)≤p∗L(x^*,\lambda,\nu)=f_0(x^*)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)\leq p^*L(x∗,λ,ν)=f0(x∗)+i=1∑mλifi(x)+i=1∑pνihi(x)≤p∗
原因很简单，因为fi(x)f_i(x)fi(x)都是不等式约束，而我们的不等式约束都要小于0，而等式约束都等于0，即∑i=1mλifi(x)+∑i=1pνihi(x)≤0\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)\leq 0∑i=1mλifi(x)+∑i=1pνihi(x)≤0，那么也就是给f0(x∗)f_0(x^*)f0(x∗)加上了一个非正项。而我们的对偶函数，
g(λ,ν)=inf⁡x∈DL(x,λ,ν)g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)g(λ,ν)=x∈DinfL(x,λ,ν)
因为x∗x^*x∗总是在定义域里的，所以最小化这个值等价于最小化L(x∗,λ,ν)=f0(x∗)+∑i=1mλifi(x)+∑i=1pνihi(x)≤p∗L(x^*,\lambda,\nu)=f_0(x^*)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)\leq p^*L(x∗,λ,ν)=f0(x∗)+∑i=1mλifi(x)+∑i=1pνihi(x)≤p∗。得证

拿两个书上的图加深理解

深入理解凸优化核心理论：对偶相关推荐

凸优化——详解对偶和鞍点
对偶原问题的最优解(最小解)p∗p^*p∗一定是大于等于其对偶问题的最优解(最大值)d∗d^*d∗的: p∗>=d∗p^*>=d^*p∗>=d∗ 这是对偶问题最重要的一条性质弱对 ...
如何理解凸优化中的共轭函数的定义？
共轭函数的意义主要就是:一个函数即便不是凸函数,但通过共轭法获得一个凸函数,很方便求解全局最优解的问题. 另外,共轭函数亦称对偶函数.极化函数,函数的某种对偶变换.过多的东西我就不再赘述了. 此处我是 ...
对凸优化（Convex Optimization）的一些浅显理解
©作者 | 李航前单位 | EPFL 研究方向 | 计算机图形学与三维视觉最近学习了一些凸优化课程,整理笔记的同时写下一些自己的理解,向着头秃的道路上越走越远. 凸优化是应用数学的一个基本分支,几 ...
凸优化学习-（十八）对偶性Duality 拉格朗日函数与对偶函数
凸优化学习对偶性是凸优化学习的核心,重中之重. 学习笔记一.拉格朗日函数与对偶函数对于一个普通优化问题: min⁡f0(x)s.t.fi(x)≤0i=1⋯mhi(x)=0i=1⋯p\begin{ ...
详解机器学习的凸优化、图神经网络、强化学习、贝叶斯方法等四大主题
AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因.在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过.为什么?机器学习就像物理学中的数学,如果 ...
【001】机器学习基础-凸优化基础
为什么开篇第一件事是介绍凸优化呢,原因很简单,就是它很重要! 凸优化属于数学最优化的一个子领域,所以其理论本身也是科研领域一门比较复杂高深的研究方向,常被应用于运筹学.管理科学.运营管理.工业工程.系 ...
凸优化基础知识笔记-凸集、凸函数、凸优化问题
文章目录 1. 凸集 2. 凸函数 2.1. 凸函数的一阶条件 2.1. 凸函数例子 3. 凸优化问题 4. 对偶 4.1. Lagrange函数与Lagrange对偶 4.2. 共轭函数 4.3. ...
凸优化理论（一）深入理解仿射集，凸集，锥等定义及相关证明
文章目录 1:仿射集相关定义与证明 2:相关子空间与性质证明 3:线性方程组的解集与化零空间 4:任意集合构建最小仿射集-仿射包 5:凸集相关:凸包-凸组合 6:锥 Cone与凸锥 Convex Co ...
机器学习中的凸优化理论
凸优化课程优化问题定义:从一个可行解中找到一个最好的元素. 通常来说优化问题都可以写成如下的形式: 最小化目标函数: m个约束函数: 凸规划与非凸规划凸规划满足: 凸规划都是相对容易解决的,非凸 ...
凸优化教程学习与理解（mark）
凸优化教程学习与理解(mark) 1. 什么是凸优化 1.1 优化问题的一般形式 1.2 优化问题的几种分类 1.2.1. 早期划分为线性规划和非线性规划: 1.2.2 凸规划和非凸规划; 1.2.3 ...

深入理解凸优化核心理论：对偶