最优化方法(学习笔记)-第二章凸集
凸集
- 基本概念
- 仿射集Affine Set
- 凸集Convex Set
- 凸组合Convex Combination
- 凸包Convex Pull
- 凸锥Convex cone
- (超)平面Hyperplanes|球体balls|椭球Ellipsoids
- 半空间Halfspaces|
- 欧式球体Euclidean balls
- 椭球Ellipsoids
- 范数norm|带范数的锥norm cone
- 多面体Polyhedra
- 半正定矩阵的锥Positive semidefinite cone
- 保凸运算Operations that preserve convexity
- 求交集Intersection
- 仿射变换Affine function
- 感知函数Perspective function
- 线性分式函数Linear-fractional function
- 广义不等关系
- 好锥proper cone
- 偏序Generalized Inequality
- 最小化Minimum
- (线性)可分超平面定理Separating hyperplane theorem
- 支撑面Supporting hyperplane theorem
- 对偶Dual cone
- 对偶定义
- 对偶举例
- 对偶性质
- 对偶的偏序关系
- 对偶的最小化
- 总结
基本概念
仿射集Affine Set
定义:集合内任意两个不同的点,都可以形成一条直线,且直线上所有点都在该集合内,形如x=θx1+(1−θ)x2,θ∈Rx=\theta x_1+(1-\theta)x_2,\theta \isin Rx=θx1+(1−θ)x2,θ∈R
S={x∣Ax=b}S=\{x|Ax=b\}S={x∣Ax=b}这种线性函数方程解类型就可以符合条件x=θx1+(1−θ)x2,Ax1=b,Ax2=bx=\theta x_1+(1-\theta)x_2,Ax_1=b,Ax_2=bx=θx1+(1−θ)x2,Ax1=b,Ax2=b
有Ax=A(θx1+(1−θ)x2)=θb+(1−θ)b=bAx=A(\theta x_1+(1-\theta)x_2)=\theta b+(1-\theta)b=bAx=A(θx1+(1−θ)x2)=θb+(1−θ)b=b
凸集Convex Set
定义:集合内任意两个不同的点,都可以形成一条线段,且线段上所有点都在该集合内,形如x=θx1+(1−θ)x2,θ∈[0,1]x=\theta x_1+(1-\theta)x_2,\theta \isin [0,1]x=θx1+(1−θ)x2,θ∈[0,1]
凸组合Convex Combination
定义:假设有k个不同的点可组合成新点:x=∑i=1kθixi,∑i=1kθi=1,θi≥0x=\sum\limits_{i=1}^{k}\theta_i x_i,\sum\limits_{i=1}^{k}\theta_i=1,\theta_i \geq 0x=i=1∑kθixi,i=1∑kθi=1,θi≥0
假如要应用在凸集S里,采用数学归纳法:
k=2已经证明成立
k=n假设成立(作为新的点)y=∑i=1nηiyi∈Sy=\sum\limits_{i=1}^{n}\eta_i y_i \isin Sy=i=1∑nηiyi∈S,
接下来证明k=n+1:注意∑i=1n+1θi=1=>(1−θn+1)=∑i=1nθi\sum\limits_{i=1}^{n+1}\theta_i=1=>(1-\theta_{n+1})=\sum\limits_{i=1}^{n}\theta_ii=1∑n+1θi=1=>(1−θn+1)=i=1∑nθi
x=∑i=1n+1θixi=∑i=1nθixi+θn+1xn+1=(1−θn+1)(∑i=1nθixi1−θn+1)+θn+1xn+1x=\sum\limits_{i=1}^{n+1}\theta_i x_i=\sum\limits_{i=1}^{n}\theta_i x_i+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{1-\theta_{n+1}})+\theta_{n+1}x_{n+1}x=i=1∑n+1θixi=i=1∑nθixi+θn+1xn+1=(1−θn+1)(i=1∑n1−θn+1θixi)+θn+1xn+1
=(1−θn+1)(∑i=1nθixi∑i=1nθi)+θn+1xn+1=(1−θn+1)∑i=1nηiyi+θn+1xn+1=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{\sum\limits_{i=1}^{n}\theta_i})+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})\sum\limits_{i=1}^{n}\eta_i y_i+\theta_{n+1}x_{n+1}=(1−θn+1)(i=1∑ni=1∑nθiθixi)+θn+1xn+1=(1−θn+1)i=1∑nηiyi+θn+1xn+1
=(1−θn+1)y+θn+1xn+1【两个任意的点y,xn+1】=(1-\theta_{n+1})y+\theta_{n+1}x_{n+1}【两个任意的点y,x_{n+1}】=(1−θn+1)y+θn+1xn+1【两个任意的点y,xn+1】
得证,所以凸组合x∈Sx\isin Sx∈S
凸包Convex Pull
定义:用一个最小集合涵盖(凸集S生成的)凸组合的所有点,这最小点集就是凸包。
存在凸集V凸集V凸集V,若凸集S⊂V凸集S\subset V凸集S⊂V,则S的凸包⊆VS的凸包\subseteq VS的凸包⊆V
走边界,保证区域内任意一点,一直在同一侧
边界点的切线,该直线不会将整个区域分成两个子区域
凸锥Convex cone
cone锥的定义:∀x∈C,有θx∈C,且θ≥0\forall x\isin C,有\theta x\isin C,且\theta\geq0∀x∈C,有θx∈C,且θ≥0
conic combination锥组合的定义:x=θ1x1+θ2x2,且θ1,θ2≥0x=\theta_1 x_1+\theta_2 x_2,且\theta_1,\theta_2\geq0x=θ1x1+θ2x2,且θ1,θ2≥0
convex cone凸锥:包含锥组合所有点的最小点集(两个边界的夹角小于180°)
(超)平面Hyperplanes|球体balls|椭球Ellipsoids
定义:法向量决定一个平面,所以aT(x−x0)=0a^T(x-x_0)=0aT(x−x0)=0,于是有公式{x∣aTx=b},a≠0\{x|a^Tx=b\},a\neq 0{x∣aTx=b},a=0,a是一个向量,属于凸集+仿射集
半空间Halfspaces|
定义:公式{x∣aTx−b≤0}\{x|a^Tx-b\leq0\}{x∣aTx−b≤0},a是一个向量,属于凸集+非仿射集
证明:S={x∣aTx−b>0},x1,x2∈SS=\{x|a^Tx-b>0\},x_1,x_2\isin SS={x∣aTx−b>0},x1,x2∈S,凸集+非仿射集
aTx1−b>0,aTx2−b>0a^Tx_1-b>0,a^Tx_2-b>0aTx1−b>0,aTx2−b>0
原式=aT[θx1+(1−θ)x2]−b=θ(aTx1−b)+(1−θ)(aTx2−b)原式=a^T[\theta x_1+(1-\theta)x_2]-b=\theta(a^Tx_1-b)+(1-\theta)(a^Tx_2-b)原式=aT[θx1+(1−θ)x2]−b=θ(aTx1−b)+(1−θ)(aTx2−b)
- θ∈[0,1],原式>0⟹convex\theta\isin[0,1],原式>0\implies convexθ∈[0,1],原式>0⟹convex
- θ∈R,原式不确定符号⟹not−affine\theta\isin R,原式不确定符号\implies not-affineθ∈R,原式不确定符号⟹not−affine
欧式球体Euclidean balls
定义:中心xc,半径r,B(xc,r)={x∣∣∣x−xc∣∣2≤r}={xc+ru∣∣∣u∣∣2≤1}中心x_c,半径r,B(x_c,r)=\{x|\space ||x-x_c||_2\leq r\}=\{x_c+ru|\space ||u||_2\leq 1\}中心xc,半径r,B(xc,r)={x∣ ∣∣x−xc∣∣2≤r}={xc+ru∣ ∣∣u∣∣2≤1}
椭球Ellipsoids
定义:∑i=1nxi2ri2≤1\sum\limits_{i=1}^n \frac{x_i^2}{r_i^2}\leq1i=1∑nri2xi2≤1,也可以写成{x∣(x−xc)TP−1(x−xc)≤1}且P∈S++n(对称正定矩阵),{xc+Au∣∣∣u∣∣2≤1}\{x|(x-x_c)^TP^{-1}(x-x_c)\leq1\}且P\isin S_{++}^n(对称正定矩阵),\{x_c+Au|\space||u||_2\leq 1\}{x∣(x−xc)TP−1(x−xc)≤1}且P∈S++n(对称正定矩阵),{xc+Au∣ ∣∣u∣∣2≤1}
类似马氏距离,马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据 之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。
马氏距离详细链接
可以允许P的特征值分解P=uT∑u且uT=u−1,P是半径方向P=u^T\sum u且u^T=u^{-1},P是半径方向P=uT∑u且uT=u−1,P是半径方向
有(x−xc)TP−1(x−xc)=(x−xc)T(uT∑u)−1(x−xc)(x-x_c)^TP^{-1}(x-x_c)=(x-x_c)^T(u^T\sum u)^{-1}(x-x_c)(x−xc)TP−1(x−xc)=(x−xc)T(uT∑u)−1(x−xc)
=(u(x−xc))T∑−1u(x−xc)=yT∑−1y=∑i=1nyi2ri2≤1=(u(x-x_c))^T\sum^{-1} u(x-x_c)=y^T\sum^{-1} y=\sum\limits_{i=1}^n \frac{y_i^2}{r_i^2}\leq1=(u(x−xc))T∑−1u(x−xc)=yT∑−1y=i=1∑nri2yi2≤1
注意:1ri2=1λi,λi是P的特征值⟹ri=λi\frac{1}{r_i^2}=\frac{1}{\lambda_i},\lambda_i是P的特征值\implies r_i=\sqrt{\lambda_i}ri21=λi1,λi是P的特征值⟹ri=λi
范数norm|带范数的锥norm cone
范数(∣∣.∣∣2,∣∣.∣∣1,∣∣.∣∣∞,∣∣.∣∣p||.||_2,||.||_1,||.||_{\infty},||.||_p∣∣.∣∣2,∣∣.∣∣1,∣∣.∣∣∞,∣∣.∣∣p)条件:
- ∣∣x∣∣≥0,仅当x=0时等号成立||x||\geq 0,仅当x=0时等号成立∣∣x∣∣≥0,仅当x=0时等号成立
- ∣∣tx∣∣=∣t∣∣∣x∣∣,∀t∈R||tx||=|t|\space||x||,\forall t\isin R∣∣tx∣∣=∣t∣ ∣∣x∣∣,∀t∈R
- ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣||x+y||\leq||x||+||y||∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
例如:
带范数的球norm ball:{x∣∣∣x−xc∣∣≤r}\{x|\space||x-x_c||\leq r\}{x∣ ∣∣x−xc∣∣≤r},属于凸集。
带范数的锥norm cone:{(x,t)∣∣∣x∣∣≤t}\{(x,t)|\space||x||\leq t\}{(x,t)∣ ∣∣x∣∣≤t},属于凸集。
证明:通过条件2&3&∣∣x1−xc∣∣≤r,∣∣x2−xc∣∣≤r||x_1-x_c||\leq r,||x_2-x_c||\leq r∣∣x1−xc∣∣≤r,∣∣x2−xc∣∣≤r,
∣∣θx1+(1−θ)x2−xc∣∣=∣∣θ(x1−xc)+(1−θ)(x2−xc)∣∣||\theta x_1+(1-\theta)x_2-x_c||=||\theta(x_1-x_c)+(1-\theta)(x_2-x_c)||∣∣θx1+(1−θ)x2−xc∣∣=∣∣θ(x1−xc)+(1−θ)(x2−xc)∣∣
≤∣∣θ(x1−xc)∣∣+∣∣(1−θ)(x2−xc)∣∣=θ∣∣x1−xc∣∣+(1−θ)∣∣x2−xc∣∣\leq||\theta(x_1-x_c)||+||(1-\theta)(x_2-x_c)||=\theta||x_1-x_c||+(1-\theta)||x_2-x_c||≤∣∣θ(x1−xc)∣∣+∣∣(1−θ)(x2−xc)∣∣=θ∣∣x1−xc∣∣+(1−θ)∣∣x2−xc∣∣
≤θr+(1−θ)r=r\leq\theta r+(1-\theta)r=r≤θr+(1−θ)r=r
多面体Polyhedra
定义:包含等式和不等式,逐点有Ax<b,Cx=d,A∈Rm×n,C∈Rp×nAx<b,Cx=d,A\isin R^{m\times n},C\isin R^{p\times n}Ax<b,Cx=d,A∈Rm×n,C∈Rp×n,属于凸集,是半空间和超平面的有限点的交集。
半正定矩阵的锥Positive semidefinite cone
定义:
- n×nn\times nn×n的对称矩阵(n阶方阵):SnS^nSn,维度是n(n+1)2\frac{n(n+1)}{2}2n(n+1)
∣[xyyz]−λI∣=0\begin{vmatrix} \begin{bmatrix} x & y \\ y & z \end{bmatrix}-\lambda I \end{vmatrix}=0∣∣∣∣[xyyz]−λI∣∣∣∣=0
(x−λ)(z−λ)−y2=0(x-\lambda)(z-\lambda)-y^2=0(x−λ)(z−λ)−y2=0
λ2−(x+z)λ+xz−y2=0\lambda^2-(x+z)\lambda+xz-y^2=0λ2−(x+z)λ+xz−y2=0所以有:xz−y2≥0,x+z2>0xz-y^2\geq0,\frac{x+z}{2}>0xz−y2≥0,2x+z>0 - 半正定的对称矩阵:S+n=X={s∈Sn∣x≥0},就是任意非零向量z∈Rn,都有(二次型)zTXz≥0S_{+}^n=X=\{s\isin S^n|x\geq 0\},就是任意非零向量z\isin R^n,都有(二次型)z^TXz\geq 0S+n=X={s∈Sn∣x≥0},就是任意非零向量z∈Rn,都有(二次型)zTXz≥0,属于凸集。
- 半正定矩阵的行列式是非负的;所有主子式均为非负的;所有特征值均为非负的;
比如:zTXz=(z1+z2)2≥0z^TXz=(z_1+z_2)^2\geq0zTXz=(z1+z2)2≥0 - (顺序主子式非负并不能推出矩阵是半正定的);
- 存在实矩阵C,使得X=CTCC,使得X=C^TCC,使得X=CTC
- 存在秩为r的r×nr\times nr×n实矩阵B,使得X=BTBB,使得X=B^TBB,使得X=BTB
- 两个半正定矩阵的和是半正定的;非负实数与半正定矩阵的数乘矩阵是半正定的
- 半正定矩阵的行列式是非负的;所有主子式均为非负的;所有特征值均为非负的;
- 正定的对称矩阵:S++n=X={s∈Sn∣x>0}S_{++}^n=X=\{s\isin S^n|x>0\}S++n=X={s∈Sn∣x>0}
- 正定矩阵的行列式恒为正;一切顺序主子式均为正;所有特征值均为正;
比如:zTXz=z12+z22>0z^TXz=z_1^2+z_2^2>0zTXz=z12+z22>0 - 正定实对称矩阵,与单位矩阵合同;
实对称矩阵,矩阵转置等于本身 - 存在实可逆矩阵C,使得X=CTCC,使得X=C^TCC,使得X=CTC
- 存在秩为n的m×nm\times nm×n实矩阵B,使得X=BTBB,使得X=B^TBB,使得X=BTB
- 存在主对角线元素全为正的实三角矩阵R,使得X=RTRR,使得X=R^TRR,使得X=RTR
- 两个正定矩阵的和是正定矩阵;实数与正定矩阵的乘积是正定矩阵。
- 正定矩阵的行列式恒为正;一切顺序主子式均为正;所有特征值均为正;
- 正定、半正定矩阵:直觉,代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度。
cos(θ)=zT(Xz)∣∣z∣∣∗∣∣(Xz)∣∣≥0cos(\theta)=\frac{z^T(Xz)}{||z||*||(Xz)||}\geq0cos(θ)=∣∣z∣∣∗∣∣(Xz)∣∣zT(Xz)≥0
保凸运算Operations that preserve convexity
证明是凸集C的方法:
- 定义法
x1,x2∈C,θ∈[0,1]=>x=θx1+(1−θ)x2∈Cx_1,x_2\isin C,\theta \isin [0,1]=>x=\theta x_1+(1-\theta)x_2\isin Cx1,x2∈C,θ∈[0,1]=>x=θx1+(1−θ)x2∈C - 通过简单集合(超平面,多面体,球体)变化求证(主要是以下二级标题的四种)
求交集Intersection
定义:
- 假设:x1,x2∈C1∩C2x_1,x_2\isin C_1\cap C_2x1,x2∈C1∩C2
- 结论:θx1+(1−θ)x2∈C1∩C2\theta x_1+(1-\theta)x_2\isin C_1\cap C_2θx1+(1−θ)x2∈C1∩C2
例子:
S={x∈Rm∣∣p(t)∣≤1for∣t∣≤π3}S=\{x\isin R^m |\space |p(t)|\leq1 \space for\space |t|\leq\frac{\pi}{3}\}S={x∈Rm∣ ∣p(t)∣≤1 for ∣t∣≤3π}
p(t)=x1cost+x2cos2t+...+xmcosmt=(cost,cos2t,...,cosmt)(x1x2...xm)=C(t)Txp(t)=x_1cost+x_2cos2t+...+x_mcosmt=(cost,cos2t,...,cosmt)\begin{pmatrix} x_1 \\ x_2 \\. \\. \\. \\x_m \end{pmatrix}=C(t)^Txp(t)=x1cost+x2cos2t+...+xmcosmt=(cost,cos2t,...,cosmt)⎝⎜⎜⎜⎜⎜⎜⎛x1x2...xm⎠⎟⎟⎟⎟⎟⎟⎞=C(t)Tx
St={x∈Rm∣∣P(t)∣≤1}={x∈Rm∣P(t)≤1}∩{x∈Rm∣P(t)≥−1}(2个半空间的交集)S_t=\{x\isin R^m|\space |P(t)|\leq1\}=\{x\isin R^m|\space P(t)\leq1\}\cap\{x\isin R^m|\space P(t)\geq-1\}(2个半空间的交集)St={x∈Rm∣ ∣P(t)∣≤1}={x∈Rm∣ P(t)≤1}∩{x∈Rm∣ P(t)≥−1}(2个半空间的交集)
所以S=∩∣t∣≤π3StS=\cap_{|t|\leq\frac{\pi}{3}}S_tS=∩∣t∣≤3πSt
若m=2,有下图
仿射变换Affine function
定义:
- 假设:若f(x)=Ax+b,A∈Rm×n,b∈Rmf(x)=Ax+b,A\isin R^{m\times n},b\isin R^mf(x)=Ax+b,A∈Rm×n,b∈Rm
- 结论:那么有仿射集 f:Rn−>Rmf:R^n->R^mf:Rn−>Rm
线性变换只能保证从(线性-1)到(线性-2),(曲线)可变(直线/曲线)
所以凸集线性变换后仍是凸集,但是凹集B(非满秩)可变为凸集A,B在线性变换下的原像是一个包含A的凸集
若S⊆Rn是凸集S\subseteq R^n是凸集S⊆Rn是凸集
- =>f(S)={f(x)∣x∈S}是凸集=>f(S)=\{f(x)|x\isin S\}是凸集=>f(S)={f(x)∣x∈S}是凸集
- =>f−1(C)={x∣f(x)=C}是凸集=>f^{-1}(C)=\{x|f(x)=C\}是凸集=>f−1(C)={x∣f(x)=C}是凸集
例子:
scaling(尺度变换),translation(平移),projection(投影),hyperbolic cone(双曲锥)
比如:(推导-仿射变换)双曲锥:{x∣xTPx≤(CTx)2,CTx≥0},P∈S+n(半正定矩阵,对角化P12不一定可逆)\{x|\space x^TPx\leq(C^Tx)^2,C^Tx\geq0\},P\isin S_+^n(半正定矩阵,对角化P^{\frac{1}{2}}不一定可逆){x∣ xTPx≤(CTx)2,CTx≥0},P∈S+n(半正定矩阵,对角化P21不一定可逆)
- 将P转换:P=ATA,AP=A^TA,AP=ATA,A是实矩阵
- 设CTx=tC^Tx=tCTx=t
- 于是仿射变换xTPx=zTzx^TPx=z^TzxTPx=zTz
- 得到S′={z∣zTz≤t2,t≥0}S'=\{z|z^Tz\leq t^2,t\geq 0\}S′={z∣zTz≤t2,t≥0}(二阶锥second-order cone属于凸集)
- 所以S也是凸集(convex)
感知函数Perspective function
定义:
- P:Rn+1→RnP:R^{n+1}\rightarrow R^nP:Rn+1→Rn
- f(x,t)=xt,domP={(x,t)∣t>0}f(x,t)=\frac{x}{t},domP=\{(x,t)|t>0\}f(x,t)=tx,domP={(x,t)∣t>0}(小孔成像类似投影)
证明:凸集经过感知函数P仍然是凸集
假设:x,y∈C,θx+(1−θ)y∈C,θ∈[0,1],P(x)=x~xn+1x,y\isin C,\theta x+(1-\theta)y\isin C,\theta\isin[0,1],P(x)=\frac{\widetilde{x}}{x_{n+1}}x,y∈C,θx+(1−θ)y∈C,θ∈[0,1],P(x)=xn+1x
结论:θP(x)+(1−θ)P(y)∈P(C)\theta P(x)+(1-\theta)P(y)\isin P(C)θP(x)+(1−θ)P(y)∈P(C)
推导:P(θx+(1−θ)y)=θx+(1−θ)y~(θx+(1−θ)y)n+1P(\theta x+(1-\theta)y)=\frac{\widetilde{\theta x+(1-\theta)y}}{(\theta x+(1-\theta)y)_{n+1}}P(θx+(1−θ)y)=(θx+(1−θ)y)n+1θx+(1−θ)y
=θx~+(1−θ)y~θxn+1+(1−θ)yn+1=θx~xn+1xn+1+(1−θ)y~yn+1yn+1θxn+1+(1−θ)yn+1=\frac{\theta\widetilde{x}+(1-\theta)\widetilde{y}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\frac{\theta\frac{\widetilde{x}}{x_{n+1}}x_{n+1}+(1-\theta)\frac{\widetilde{y}}{y_{n+1}}y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=θxn+1+(1−θ)yn+1θx+(1−θ)y=θxn+1+(1−θ)yn+1θxn+1xxn+1+(1−θ)yn+1yyn+1
=θP(x)xn+1+(1−θ)P(y)yn+1θxn+1+(1−θ)yn+1=αP(x)+(1−α)P(y)=\frac{\theta P(x)x_{n+1}+(1-\theta)P(y)y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\alpha P(x)+(1-\alpha)P(y)=θxn+1+(1−θ)yn+1θP(x)xn+1+(1−θ)P(y)yn+1=αP(x)+(1−α)P(y)
其中α=θxn+1θxn+1+(1−θ)yn+1\alpha=\frac{\theta x_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}α=θxn+1+(1−θ)yn+1θxn+1
线性分式函数Linear-fractional function
定义:
- f:Rn→Rmf:R^{n}\rightarrow R^mf:Rn→Rm
- f(x)=Ax+bCTx+d,domf={x∣CTx+d>0}f(x)=\frac{Ax+b}{C^Tx+d},domf=\{x|C^Tx+d>0\}f(x)=CTx+dAx+b,domf={x∣CTx+d>0}(仿射变换(Ax+bAx+bAx+b)+感知函数(CTx+d>0C^Tx+d>0CTx+d>0)的组合)
结论:其原象(image)和反象(逆inverse)都是保持凸性的,线性分式函数是能保持凸性的运算
例子:性状(凹凸/角)基本不变,就是部分拉伸
广义不等关系
好锥proper cone
定义:凸集K⊆RnK\subseteq R^nK⊆Rn满足以下条件就是一个好的锥(proper cone)
- K要包含边界(closed-闭/边界线)
- K不是一条射线(solid-有内点/实心)
- K是有方向的,不包含其反方向(pointed-尖)
pointed cone尖锥
举例:
- 非负实数集:K=R+n={x∈Rn∣xi≥0,i=1,...,n}K=R_+^n=\{x\isin R^n|x_i\geq 0,i=1,...,n\}K=R+n={x∈Rn∣xi≥0,i=1,...,n}
- 对称半正定矩阵的锥positive semidefinite cone:K=S+nK=S_+^nK=S+n,内部是一个对称正定矩阵
- 非负多项式nonnegative polynominal:K={x∈Rn∣x+x2t+x3t2+...+xntn−1≥0,fort∈[0,1]}K=\{x\isin R^n|x+x_2t+x_3t^2+...+x_nt^{n-1}\geq0,for\space t\isin[0,1]\}K={x∈Rn∣x+x2t+x3t2+...+xntn−1≥0,for t∈[0,1]}
偏序Generalized Inequality
偏序:部分元素的二元关系成立;全序:任何一对元素的二元关系都成立
全序关系必定是偏序关系
定义:通过proper cone定义,是关于某种集合K
- x⪯Ky⟺y−x∈Kx\preceq_Ky\iff y-x\isin Kx⪯Ky⟺y−x∈K
- x≺Ky⟺y−x∈IntK(指K的内点)x\prec_Ky\iff y-x\isin Int K(指K的内点)x≺Ky⟺y−x∈IntK(指K的内点)
例子ex:
- 分量偏序-componentwise inequality(K=R+nK=R_+^nK=R+n)每一个相减以后符号都一样
x⪯R+nyx\preceq_{R_+^n}yx⪯R+ny⟺xi≤yi,i=1,...,n\iff x_i\leq y_i,i=1,...,n⟺xi≤yi,i=1,...,n - 矩阵偏序-matrix inequality(K=S+nK=S_+^nK=S+n)每一个相减以后都是半正定矩阵
X⪯R+nYX\preceq_{R_+^n}YX⪯R+nY⟺Y−X∈S+n\iff Y-X\isin S_+^n⟺Y−X∈S+n
性质:支持加法运算
x⪯Ky,u⪯Kv⟹(x+u)⪯K(y+v)x\preceq_Ky,u\preceq_Kv \implies (x+u)\preceq_K(y+v)x⪯Ky,u⪯Kv⟹(x+u)⪯K(y+v)
由此可以比较找出最大/最小值
最小化Minimum
最小元Minimum elements定义:(w.r.t=with respect to)关于某种顺序K下,如果符合条件:∀y∈S⟹x⪯Ky\forall y\isin S\implies x\preceq_Ky∀y∈S⟹x⪯Ky,那么x是集合S中的最小元【别的都比他大】。
任意的y都可以和x比较,举例K=R+2K=R_+^2K=R+2,下图中,单点x1x_1x1是S1S_1S1的最小元。
极小元Minimal elements定义:(w.r.t=with respect to)关于某种顺序K下,如果符合条件:∀y∈S,y⪯Kx⟹y=x\forall y\isin S,y\preceq_Kx\implies y=x∀y∈S,y⪯Kx⟹y=x,那么x是集合S中的极小元【没有比他小的】。
举例K=R+2K=R_+^2K=R+2,下图中,点x2x_2x2所在的边界线是S2S_2S2的极小元。
(线性)可分超平面定理Separating hyperplane theorem
定义:
对于不相交(disjoint)的非空凸集C和D,存在一个向量a≠(0或b)a\neq (0或b)a=(0或b),都有aTx≤bforx∈C,aTx≥bforx∈Da^Tx\leq b\space for\space x\isin C,a^Tx\geq b\space for\space x\isin DaTx≤b for x∈C,aTx≥b for x∈D,分割出C和D的超平面就是{x∣aTx=b}\{x|a^Tx=b\}{x∣aTx=b}
最优化建模:
假设坐标d∈D,坐标c∈C,∣∣d−c∣∣=inf(下确界){∣∣u−v∣∣∣u∈D,v∈C}坐标d\isin D,坐标c\isin C,||d-c||=inf(下确界)\{||u-v||\space|u\isin D,v\isin C\}坐标d∈D,坐标c∈C,∣∣d−c∣∣=inf(下确界){∣∣u−v∣∣ ∣u∈D,v∈C},
那么超平面符合f(x)=(d−c)T(x−d+c2)=0f(x)=(d-c)^T(x-\frac{d+c}{2})=0f(x)=(d−c)T(x−2d+c)=0
(d−c是向量,和中点方向d+c2垂直,所以用转置)(d-c是向量,和中点方向\frac{d+c}{2}垂直,所以用转置)(d−c是向量,和中点方向2d+c垂直,所以用转置)
证明:
f(x)={≥0,x∈D≤0,x∈Cf(x)=\begin{cases}\geq 0,x\isin D \\ \leq 0,x\isin C \end{cases}f(x)={≥0,x∈D≤0,x∈C
u∈D,f(u)≥0u\isin D,f(u)\geq 0u∈D,f(u)≥0
(d−c)T(u−d+c2)=(d−c)T(u−d+d−c2)=(d−c)T(u−d)+∣∣d−c∣∣222(d-c)^T(u-\frac{d+c}{2})=(d-c)^T(u-d+\frac{d-c}{2})=(d-c)^T(u-d)+\frac{||d-c||_2^2}{2}(d−c)T(u−2d+c)=(d−c)T(u−d+2d−c)=(d−c)T(u−d)+2∣∣d−c∣∣22
反证法:设f(u)≤0f(u)\leq 0f(u)≤0,因为∣∣d−c∣∣222\frac{||d-c||_2^2}{2}2∣∣d−c∣∣22肯定大于0,所以(d−c)T(u−d)≤0(d-c)^T(u-d)\leq 0(d−c)T(u−d)≤0
设置函数:g(t)=∣∣d−c+t(u−d)∣∣22,g’(t)=2(d−c+t(u−d))g(t)=||d-c+t(u-d)||_2^2,g’(t)=2(d-c+t(u-d))g(t)=∣∣d−c+t(u−d)∣∣22,g’(t)=2(d−c+t(u−d))
有导数g′(0)=2(d−c)T(u−d)≤0g'(0)=2(d-c)^T(u-d)\leq 0g′(0)=2(d−c)T(u−d)≤0
所以:∃t>0,s.t(sothat)∣∣d−c+t(u−d)∣∣22<∣∣d−c∣∣22\exist t>0,s.t(so\space that)||d-c+t(u-d)||_2^2<||d-c||_2^2∃t>0,s.t(so that)∣∣d−c+t(u−d)∣∣22<∣∣d−c∣∣22,这与d−cd-cd−c是最小距离的假设相互矛盾
严格可分超平面
充分条件:例如:一个集合是闭的,一个集合是开的,那么,一定可分割
支撑面Supporting hyperplane theorem
定义:
点集C的边界点x0x_0x0上衍生出的一条直线{x∣aTx=aTx0}\{x|a^Tx=a^Tx_0\}{x∣aTx=aTx0},保证C完全在线的某一侧
其中,向量a≠0,且∀x∈C,有aTx≤aTx0a\neq 0,且\forall x\isin C,有a^Tx\leq a^Tx_0a=0,且∀x∈C,有aTx≤aTx0
性质:
如果C是凸集,那么C的每一个边界点都存在一个支撑面
对偶Dual cone
对偶定义
锥K的对偶定义:K∗={y∣yTx≥0forallx∈K}K^*=\{y|y^Tx\geq 0\space for\space all\space x\isin K\}K∗={y∣yTx≥0 for all x∈K}(保证选取的向量,与锥内的点向量之间,都保持直角以下的关系)
对偶举例
- 自对偶self-dual cones
- K=R+n⟹K∗=R+nK=R_+^n\implies K^*=R_+^nK=R+n⟹K∗=R+n(非负实数集)
- K=S+n⟹K∗=S+nK=S_+^n\implies K^*=S_+^nK=S+n⟹K∗=S+n(半正定对称矩阵)
- K={(x,t)∣∣∣x∣∣2≤t}⟹K∗={(x,t)∣∣∣x∣∣2≤t}K=\{(x,t)|\space||x||_2\leq t\}\implies K^*=\{(x,t)|\space||x||_2\leq t\}K={(x,t)∣ ∣∣x∣∣2≤t}⟹K∗={(x,t)∣ ∣∣x∣∣2≤t}(第二范数恒为正)
- 普通对偶
- K={(x,t)∣∣∣x∣∣1≤t}⟹K∗={(x,t)∣∣∣x∣∣∞≤t}K=\{(x,t)|\space||x||_1\leq t\}\implies K^*=\{(x,t)|\space||x||_\infty \leq t\}K={(x,t)∣ ∣∣x∣∣1≤t}⟹K∗={(x,t)∣ ∣∣x∣∣∞≤t}(第一范数是绝对值,对偶是其向量的最大值)
对偶性质
- 对偶也是凸集convex
u,v∈K∗,(θu+(1−θ)v)Tx=θuTx+(1−θ)vTx≥0,所以对θ∈[0,1],有θu+(1−θ)v∈K∗u,v\isin K^*,(\theta u+(1-\theta)v)^Tx=\theta u^Tx+(1-\theta)v^Tx\geq0,所以对\theta\isin[0,1],有\theta u+(1-\theta)v\isin K^*u,v∈K∗,(θu+(1−θ)v)Tx=θuTx+(1−θ)vTx≥0,所以对θ∈[0,1],有θu+(1−θ)v∈K∗
锥cone不一定是convex的,如下图
- K∗∗是KK^{**}是KK∗∗是K的凸包
当KKK是凸集,K∗∗=KK^{**}=KK∗∗=K,
对偶的偏序关系
proper cones的对偶也是proper的
其偏序的定义:y⪰K∗0⟺yTx≥0forallx⪰K0y\succeq_{K^*}0\iff y^Tx\geq 0\space for \space all \space x\succeq_K0y⪰K∗0⟺yTx≥0 for all x⪰K0
注意:y∈K∗,x∈Ky\isin K^*,x\isin Ky∈K∗,x∈K
对偶的最小化
- 最小元minimum element
∀向量λ∈K∗(λ⪰K∗0),∀x,z∈S,有λTx≤λTz,所以x就是点集S关于对偶K∗的最小元\forall向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz,所以x就是点集S关于对偶K^*的最小元∀向量λ∈K∗(λ⪰K∗0),∀x,z∈S,有λTx≤λTz,所以x就是点集S关于对偶K∗的最小元
- 极小元minimal element
∃向量λ∈K∗(λ⪰K∗0),∀x,z∈S,有λTx≤λTz,所以x就是点集S关于对偶K∗的极小元\exist向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz,所以x就是点集S关于对偶K^*的极小元∃向量λ∈K∗(λ⪰K∗0),∀x,z∈S,有λTx≤λTz,所以x就是点集S关于对偶K∗的极小元
总结
- 基本概念
- 凸集和仿射集
凸集convex是θ∈[0,1]\theta\isin [0,1]θ∈[0,1],仿射集affine是θ∈R\theta\isin Rθ∈R,所以凸集不一定是仿射集 - 凸组合和凸包
两个x扩展到k个x的组合 - 凸锥
任意一个x,而且θ≥0\theta\geq 0θ≥0 - 超平面和半空间
超平面:凸+仿射;半空间:凸+非仿射 - 球体和椭球
半径的取值变换 - 范数
带范数的球和带范数的锥都是凸的 - 多面体和半正定矩阵
这些都是凸的
- 凸集和仿射集
- 保凸运算
通过简单集合(超平面,多面体,球体)变化求证- 交集
就是求得半空间的交集 - 仿射变换
类似线性变换+平移,仍保持线性结构 - 感知函数
函数形式是分式,类似投影效果 - 线性反分式函数
感知函数的形式,分子利用了仿射变换
- 交集
- 不等关系
- 好锥的定义
凸convex,闭closed,实solid,尖pointed - 偏序
部分元素成立的二元关系 - 最小化
最小元-锥尖;极小元-底线 - 可分超平面
区分两个可分割的点集 - 支撑面
凸集的每个边界点都有支撑面
- 好锥的定义
- 对偶
- 定义
向量-内积大于0,矩阵-迹大于0 - 性质
对偶是凸的,K∗∗是KK^{**}是KK∗∗是K的凸包 - 最小化
最小元-锥尖-任意向量λ;极小元-由一个向量λ决定
- 定义
如若笔记有误,欢迎指正批评。未来仍会不定期修正和补充。
Reference
总结
凸优化PPT
最优化方法(学习笔记)-第二章凸集相关推荐
- 《Go语言圣经》学习笔记 第二章 程序结构
Go语言圣经学习笔记 第二章 程序结构 目录 命名 声明 变量 赋值 类型 包和文件 作用域 注:学习<Go语言圣经>笔记,PDF点击下载,建议看书. Go语言小白学习笔记,几乎是书上的内 ...
- PhalAPI学习笔记 ——— 第二章接口服务请求
PhalAPI学习笔记 --- 第二章接口服务请求 前言 接口服务请求 接口服务请求案例 自定义接口路由 开启匹配路由 配置路由规则 nginx apache 服务请求 结束语 前言 公司业务需要转学 ...
- [go学习笔记.第二章] 2.go语言的开发工具以及安装和配置SDK
一.工具介绍: 1.Visual Studio Code 一个运行于Mac,Windows,和linux上的,默认提供Go语言的语法高亮的IED,可以安装Go语言插件,还可以支持智能提示,编译运行等功 ...
- 小吴的《机器学习 周志华》学习笔记 第二章 模型评估与选择
小吴的<机器学习 周志华>学习笔记 第二章 模型评估与选择 上一周我们介绍了第一章的基础概念,这一次将带来第二章的前三节.后面的2.4 比较检验与2.5 偏差与方差,涉及概率论与数理统计概 ...
- 小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、2.5 偏差与方差
小吴的<机器学习 周志华>学习笔记 第二章 2.4 比较检验. 2.5 偏差与方差 2.4 比较检验 上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习 ...
- 机器人导论(第四版)学习笔记——第二章
机器人学导论(第四版)学习笔记--第二章 2. 空间描述和变换 2.1 引言 2.2 描述:位置.姿态与位姿 2.3 映射:从一个坐标系到另一个坐标系的变换 2.4 算子:平行,旋转和变换 2.5 总 ...
- Kotlin学习笔记 第二章 类与对象 第十一节 枚举类 第八节密封类
参考链接 Kotlin官方文档 https://kotlinlang.org/docs/home.html 中文网站 https://www.kotlincn.net/docs/reference/p ...
- Kotlin学习笔记 第二章 类与对象 第十四 十五节 委托 委托属性
参考链接 Kotlin官方文档 https://kotlinlang.org/docs/home.html 中文网站 https://www.kotlincn.net/docs/reference/p ...
- Kotlin学习笔记 第二章 类与对象 第七节 数据类
参考链接 Kotlin官方文档 https://kotlinlang.org/docs/home.html 中文网站 https://www.kotlincn.net/docs/reference/p ...
- Android开发艺术探索学习笔记 第二章IPC
最近将之前工作做本地的学习笔记上传一下 这里是Android艺术开发探索的前三章内容 文章目录 1. android的多进程模式 2. IPC基础概念介绍 2.1 Serializable 2.2Pa ...
最新文章
- java 音频电台_Java-通过Java套接字广播语音
- 抓取异步数据(AJAX)笔记
- linux脚本中怎么直接替换,linux-如何快速替换IP
- Oracle Rman 命令详解(List report backup configure)
- 【BZOJ-4631】踩气球 线段树 + STL
- 数据算法与结构基本知识
- ZOJ 3204 Connect them 继续MST
- C语言中static关键字详解
- 马哥python课堂笔记_马哥-python-课堂笔记12-python核心数据类型及类型显示转换
- 多版本号并发控制(MVCC)在实际项目中的应用
- [Servletamp;JSP] 从JSP到Servlet
- 119. PHP 性能问题(2)
- 10个免费网络管理工具
- 【图书推荐】中国首部敏捷开发案例集《敏捷开发一千零一夜》
- 疑犯追踪第五季/全集Person of Interest迅雷下载
- (一)生成器详解——简单生成器
- 机器学习、深度学习、神经网络还傻傻分不清吗?
- 格式化数据#1:数据存储|Database
- Linux 服务大全详解
- itest英语考试bug_iTEST爱考试手机客户端下载-iTEST爱考试官网appv5.1.1安卓版下载_飞翔下载...
热门文章
- Excel Pearson相关系数
- 简化版WIN7安装打印机时提示“打印机无法安装,打印处理器不存在。”正确处理方法
- [web开发] Vue+Spring Boot 上海大学预约系统开发记录
- 华为手机像素密度排行_「屏幕像素密度」(全解析)屏幕尺寸,分辨率,像素,PPI之间到底什么关系? - seo实验室...
- 你连阶级固化的原因都搞不清,又凭什么不被固化在底层?
- 大数据平台有哪些基础服务
- .ico 图标下载网站推荐
- 让子弹飞,是什么意思?
- html table 斜线表头,Table表格加斜线表头
- 微信支付商户朋友圈广告