中科大凸优化P345678 Chapter2Conve Set
Chapter1 Introduction
Chapter2 Convex Set
P3&P4
1、特例:仿射集Affine Sets
给定两点(向量),确定一条直线贯穿两个点
$ \vec{p_1} \neq \vec{p_2} \in \mathbb{R}^n, \theta\in\mathbb{R}$
p 3 ⃗ = θ p 1 ⃗ + ( 1 − θ ) p 2 ⃗ = p 2 ⃗ + θ ( p 1 ⃗ − p 2 ⃗ ) \vec{p_3}=\theta \vec{p_1} + (1-\theta)\vec{p_2}=\vec{p_2}+\theta (\vec{p_1}-\vec{p_2}) p3 =θp1 +(1−θ)p2 =p2 +θ(p1 −p2 )
变化 θ \theta θ得到的所有的 p 3 p_3 p3点构成了从 x 2 x_2 x2出发,沿着 x 1 − x 2 x_1-x_2 x1−x2的方向的一条直线
最终构成了跨过p1 p2两点的直线,如下图
如果觉得还不够直观,
设坐标 p 3 = ( x , y ) p_3=(x,y) p3=(x,y)(未知数,多个取值),
p 1 = ( x 1 , y 1 ) p_1=(x_1,y_1) p1=(x1,y1), p 2 = ( x 2 , y 2 ) p_2=(x_2,y_2) p2=(x2,y2)
由 p 3 ⃗ = θ p 1 ⃗ + ( 1 − θ ) p 2 ⃗ = p 2 ⃗ + θ ( p 1 ⃗ − p 2 ⃗ ) \vec{p_3}=\theta \vec{p_1} + (1-\theta)\vec{p_2}=\vec{p_2}+\theta (\vec{p_1}-\vec{p_2}) p3 =θp1 +(1−θ)p2 =p2 +θ(p1 −p2 )
有 p 3 ⃗ − p 2 ⃗ = θ ( p 1 ⃗ − p 2 ⃗ ) \vec{p_3}-\vec{p_2}=\theta (\vec{p_1}-\vec{p_2}) p3 −p2 =θ(p1 −p2 )
则有
y − y 2 = θ ( y 1 − y 2 ) y-y_2=\theta(y_1-y_2) y−y2=θ(y1−y2)
x − x 2 = θ ( x 1 − x 2 ) x-x_2=\theta(x_1-x_2) x−x2=θ(x1−x2)
则
y − y 2 y 1 − y 2 = θ = x − x 2 x 1 − x 2 \frac{y-y_2}{y_1-y_2}=\theta=\frac{x-x_2}{x_1-x_2} y1−y2y−y2=θ=x1−x2x−x2
则
y − y 2 x − x 2 = y 1 − y 2 x 1 − x 2 \frac{y-y_2}{x-x_2}=\frac{y_1-y_2}{x_1-x_2} x−x2y−y2=x1−x2y1−y2
这不就是小学还是初中直线的斜率表达式嘛
所以请当作常识记:
或 p 3 ⃗ = α p 1 ⃗ + β p 2 ⃗ , α + β = 1 \vec{p_3}=\alpha\vec{p_1} + \beta\vec{p_2}, \bm{\alpha+\beta=1} p3 =αp1 +βp2 ,α+β=1是贯穿 p 2 ⃗ , p 1 ⃗ \vec{p_2},\vec{p_1} p2 ,p1 的直线(仿射集)
(这里 α + β = 1 \alpha +\beta=1 α+β=1使得它是一条直线;如果任意选择 β , α \beta,\alpha β,α,将得到一个平面(向量 x 1 , x 2 x_1,x_2 x1,x2为非正交基张成的)——当时下面会看到,当 x 1 , x 2 x_1,x_2 x1,x2共过原点的线, β , α \beta,\alpha β,α将可任意选择——因为退化了一维)
两点之间的线段: y = θ x 1 + ( 1 − θ ) x 2 , θ ∈ R = x 2 + θ ( x 1 − x 2 ) , θ ∈ [ 0 , 1 ] y=\theta x_1 + (1-\theta)x_2, \theta\in \mathbb{R}=x_2+\theta(x_1-x_2), \theta \in [0,1] y=θx1+(1−θ)x2,θ∈R=x2+θ(x1−x2),θ∈[0,1]
从上面两个知识出发:
(有点像空间)
(关键词:直线)
(直线是仿射集,线段不是因为有端点限制)推广:仿射组合
由仿射集到仿射组合
4个乃至多个x的情况靠这个推论出来即可:比如4个点的
θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4 = ( θ 1 + θ 2 + θ 3 ) [ θ 1 θ 1 + θ 2 + θ 3 x 1 + θ 2 θ 1 + θ 2 + θ 3 x 2 + θ 3 θ 1 + θ 2 + θ 3 x 3 ] + θ 4 x 4 = ( θ 1 + θ 2 + θ 3 ) [ θ 1 + θ 2 θ 1 + θ 2 + θ 3 ( θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 x 2 ) + θ 3 θ 1 + θ 2 + θ 3 x 3 ] + θ 4 x 4 \begin{aligned} &\quad\theta_1 x_1 + \theta_2 x_2 +\theta_3 x_3 + \theta_4 x_4\\ &=(\theta_1+\theta_2+\theta_3)[\frac{\theta_1}{\theta_1+\theta_2+\theta_3}x_1+\frac{\theta_2}{\theta_1+\theta_2+\theta_3}x_2+\frac{\theta_3}{\theta_1+\theta_2+\theta_3}x_3]+\theta_4 x_4\\ &=(\theta_1+\theta_2+\theta_3)[\frac{\theta_1+\theta_2}{\theta_1+\theta_2+\theta_3}(\frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2)+\frac{\theta_3}{\theta_1+\theta_2+\theta_3}x_3]+\theta_4 x_4\\ \end{aligned} θ1x1+θ2x2+θ3x3+θ4x4=(θ1+θ2+θ3)[θ1+θ2+θ3θ1x1+θ1+θ2+θ3θ2x2+θ1+θ2+θ3θ3x3]+θ4x4=(θ1+θ2+θ3)[θ1+θ2+θ3θ1+θ2(θ1+θ2θ1x1+θ1+θ2θ2x2)+θ1+θ2+θ3θ3x3]+θ4x4
θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 x 2 \frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2 θ1+θ2θ1x1+θ1+θ2θ2x2满足仿射定义, ∈ C \in C ∈C;
所以
θ 1 + θ 2 θ 1 + θ 2 + θ 3 ( θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 x 2 ) + θ 3 θ 1 + θ 2 + θ 3 x 3 ∈ C \frac{\theta_1+\theta_2}{\theta_1+\theta_2+\theta_3}(\frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2)+\frac{\theta_3}{\theta_1+\theta_2+\theta_3}x_3 \in C θ1+θ2+θ3θ1+θ2(θ1+θ2θ1x1+θ1+θ2θ2x2)+θ1+θ2+θ3θ3x3∈C
所以
( θ 1 + θ 2 + θ 3 ) [ θ 1 + θ 2 θ 1 + θ 2 + θ 3 ( θ 1 θ 1 + θ 2 x 1 + θ 2 θ 1 + θ 2 x 2 ) + θ 3 θ 1 + θ 2 + θ 3 x 3 ] + θ 4 x 4 ∈ C (\theta_1+\theta_2+\theta_3)[\frac{\theta_1+\theta_2}{\theta_1+\theta_2+\theta_3}(\frac{\theta_1}{\theta_1+\theta_2}x_1+\frac{\theta_2}{\theta_1+\theta_2}x_2)+\frac{\theta_3}{\theta_1+\theta_2+\theta_3}x_3]+\theta_4 x_4\in C (θ1+θ2+θ3)[θ1+θ2+θ3θ1+θ2(θ1+θ2θ1x1+θ1+θ2θ2x2)+θ1+θ2+θ3θ3x3]+θ4x4∈C
也就是 t h e t a 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4 ∈ C theta_1 x_1 + \theta_2 x_2 +\theta_3 x_3 + \theta_4 x_4 \in C theta1x1+θ2x2+θ3x3+θ4x4∈C
大于4个点的也是像这样嵌套推但是有一种特殊情况(or 普遍??),当 p 1 ⃗ \vec{p_1} p1 , p 2 ⃗ \vec{p_2} p2 共线,也就是 p 1 , p 2 p_1, p_2 p1,p2的连线经过原点时候,任意选择 α , β \alpha, \beta α,β, p 3 p_3 p3都在连线上
(这是因为向量共线,张成的向量空间是一维的,第三点只能在这个”条状“的空间上伸缩改变,在p1p2线上)
(而向量不共线的时候,张成了一个平面空间,第三点不一定在两点连线上,只有当 α + β = 1 \alpha+\beta=1 α+β=1时才共线)
上面的任意选择 α , β \alpha,\beta α,β,新的点都属于仿射集, 这似乎是一开始仿射集的推广。
设 x 1 , x 2 ∈ C x_1,x_2\in C x1,x2∈C, C是仿射集(必有 α x 1 + β x 2 ∈ C , α + β = 1 \alpha x_1+\beta x_2\in C, \bm{\alpha+\beta=1} αx1+βx2∈C,α+β=1)。
那么什么样的仿射集才能任意选择 α , β \alpha,\beta α,β使得 α x 1 + β x 2 ∈ C \alpha x_1 + \beta x_2 \in C αx1+βx2∈C呢?(上一点的例子就有这么一种属性)
.
构造一个新的集合
V = C − x 0 = { x − x 0 ∣ x ∈ C } , ∀ x 0 ∈ C V=C-x_0=\{x-x_0|x\in C\}, \forall x_0 \in C V=C−x0={x−x0∣x∈C},∀x0∈C(V是原始仿射集C基于 x 0 x_0 x0的整体平移的结果),称为与C相关的子空间 。
这个新集合就是我们寻找的满足
∀ β , α ∈ R , ∀ v 1 , v 2 ∈ V , α v 1 + β v 2 ∈ V \forall \beta, \alpha\in \mathbb{R}, \forall v_1, v_2 \in V, \alpha v_1 + \beta v_2 \in V ∀β,α∈R,∀v1,v2∈V,αv1+βv2∈V的仿射集。
.
证明:
要证 α v 1 + β v 2 ∈ V \alpha v_1 + \beta v_2 \in V αv1+βv2∈V
可证 α v 1 + β v 2 + x 0 ∈ C \alpha v_1 + \beta v_2 + x_0 \in C αv1+βv2+x0∈C
左边= α ( v 1 + x 0 ) + β ( v 2 + x 0 ) + ( 1 − α − β ) x 0 \alpha (v_1 + x_0) + \beta (v_2+x_0) + (1-\alpha -\beta) x_0 α(v1+x0)+β(v2+x0)+(1−α−β)x0
而$ (v_1 + x_0) , (v_2+x_0), x_0 $ 都$ \in C $, 且有 α + β + ( 1 − α − β ) = 1 \alpha + \beta + (1-\alpha-\beta)=1 α+β+(1−α−β)=1 ,满足仿射集一开始的定义
所以 α v 1 + β v 2 + x 0 ∈ C \alpha v_1 + \beta v_2 + x_0 \in C αv1+βv2+x0∈C 得证
所以 α v 1 + β v 2 ∈ V \alpha v_1 + \beta v_2 \in V αv1+βv2∈V也得证
.
直观理解:
以二维空间为例,
仿射集C是两个向量(基)张成的二维平面空间(下图中俩绿线构成了"四边形"),减去空间内一个向量x0(下图黄色向量)得到的子空间V少了一维(下图中俩红线共线),退化为一维空间(俩共线红线构成的一条线,也是x0的垂线)(可以看成仿射空间以x_0、x_0正交线为基底,如今没了x_0方向),所以这个子空间V所有向量共线,所以无论alpha,beta取什么值,得到的新的点都在这条线上,所以是仿射集
例1: 线性方程组的解集是仿射集
.
C = { x ∣ A x = b } , A ∈ R m × n , b ∈ R m , x ∈ R n C=\{x|Ax=b \}, A\in \mathbb{R}^{m \times n}, b\in \mathbb{R}^m, x \in \mathbb{R}^n C={x∣Ax=b},A∈Rm×n,b∈Rm,x∈Rn
.
证明:
∀ x 1 , x 2 ∈ C \forall x_1,x_2 \in C ∀x1,x2∈C,即 A x 1 = b , A x 2 = b Ax_1=b, Ax_2=b Ax1=b,Ax2=b
∀ θ ∈ R \forall \theta \in \mathbb{R} ∀θ∈R,有
A ( θ x 1 + ( 1 − θ ) x 2 ) = θ A x 1 + ( 1 − θ ) A x 2 = θ b + ( 1 − θ ) b = b A(\theta x_1 + (1-\theta)x_2)=\theta A x_1 + (1-\theta)A x_2 =\theta b + (1-\theta)b=b A(θx1+(1−θ)x2)=θAx1+(1−θ)Ax2=θb+(1−θ)b=b
so θ x 1 + ( 1 − θ ) x 2 ∈ C \theta x_1 + (1-\theta)x_2 \in C θx1+(1−θ)x2∈Ce.g.2 prove that 与C相关的子空间V是仿射空间(这个子空间是化零空间,通解)
.
翻译:
C = { x ∣ A x = b } , A ∈ R m × n , b ∈ R m , x ∈ R n C=\{x|Ax=b\}, A\in \mathbb{R}^{m \times n}, b\in \mathbb{R}^m, x \in \mathbb{R}^n C={x∣Ax=b},A∈Rm×n,b∈Rm,x∈Rn
prove V = { x − x 0 ∣ x ∈ C } = { x − x 0 ∣ A x = b } , ∀ x 0 ∈ C V=\{x-x_0|x\in C\}=\{x-x_0|Ax=b\}, \forall x_0 \in C V={x−x0∣x∈C}={x−x0∣Ax=b},∀x0∈C
satisfy
α x 1 + β x 2 ∈ V , ∀ x 1 , x 2 ∈ V , ∀ α , β ∈ R \alpha x_1 + \beta x_2\in V, \forall x_1,x_2 \in V, \forall \alpha, \beta \in \mathbb{R} αx1+βx2∈V,∀x1,x2∈V,∀α,β∈R.
.
Prove:
To prove α x 1 + β x 2 ∈ V , ∀ x 1 , x 2 ∈ V \alpha x_1 + \beta x_2\in V, \forall x_1,x_2 \in V αx1+βx2∈V,∀x1,x2∈V,
we only need to prove α x 1 + β x 2 + x 0 ∈ C , ∀ x 1 , x 2 ∈ V \alpha x_1 + \beta x_2 +x_0 \in C, \forall x_1,x_2 \in V αx1+βx2+x0∈C,∀x1,x2∈V.
Because x 1 + x 0 ∈ C , x 2 + x 0 ∈ C x_1 + x_0 \in C, x_2 +x_0 \in C x1+x0∈C,x2+x0∈C,
then
A x 1 = A ( x 1 + x 0 − x 0 ) = A ( x 1 + x 0 ) − A x 0 = b − b = 0 Ax_1=A(x_1+x_0-x_0)=A(x_1+x_0)-Ax_0=b-b=0 Ax1=A(x1+x0−x0)=A(x1+x0)−Ax0=b−b=0
A x 2 = A ( x 2 + x 0 − x 0 ) = A ( x 2 + x 0 ) − A x 0 = b − b = 0 Ax_2=A(x_2+x_0-x_0)=A(x_2+x_0)-Ax_0=b-b=0 Ax2=A(x2+x0−x0)=A(x2+x0)−Ax0=b−b=0 .
Then
A ( α x 1 + β x 2 + x 0 ) = 0 + 0 + b = b A(\alpha x_1 + \beta x_2 +x_0)=0+0+b=b A(αx1+βx2+x0)=0+0+b=b,
therefore
α x 1 + β x 2 + x 0 ∈ C , ∀ x 1 , x 2 ∈ V , ∀ α , β ∈ R \alpha x_1 + \beta x_2 +x_0 \in C, \forall x_1,x_2 \in V, \forall \alpha, \beta \in \mathbb{R} αx1+βx2+x0∈C,∀x1,x2∈V,∀α,β∈R
therefore
α x 1 + β x 2 ∈ V , ∀ x 1 , x 2 ∈ V , ∀ α , β ∈ R \alpha x_1 + \beta x_2\in V, \forall x_1,x_2 \in V, \forall \alpha, \beta \in \mathbb{R} αx1+βx2∈V,∀x1,x2∈V,∀α,β∈R,
done.
.
性质
V = { x − x 0 ∣ x ∈ C } = { x − x 0 ∣ A x = b } , A x 0 = b = { x − x 0 ∣ A ( x − x 0 ) = 0 } = { y ∣ A y = 0 } — — A x = b 的 通 解 ! ! ! ( 化 零 空 间 ) \begin{aligned} V&=\{x-x_0|x\in C\}\\ &=\{x-x_0|Ax=b\}, Ax_0=b\\ &=\{x-x_0|A(x-x_0)=0\}\\ &=\{y|Ay=0\} ——Ax=b的通解!!!(化零空间) \end{aligned} V={x−x0∣x∈C}={x−x0∣Ax=b},Ax0=b={x−x0∣A(x−x0)=0}={y∣Ay=0}——Ax=b的通解!!!(化零空间)任意集合C,构造尽可能小的仿射集——仿射包,aff C
定义为
a f f C = { θ 1 x 1 + ⋯ + θ k x k ∣ ∀ x 1 , ⋯ , x k ∈ C , ∀ θ 1 + ⋯ + θ k = 1 } aff C=\{\theta_1 x_1 +\cdots+\theta_k x_k|\forall x_1,\cdots, x_k \in C, \forall \theta_1+\cdots+\theta_k=1\} affC={θ1x1+⋯+θkxk∣∀x1,⋯,xk∈C,∀θ1+⋯+θk=1}
.
二维平面的两个点(向量)构成的集合的仿射包是穿过他俩的直线
.
二维平面的三个点(向量)构成的集合的仿射包是穿过他仨的平面
如图,调整 θ 1 , θ 2 , θ 3 \theta_1,\theta_2,\theta_3 θ1,θ2,θ3中任意一个为0,画出来三条线;
更一般的, θ 1 , θ 2 , θ 3 \theta_1,\theta_2,\theta_3 θ1,θ2,θ3随意取值,得到的点构成了整个平面
.
仿射集的仿射包是它本身补充: 仿射维数和相对内部
2、凸集 Convex Set
- 当集合C任意两点之间的线段仍然在C内,它就是凸集
等价于
∀ x 1 , x 2 ∈ C , ∀ θ ∈ [ 0 , 1 ] , θ x 1 + ( 1 − θ ) x 2 ∈ C \forall x_1,x_2 \in C, \forall \theta \in [0,1], \theta x_1 + (1-\theta)x_2 \in C ∀x1,x2∈C,∀θ∈[0,1],θx1+(1−θ)x2∈C - 仿射集是凸集的一个特例
- x 1 , x 2 , ⋯ , x k x_1,x_2,\cdots,x_k x1,x2,⋯,xk凸组合:
∀ x 1 , ⋯ , x k ∈ C , θ 1 x 1 + ⋯ + θ k x k ∈ C , θ 1 , ⋯ , θ k ∈ [ 0 , 1 ] , θ 1 + ⋯ + θ k = 1 \forall x_1,\cdots,x_k \in C, \theta_1 x_1 +\cdots+ \theta_k x_k \in C, \bm{\theta_1,\cdots,\theta_k \in [0,1], \theta_1+\cdots+\theta_k=1} ∀x1,⋯,xk∈C,θ1x1+⋯+θkxk∈C,θ1,⋯,θk∈[0,1],θ1+⋯+θk=1 - 若C为凸集,则任意元素图组合 ∈ C \in C ∈C
- 凸包 Conv C
C o n v C = { θ 1 x 1 + ⋯ + θ k x k ∣ ∀ x 1 , ⋯ , x k ∈ C , ∀ θ 1 , ⋯ , θ k ∈ [ 0 , 1 ] , θ 1 + ⋯ + θ k = 1 } Conv C=\{\theta_1x_1+\cdots+\theta_kx_k | \forall x_1,\cdots,x_k \in C, \forall \theta_1,\cdots,\theta_k\in [0,1], \theta_1+\cdots+\theta_k=1\} ConvC={θ1x1+⋯+θkxk∣∀x1,⋯,xk∈C,∀θ1,⋯,θk∈[0,1],θ1+⋯+θk=1}
( θ k ∈ [ 0 , 1 ] , θ 1 + ⋯ + θ k = 1 \theta_k\in [0,1], \theta_1+\cdots+\theta_k=1 θk∈[0,1],θ1+⋯+θk=1**使得判断标准是线段而不是直线)
即包含 x 1 , ⋯ , x k x_1,\cdots,x_k x1,⋯,xk的最小凸集(它们的线段张成的空间) - 例子
.
六边形围成的形状
可以看到,六边形内容易两点连成的线段都在六边形内(线段上的每个点即是一个 θ ∈ [ 0 , 1 ] \theta \in [0,1] θ∈[0,1]的产生的 θ x 1 + ( 1 − θ ) x 2 \theta x_1 + (1-\theta)x_2 θx1+(1−θ)x2, 这些点构成线段)
它的凸包是它本身。
.
六边形这单纯六条边则不是了,因为连接在两条不同边上的两点构成的线段上的点不在这六条边上,即不在集合上嘛。 它的凸包是上图。
.
可以看到,六边形围成的区域是向外凸的(相对的,整个二维平面去掉这个六边体外的部分则是”凹的“)
.
下面是个反例,可以看到红色部分不在集合内(图形上看,下面是"凹的")
它的凸包是这个(补上了它就不凹了)
.
下图四边形去掉两点,不是凸的(因为左边框取横跨空点的两点取直线,经过了空点,而空点不属于该集合)
它的凸包就是它本身加上去掉的两点
.
下图是凸的(去掉的两点在边缘处)
它的凸包是它本身
.
一个离散集的凸包是什么呢?也就是包含这些散点的最小凸集,那么有点像把边缘的点(最凸的那些)连起来
3、锥Cone与凸锥
锥。——直观理解:经过原点的射线集
C是锥
即
∀ x ∈ C , θ x ∈ C , θ ≥ 0 \forall x \in C, \theta x \in C, \theta\ge0 ∀x∈C,θx∈C,θ≥0 (注意是>0而不是>1,所以必须是经过原点的”射线“或这样的射线组合)
(下图是锥但不是凸锥,因为是中空的,不同射线上取两点做 [ 0 , ∞ ] [0,\infty] [0,∞]伸缩再加起来(平行四边形法则),不在这几条线上)
.
看一下反例(蓝线)——不经过原点。绿点x为蓝线集合上的一点,看到 θ x , θ ≈ 2 \theta x,\theta\approx2 θx,θ≈2(绿箭头终点)不在蓝线(集合)上。
这是因为蓝线段的起点没在原点上
.
看下正/反例(除了第一二象限的经过原点的这条,其他的没有经过原点不是锥)
凸锥。(”凸“的锥)
C是凸锥
即
$\forall x_1, x_2 \in C, \theta_1 x_1+ \theta_2 x_2 \in C, \theta_1 ,\theta_2\ge0 $
.
正例:(图形上看,从原点出发,是锥;不凹,凸锥。)
如图,任取两点(俩绿点),本质上是俩向量;设 θ 1 , θ 2 = = 1 \theta_1,\theta_2==1 θ1,θ2==1,做平行四边形,得到 θ 1 x 1 + θ 2 x 2 \theta_1 x_1 +\theta_2 x_2 θ1x1+θ2x2为黄点(黄色向量),黄点仍在锥之中
凸锥组合
θ 1 x 1 + ⋯ + θ k x k , ∀ x 1 , ⋯ , x k ∈ C , θ 1 , ⋯ , θ k ≥ 0 \theta_1 x_1 + \cdots + \theta_k x_k, \forall x_1, \cdots, x_k \in C, \theta_1,\cdots,\theta_k \ge 0 θ1x1+⋯+θkxk,∀x1,⋯,xk∈C,θ1,⋯,θk≥0凸锥包(包含集合的最小凸锥;集合张成的凸锥)
.离散点的凸锥包
.下图集合的凸锥包括绿色部分!!(绿色部分是 0 < θ < 1 0<\theta <1 0<θ<1的情况,注意 0 ≤ θ 0\le \theta 0≤θ即可而不是 1 ≤ θ 1\le\theta 1≤θ)
.
最低要求是射线而不是直线
4、总结
5、几种重要的凸集
(1) 极限状态
只有一个点的集合
.
是仿射集
.
因为是仿射集,所以是凸集
.
当它是原点,它就是凸锥有0个点的集合(空集)
.
是仿射集(”不存在“存在于”不存在“中)
.
是凸集
.
是凸锥
(2) 一般凸集
- R n R^n Rn空间
- R n R^n Rn的子空间(区别于前面仿射集讲的关于C相关的子空间)——回想空间的概念,空间满足(1)有原点(2)对加法和数乘封闭,所以也是凸集
- 任意直线——任意直线是仿射集,所以是凸集;如果它经过原点,那么它也将是锥&凸锥,否则不是锥(锥的直观定义就是经过原点的射线) 。
- 任意线段。(我们衡量凸集不就是靠画线段来直观判断的嘛)当任意线段为一个点是,它是仿射集;当任意线段是一个点且是原点时,它是凸锥。
- 射线。
下图是一条射线,以x_0(绿色)为起点,方向平行于v(黄色)的一条射线(蓝色)。
它是凸集;当v=原点,射线为一个点,是仿射集;当x_0=原点,射线过原点,是凸锥。
6、超平面和半空间
(1) 超平面(是仿射集,是凸集)
几何上,可以理解为与给定向量 a ⃗ \vec{a} a 的内积为参数b的点的集合;
也可以看成法线方向是 a ⃗ \vec{a} a 的超平面,而b是这个平面到原点的偏移量。
.
写成 C = { x ∣ a T x = b } = { x ∣ a T ( x − x 0 ) = 0 } , a T x 0 = b C=\{x|a^Tx=b\}=\{x|a^T(x-x_0)=0\}, a^Tx_0=b C={x∣aTx=b}={x∣aT(x−x0)=0},aTx0=b,几何上可以理解为由 x 0 x_0 x0加上任意与向外的法向量呈钝角/直角的向量组成。
视为内积,则对于C划分的一个半空间 { x ∣ a T x ≤ b } = { x ∣ a T ( x − x 0 ) ≤ 0 } , a T x 0 = b \{x|a^Tx\le b\}=\{x|a^T(x-x_0)\le0\}, a^Tx_0=b {x∣aTx≤b}={x∣aT(x−x0)≤0},aTx0=b,
给定 x 1 x_1 x1, 若 x 1 − x 0 x_1-x_0 x1−x0与 a a a的夹角为钝角/直角,则在半空间内;为锐角,则不在半空间内
(因为内积 a T ( x − x 0 ) = ∣ a T ∣ ∣ x − x 0 ∣ c o s θ ≤ 0 a^T(x-x_0)=|a^T||x-x_0|cos\theta\le0 aT(x−x0)=∣aT∣∣x−x0∣cosθ≤0, θ ∈ [ π 2 , π ] \theta \in [\frac{\pi}{2},\pi] θ∈[2π,π])
想象这么一件事, y = a T x y=a^{T}x y=aTx,y为未知数,这样n维的x与所有的可能y构成了一个n+1维度的空间;当设置y=b,n+1维坍缩为n维度,相当于原本n+1为空间取y这个维度上的一个切片(这个切片并不一定是平面)——超平面
比如球心在(0,0,0)处的球面,x²+y²+z²=R²,即z²=R²-x²-y²。此处z相当于上面讲的y;当设置z=一个数字i,x²+y²+i²=R²,是一个圆形,是球在z轴上i处的切片;当设置z=0,x²+y²=R²,是一个圆形,在z=0处的切片,即在xy坐标面的投影。
(2) 半空间:超平面将空间划分为两半(不是仿射集;是凸集;过原点(b=0)则是凸锥)
7、 球
(1) 球
B ( x c , r ) = { x ∣ ∣ ∣ x − x c ∣ ∣ 2 ≤ r } = { x ∣ ( x − x c ) T ( x − x c ) ≤ r 2 } B(x_c,r)=\{x |\quad||x-x_c||_2\le r\}=\{x|(x-x_c)^T(x-x_c)\le r^2\} B(xc,r)={x∣∣∣x−xc∣∣2≤r}={x∣(x−xc)T(x−xc)≤r2}
or
另一种定义
B ( x c , r ) = { x c + r u ∣ ∣ ∣ u ∣ ∣ 2 ≤ 1 } B(x_c,r)=\{x_c+ru|\quad||u||_2\le 1\} B(xc,r)={xc+ru∣∣∣u∣∣2≤1}
是凸集;当半径为0,是仿射集;当半径为0且是原点,是凸锥
(2) 严格根据定义来证明是凸集:
∀ x 1 , x 2 ∈ B , ∣ ∣ x 1 − x c ∣ ∣ 2 ≤ r , ∣ ∣ x 2 − x c ∣ ∣ ≤ r \forall x_1,x_2 \in B, ||x_1-x_c||_2 \le r, ||x_2-x_c||\le r ∀x1,x2∈B,∣∣x1−xc∣∣2≤r,∣∣x2−xc∣∣≤r,
prove ∀ 0 ≤ θ ≤ 1 \forall 0\le \theta \le1 ∀0≤θ≤1, ∣ ∣ θ x 1 + ( 1 − θ ) x 2 − x c ∣ ∣ 2 ≤ r ||\theta x_1 +(1-\theta)x_2-x_c||_2\le r ∣∣θx1+(1−θ)x2−xc∣∣2≤r.
<===>
∣ ∣ θ x 1 + ( 1 − θ ) x 2 − x c ∣ ∣ 2 = ∣ ∣ θ ( x 1 − x c ) + ( 1 − θ ) ( x 2 − x c ) ∣ ∣ 2 根 据 范 数 三 角 不 等 式 ( ∣ ∣ a + b ∣ ∣ ≤ ∣ ∣ a ∣ ∣ + ∣ ∣ b ∣ ∣ ) ≤ ∣ ∣ θ ( x 1 − x c ) ∣ ∣ 2 + ∣ ∣ ( 1 − θ ) ( x 2 − x c ) ∣ ∣ 2 = θ ∣ ∣ ( x 1 − x c ) ∣ ∣ 2 + ( 1 − θ ) ∣ ∣ ( x 2 − x c ) ∣ ∣ 2 ≤ θ r + ( 1 − θ ) r = r \begin{aligned} &||\theta x_1 +(1-\theta)x_2-x_c||_2\\ &=||\theta( x_1-x_c) +(1-\theta)(x_2-x_c)||_2\\ &根据范数三角不等式(||a+b||\le ||a||+||b||)\\ &\le||\theta( x_1-x_c)||_2 +||(1-\theta)(x_2-x_c)||_2\\ &=\theta||( x_1-x_c)||_2 +(1-\theta)||(x_2-x_c)||_2\\ &\le\theta r +(1-\theta)r=r \end{aligned} ∣∣θx1+(1−θ)x2−xc∣∣2=∣∣θ(x1−xc)+(1−θ)(x2−xc)∣∣2根据范数三角不等式(∣∣a+b∣∣≤∣∣a∣∣+∣∣b∣∣)≤∣∣θ(x1−xc)∣∣2+∣∣(1−θ)(x2−xc)∣∣2=θ∣∣(x1−xc)∣∣2+(1−θ)∣∣(x2−xc)∣∣2≤θr+(1−θ)r=r
得证
8、 椭球(”球体“而不是球面)
正定/二次型/椭圆/椭球/特征值
(1)定义
在球 B ( x c , r ) = { x ∣ ∣ ∣ x − x c ∣ ∣ 2 ≤ r } = { x ∣ ( x − x c ) T ( x − x c ) ≤ r 2 } B(x_c,r)=\{x |\quad||x-x_c||_2\le r\}=\{x|(x-x_c)^T(x-x_c)\le r^2\} B(xc,r)={x∣∣∣x−xc∣∣2≤r}={x∣(x−xc)T(x−xc)≤r2}基础上通过 P − 1 P^{-1} P−1加权:
P ∈ S + + n P \in S_{++}^n P∈S++n表示nxn对称正定矩阵,S表示对称symmetrical,n表示n*n,++表示正定。(一个+则表示非负定) 浅谈「正定矩阵」和「半正定矩阵」(注意这里用的是 P − 1 P^{-1} P−1,所以半轴长是 1 λ P − 1 = λ P \frac{1}{\sqrt{\lambda_{P^{-1}}}}=\sqrt{\lambda_P} λP−1 1=λP )
(正定: x T A x > 0 x^TAx>0 xTAx>0或A特征值全大于0;半正定: x T A x ≥ 0 x^TAx\ge0 xTAx≥0或特征值全大于等于0)
(证明:设P为正定矩阵,若 λ \lambda λ为其特征值,则按定义有 P x = λ x Px =\lambda x Px=λx,x为a对应的特征向量且x不等于0。
根据正定矩阵的定义有 x T P x > 0 x^TPx>0 xTPx>0,所以 x T λ x = λ x T x > 0 x^T\lambda x=\lambda x^Tx>0 xTλx=λxTx>0,因为 x T x > 0 x^Tx>0 xTx>0,所以 λ > 0 \lambda>0 λ>0)
(奇异值: ∀ A , A T A \forall A, A^TA ∀A,ATA求其特征值(>= 0)即求满足 A T A x = λ x 的 λ A^TAx=\lambda x的\lambda ATAx=λx的λ, e i g ( A T A ) = λ \sqrt{ eig(A^TA)}=\sqrt{\lambda} eig(ATA) =λ 即是奇异值 )
(此处拓展以下讲一下如何求SVD奇异值分解 A = U Σ V T A=U\Sigma V^T A=UΣVT:首先 A A T = U Σ V T V Σ U T = U Σ 2 U T AA^T=U\Sigma V^TV\Sigma U^T=U\Sigma^2 U^T AAT=UΣVTVΣUT=UΣ2UT,所以特征值分解$AA^T $ 得U与 Σ 2 \Sigma^2 Σ2;同理, A T A = V Σ 2 V T A^TA=V\Sigma^2 V^T ATA=VΣ2VT,特征值分解 A T A A^TA ATA得V。)
( P − 1 P^{-1} P−1的奇异值的倒数(或者说 1 λ P − 1 = λ P \frac{1}{\sqrt{\lambda_{P^{-1}}}}=\sqrt{\lambda_P} λP−1 1=λP )=半轴长(见之前的笔记,据说Gilbert的线代课程有讲后面补补)
(2)例子
1 1 4 = 2 , 1 = 1 \sqrt{\frac{1}{\frac{1}{4}}}=2, \sqrt{1}=1 411 =2,1 =1
9、多面体 Polyhedron
此定义下的多面体不一定有界,比如半空间
(1)单纯形 Simplex
再比如,三维空间,最多3条向量线性无关,所以k=3;此时有k+1=4个点,单纯形为4面体(最多面的多面体);
n维空间==>n+1个点==>n+1面体
(2)证明:Simplex是Polyhedron的一种
思路:用多面体的定义描述单纯形
(y不包含 θ 0 \theta_0 θ0)
(要注意\theta或者说y是变化的;通过变化的y可以取到或者说遍历所有点)
(因为初等行变换一定可逆,所以说A是非奇异矩阵)
10、
对称矩阵集合 S n = { x ∈ R n × n ∣ x = x T } S^n=\{x \in R^{n\times n}|x=x^T\} Sn={x∈Rn×n∣x=xT} ( S n , S^n, Sn,S=symmetry对称,n表示n*n)——是凸锥,是凸集。
对称半正定矩阵集合 S + n = { x ∈ R n × n ∣ x = x T , x ⪰ 0 } S_+^n=\{x \in R^{n\times n}|x=x^T, x \succeq 0\} S+n={x∈Rn×n∣x=xT,x⪰0} ( x ⪰ 0 x \succeq 0 x⪰0表示所有特征值大于等于0,半正定)——是凸锥,是凸集
对称正定矩阵集合 S + + n = { x ∈ R n × n ∣ x = x T , x ≻ 0 } S_{++}^n=\{x \in R^{n\times n}|x=x^T, x \succ 0\} S++n={x∈Rn×n∣x=xT,x≻0} ( x ≻ 0 x \succ 0 x≻0表示所有特征值大于0,正定)——不是凸锥,是凸集
(半正定3个等价条件任选其一:(1) X T A X ≥ 0 X^TAX\ge0 XTAX≥0. (2) 所有特征值>=0;(3)各阶主子式>=0(证明))
(正定3个等价条件任选其一:(1) X T A X > 0 X^TAX>0 XTAX>0. (2) 所有特征值>0;(3)各阶主子式>0(我猜的,无证明))
以上矩阵集合无法再用想象了,利用推理证明:
(1)对称矩阵集合是凸锥&凸集:
∀ θ 1 , θ 2 > 0 , ∀ A , B ∈ 对 称 矩 阵 集 合 \forall \theta_1,\theta_2>0, \forall A,B\in 对称矩阵集合 ∀θ1,θ2>0,∀A,B∈对称矩阵集合,
θ 1 A + θ 2 B 也 是 对 称 矩 阵 ∈ 对 称 矩 阵 集 合 \theta_1 A+\theta_2 B也是对称矩阵\in 对称矩阵集合 θ1A+θ2B也是对称矩阵∈对称矩阵集合
所以对称矩阵集合是凸锥
所以对称矩阵集合是凸集
(或者说( θ 1 A + ( 1 − θ 1 ) B , θ 1 ∈ [ 0 , 1 ] \theta_1 A + (1-\theta_1) B, \theta_1 \in [0,1] θ1A+(1−θ1)B,θ1∈[0,1])也是对称集矩阵,所以是凸集)
(2)对称半正定矩阵集合是凸锥&凸集
证明:
首先,半正定除了所有特征值大于等于0外,还有这么一种定义: X T A X ≥ 0 X^TAX\ge 0 XTAX≥0(类似二次型)
所以,
对
∀ X ∈ R n , X T A X ≥ 0 , X T B X ≥ 0 , θ 1 , θ 2 ≥ 0 \forall X \in R^n, X^TAX\ge 0, X^TBX\ge 0,\theta_1,\theta_2\ge0 ∀X∈Rn,XTAX≥0,XTBX≥0,θ1,θ2≥0
有
X T ( θ 1 A + θ 2 B ) X = X T ( θ 1 A ) X + X T ( θ 2 B ) X = θ 1 X T A X + θ 2 X T B X ≥ 0 \begin{aligned} &X^T(\theta_1 A+\theta_2 B)X\\&=X^T(\theta_1 A)X+X^T(\theta_2 B)X\\ &=\theta_1 X^TAX+ \theta_2 X^TBX\\ &\ge 0 \end{aligned} XT(θ1A+θ2B)X=XT(θ1A)X+XT(θ2B)X=θ1XTAX+θ2XTBX≥0
所以
θ 1 A + θ 2 B X ∈ S + n \theta_1 A+ \theta_2 BX\in S^n_+ θ1A+θ2BX∈S+n
所以半正定二次型是凸锥—>是凸集
(3)对称正定矩阵集合不是凸锥,是凸集
证明:
对称正定矩阵集合:$\forall x \in R^n, X^TAX \gt 0, X^TBX \gt $0
∀ θ 1 , θ 2 ≥ 0 \forall \theta_1, \theta_2 \ge0 ∀θ1,θ2≥0
X T ( θ 1 A + θ 2 B ) X = X T ( θ 1 A ) X + X T ( θ 2 B ) X = θ 1 X T A X + θ 2 X T B X ≥ 0 i n s t e a d o f > 0 所 以 , 不 是 凸 锥 \begin{aligned} &X^T(\theta_1 A+\theta_2 B)X\\&=X^T(\theta_1 A)X+X^T(\theta_2 B)X\\ &=\theta_1 X^TAX+ \theta_2 X^TBX\\ &\ge 0\\&instead \quad of >0 \end{aligned}\\ 所以,不是凸锥 XT(θ1A+θ2B)X=XT(θ1A)X+XT(θ2B)X=θ1XTAX+θ2XTBX≥0insteadof>0所以,不是凸锥
但是当 θ 1 ∈ [ 0 , 1 ] , θ 2 = 1 − θ 1 时 , 上 式 > 0 , 所 以 结 果 仍 然 是 对 称 正 定 矩 阵 , 所 以 是 凸 集 \theta_1\in [0,1],\theta_2=1-\theta_1时,上式>0,所以结果仍然是对称正定矩阵,所以是凸集 θ1∈[0,1],θ2=1−θ1时,上式>0,所以结果仍然是对称正定矩阵,所以是凸集想象力——讲矩阵空间和实数空间对应起来
(1) n = 1 : S n = R ( 实 数 , 是 凸 锥 , 是 凸 集 ) , S + n = R + ( 非 负 实 数 , 是 凸 锥 , 是 凸 集 ) , S + + n = R + + ( 正 实 数 , 不 含 原 点 , 不 是 凸 锥 , 是 凸 集 ) n=1: S^n=R(实数,是凸锥,是凸集),S^n_+=R_+(非负实数,是凸锥,是凸集), S^n_{++}=R_{++}(正实数,不含原点,不是凸锥,是凸集) n=1:Sn=R(实数,是凸锥,是凸集),S+n=R+(非负实数,是凸锥,是凸集),S++n=R++(正实数,不含原点,不是凸锥,是凸集)
(2) n = 2 n=2 n=2:
矩阵是半正定矩阵的一种充分必要条件是各阶主子式大于等于0(证明),所以二阶的时候它长这样:
S + n = { [ x y y z ] ∣ x ≥ 0 , z ≥ 0 , x z ≥ y 2 } S^n_+= \left\{ \begin{bmatrix} x&y\\ y&z \end{bmatrix} |x\ge0,z\ge0, xz\ge y^2 \right\} S+n={[xyyz]∣x≥0,z≥0,xz≥y2}
这实际上是三维实数空间(xyz)中的一部分
P7/P8:哪些操作保持凸集的凸性
0、复习
球、椭球、多面体、单纯形
(1) { x ∣ x ≤ 0 } \{x|x\le 0\} {x∣x≤0}
是凸集:按定义 x = θ 0 x 0 + θ 1 x 1 ≤ 0 , ∀ θ 0 , θ 1 ∈ [ 0 , 1 ] , θ 0 + θ 1 = 1 , x ≤ 0 x=\theta_0x_0+\theta_1x_1\le 0, \forall \theta_0,\theta_1\in [0,1], \theta_0+\theta_1=1,x\le 0 x=θ0x0+θ1x1≤0,∀θ0,θ1∈[0,1],θ0+θ1=1,x≤0所以是凸集;按想象,负半轴随意画线段,仍然在负半轴,所以是凸集。
是多面体:由不等式/等式构成
是单纯形:令 x 0 = 0 , x 1 = − ∞ x_0=0, x_1=-\infty x0=0,x1=−∞,两者线性无关;他俩构成的凸包 { x ∣ x = θ 0 x 0 + θ 1 x 1 , θ 0 , θ 1 ∈ [ 0 , 1 ] , θ 0 + θ 1 = 1 } ⊂ { x ∣ x ≤ 0 } \{x|x=\theta_0x_0+\theta_1x_1,\theta_0,\theta_1\in [0,1], \theta_0+\theta_1=1\} \subset \{x|x\le 0\} {x∣x=θ0x0+θ1x1,θ0,θ1∈[0,1],θ0+θ1=1}⊂{x∣x≤0},所以是单纯形
1、凸集保凸运算
(1)交集:if S 1 , S 2 S_1, S_2 S1,S2 convex, then S 1 ∩ S 2 S_1\cap S_2 S1∩S2 convex
(PS:并集则不一定了,如下图,他俩中间有个gap)
(2) 仿射函数(线性映射)
证明:
∀ θ ∈ [ 0 , 1 ] , θ ( A x 1 + b ) + ( 1 − θ ) ( A x 2 + b ) = A ( θ x 1 + ( 1 − θ ) x 2 ) + θ b + ( 1 − θ ) b = A ( θ x 1 + ( 1 − θ ) x 2 ) + b \forall \theta \in [0,1],\\\theta (Ax_1+b)+(1-\theta)(Ax_2+b)=A(\theta x_1+(1-\theta)x_2)+\theta b+(1-\theta)b=A(\theta x_1+(1-\theta)x_2)+ b ∀θ∈[0,1],θ(Ax1+b)+(1−θ)(Ax2+b)=A(θx1+(1−θ)x2)+θb+(1−θ)b=A(θx1+(1−θ)x2)+b
由于S是凸集,故 θ x 1 + ( 1 − θ ) x 2 \theta x_1+(1-\theta)x_2 θx1+(1−θ)x2也在S内,故 A ( θ x 1 + ( 1 − θ ) x 2 ) + b A(\theta x_1+(1-\theta)x_2)+ b A(θx1+(1−θ)x2)+b也在f(S)内,所以仿射后仍然是凸集
直观几何上:
仿射函数对原集合空间进行了拉伸旋转(Ax)和平移(b);在S内画的任意一条线段同样被同尺度拉伸旋转和平移了,仍然在集合内部,所以仿射后仍然是凸集
- 例0:两个凸集的直积(Cartesian乘积)是凸的
很容易理解, θ x 1 + ( 1 − θ ) x 2 ∈ C 1 \theta x_1+(1-\theta)x_2\in C_1 θx1+(1−θ)x2∈C1, θ y 1 + ( 1 − θ ) y 2 ∈ C 2 \theta y_1+(1-\theta)y_2\in C_2 θy1+(1−θ)y2∈C2,
则
θ [ x 1 y 1 ] + ( 1 − θ ) [ x 1 y 1 ] ∈ [ C 1 C 2 ] \theta \begin{bmatrix} x_1\\ y_1 \end{bmatrix} +(1-\theta) \begin{bmatrix} x_1\\ y_1 \end{bmatrix} \in \begin{bmatrix} C_1\\ C_2 \end{bmatrix} θ[x1y1]+(1−θ)[x1y1]∈[C1C2] - 例1:两个凸集的和是凸的(ps:凸+非凸则不一定)
注意:集合的和不是并集,是指元素加和
其中
A = [ 1 0 0 ⋯ 0 1 0 0 ⋯ 0 0 1 0 ⋯ 0 0 1 0 ⋯ 0 ⋯ 0 0 ⋯ 0 1 0 0 0 ⋯ 1 0 0 ⋯ 0 0 0 0 0 ⋯ 0 ⋯ 0 0 ⋯ 0 0 0 0 0 ⋯ 0 ] A= \left[ \begin{array}{l} 1&0&0&\cdots &0&1&0&0&\cdots &0\\ 0&1&0&\cdots &0&0&1&0&\cdots &0\\ \cdots\\ 0&0&\cdots&0 &1&0&0&0&\cdots &1\\ 0&0&\cdots&0 &0&0&0&0&\cdots &0\\ \cdots\\ 0&0&\cdots&0 &0&0&0&0&\cdots &0 \end{array} \right] A=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡10⋯00⋯00100000⋯⋯⋯⋯⋯00000100100000100000000⋯⋯⋯⋯⋯00100⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤
图解:
- 例2: 如下图(对称,半负定),线性矩阵不等式的解集是凸集
证:
注意此处的 A i , x i , B A_i, x_i, B Ai,xi,B都是 m × m m\times m m×m的对称矩阵
A ( x ) = x 1 A 1 + x 2 A 2 + ⋯ + x n A n = [ A 1 , A 2 , ⋯ , A n ] [ x 1 x 2 ⋯ x n ] A(x)=x_1A_1+x_2A_2+\cdots+x_nA_n=[A_1,A_2,\cdots,A_n] \begin{bmatrix} x_1\\x_2\\\cdots\\x_n \end{bmatrix} A(x)=x1A1+x2A2+⋯+xnAn=[A1,A2,⋯,An]⎣⎢⎢⎡x1x2⋯xn⎦⎥⎥⎤
则
A ( x ) − B = x 1 A 1 + x 2 A 2 + ⋯ + x n A n − B = [ A 1 , A 2 , ⋯ , A n ] [ x 1 x 2 ⋯ x n ] − B ⪰ 0 A(x)-B=x_1A_1+x_2A_2+\cdots+x_nA_n-B=[A_1,A_2,\cdots,A_n] \begin{bmatrix} x_1\\x_2\\\cdots\\x_n \end{bmatrix} -B\succeq 0 A(x)−B=x1A1+x2A2+⋯+xnAn−B=[A1,A2,⋯,An]⎣⎢⎢⎡x1x2⋯xn⎦⎥⎥⎤−B⪰0
是仿射变换(保凸),是半正定锥(凸)
那么,
解集为 f − 1 ( S + m ) = { x ∣ B − A ( x ) ⪰ 0 } f^{-1}(S^m_+)=\{x|B-A(x)\succeq 0\} f−1(S+m)={x∣B−A(x)⪰0},变量是满足 B − A ( x ) ⪰ 0 B-A(x)\succeq0 B−A(x)⪰0的凸的半正定锥,解集是仿射变换的逆变换,所以解集也是凸的。
(问题中的解集是半正定锥在由 f ( x ) = B − A ( x ) f(x)=B-A(x) f(x)=B−A(x)给定的反射变换 f : R n → S m f:R^n \to S^m f:Rn→Sm下的原像。根据仿射变换的保凸性,因为 B − A ( x ) B-A(x) B−A(x)是凸集,它的原像(解空间) { x ∣ B − A ( x ) ⪰ 0 } \{x| B-A(x) \succeq 0\} {x∣B−A(x)⪰0}也是凸集,即 { x ∣ A ( x ) ⪯ B } \{x| A(x) \preceq B\} {x∣A(x)⪯B}是凸集。)
- 例3:椭球是球的仿射映射
(上图红字有部分错误,是因为"对称“, 所以 { P − 1 2 } T = P − 1 2 \{P^{-\frac{1}{2}}\}^T=P^{-\frac{1}{2}} {P−21}T=P−21)
(3)逆仿射函数
f ( x ) = A x + b f(x)=Ax+b f(x)=Ax+b,
x = A − 1 f ( x ) − b x=A^{-1}f(x)-b x=A−1f(x)−b仍然是仿射函数,仿射函数保凸
(4) 透视函数 (Perspective function)
斜 线 表 达 式 X 2 = x 2 x 1 X 1 斜线表达式X_2=\frac{x_2}{x_1}X_1 斜线表达式X2=x1x2X1, 则 X 1 = x 1 x 2 X 2 则X_1=\frac{x_1}{x_2}X_2 则X1=x2x1X2
当 X 2 = − 1 当X_2=-1 当X2=−1, X 1 = x 1 x 2 ∗ − 1 = − x 1 x 2 X_1=\frac{x_1}{x_2}*-1=-\frac{x_1}{x_2} X1=x2x1∗−1=−x2x1,
得坐标 ( − x 1 x 2 , − 1 ) = − ( x 1 x 2 , 1 ) = − ( P ( X 1 , X 2 ) , 1 ) (-\frac{x_1}{x_2},-1)=-(\frac{x_1}{x_2},1)=-(P(X_1,X_2), 1) (−x2x1,−1)=−(x2x1,1)=−(P(X1,X2),1)
若忽略最后一维分量-1,即x处的点在像平面x2=-1透过原点成像在-P(x)处
所以透视函数是对向量进行伸缩规范化,使最后一维分量为1并舍弃之
- 例1:保凸性证明
证明:
x ^ , y ^ ∈ R n , x n + 1 , y n + 1 ∈ R + + \hat{x} ,\hat{y}\in R^n,\quad x_{n+1}, y_{n+1}\in R_{++} x^,y^∈Rn,xn+1,yn+1∈R++
P ( θ x + ( 1 − θ ) y ) = θ x ^ + ( 1 − θ ) y ^ θ x n + 1 + ( 1 − θ ) y n + 1 = θ x n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 × x ^ x n + 1 + ( 1 − θ ) y n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 × y ^ y n + 1 = u × P ( x ) + ( 1 − u ) P ( y ) \begin{aligned} P(\theta x + (1-\theta)y)&=\frac{\theta \hat{x} + (1-\theta) \hat{y}}{\theta x_{n+1} + (1-\theta) y_{n+1}}\\ &=\frac{\theta x_{n+1}}{\theta x_{n+1} + (1-\theta) y_{n+1}}\times \frac{\hat{x}}{x_{n+1}}+\frac{(1-\theta) y_{n+1}}{\theta x_{n+1} + (1-\theta) y_{n+1}}\times \frac{\hat{y}}{y_{n+1}}\\ &=u\times P(x)+(1-u)P(y) \end{aligned} P(θx+(1−θ)y)=θxn+1+(1−θ)yn+1θx^+(1−θ)y^=θxn+1+(1−θ)yn+1θxn+1×xn+1x^+θxn+1+(1−θ)yn+1(1−θ)yn+1×yn+1y^=u×P(x)+(1−u)P(y)
其中, 0 ≤ u ≤ 1 0\le u\le1 0≤u≤1
由于是线段(凸集), θ x + ( 1 − θ ) y \theta x + (1-\theta)y θx+(1−θ)y在线段上,则 P ( θ x + ( 1 − θ ) y ) P(\theta x + (1-\theta)y) P(θx+(1−θ)y)在映射后的集合上;那么, u × P ( x ) + ( 1 − u ) P ( y ) u\times P(x)+(1-u)P(y) u×P(x)+(1−u)P(y)在映射后的集合上,所以映射后的集合是凸集,保凸。
.
实际上,从上面也可以看出这个映射是一一对应(单调)的映射。变换 θ \theta θ,得到原凸集不同点的映射结果;那么原凸集的每个点都被映射到了新凸集上;原凸集上的线段(变换 θ \theta θ构成)被映射到了新凸集上,成了新线段( u u u决定)(maybe曲线or other,但一定在新的凸集中。)
单调证明:
x n + 1 > 0 , y n + 1 > 0 , x_{n+1}\gt0, y_{n+1}\gt 0, xn+1>0,yn+1>0,
∂ u ∂ θ = x n + 1 [ θ x n + 1 + ( 1 − θ ) y n + 1 ] − ( x n + 1 − y n + 1 ) θ x n + 1 [ θ x n + 1 + ( 1 − θ ) y n + 1 ] 2 = x n + 1 y n + 1 [ θ x n + 1 + ( 1 − θ ) y n + 1 ] 2 > 0 \begin{aligned} \frac{\partial u}{\partial \theta} &=\frac{x_{n+1}[\theta x_{n+1} + (1-\theta) y_{n+1}]-(x_{n+1}-y_{n+1})\theta x_{n+1}}{[\theta x_{n+1} + (1-\theta) y_{n+1}]^2}\\ &=\frac{x_{n+1} y_{n+1}}{[\theta x_{n+1} + (1-\theta) y_{n+1}]^2} \\&\gt0 \end{aligned} ∂θ∂u=[θxn+1+(1−θ)yn+1]2xn+1[θxn+1+(1−θ)yn+1]−(xn+1−yn+1)θxn+1=[θxn+1+(1−θ)yn+1]2xn+1yn+1>0
-例2 反透视映射保凸性
证明:考虑 p o i n t 1 = ( x , t ) ∈ P − 1 ( C ) , p o i n t 2 = ( y , s ) ∈ P − 1 ( C ) , 0 ≤ θ ≤ 1 point_1=(x,t)\in P^{-1}(C), point_2=(y,s)\in P^{-1}(C), 0\le \theta \le1 point1=(x,t)∈P−1(C),point2=(y,s)∈P−1(C),0≤θ≤1,
要证明是凸的,只需要证明 θ ∗ p o i n t 1 + ( 1 − θ ) ∗ p o i n t 2 = ( θ x + ( 1 − θ ) y , θ t + ( 1 − θ s ) ) ∈ P − 1 ( C ) \theta*point_1+(1-\theta)*point_2=(\theta x+(1-\theta)y, \theta t+(1-\theta s))\in P^{-1}(C) θ∗point1+(1−θ)∗point2=(θx+(1−θ)y,θt+(1−θs))∈P−1(C),
(因为在C的必会被映射到 P − 1 P^{-1} P−1中,所以)只需要证明 P ( θ x + ( 1 − θ ) y , θ t + ( 1 − θ ) s P(\theta x+(1-\theta)y, \theta t+(1-\theta )s P(θx+(1−θ)y,θt+(1−θ)s在C中
类似例1,写成下式
P ( θ ∗ p o i n t 1 + ( 1 − θ ) ∗ p o i n t 2 ) = P(\theta*point_1+(1-\theta)*point_2)= P(θ∗point1+(1−θ)∗point2)=
得证。
(5)线性分数函数(线性分式函数)——很重要,非线性,但是保凸
-例1:
中科大凸优化P345678 Chapter2Conve Set相关推荐
- 中科大-凸优化 笔记(lec25)-等价变换
全部笔记的汇总贴(视频也有传送门):中科大-凸优化 ∇fT(x∗)(y−x)≥0\nabla f^T(x^*)(y-x)\ge0∇fT(x∗)(y−x)≥0线性规划的解在边界上 一.等价变换 例:食谱 ...
- 中科大-凸优化 笔记(lec9)-广义不等式、分离与支撑超平面、对偶锥与广义不等式
全部笔记的汇总贴(这一节的视频缺失):中科大-凸优化 内容是自己看书上的三节整理的,和前面几节一样,算是一些基础性的理论知识. 只能说这一块儿先就这样,后面的课程如果遇到需要进行补充学习的地方,再进行 ...
- 中科大-凸优化 笔记(lec44)-一些上界下界及梯度下降
全部笔记的汇总贴(视频也有传送门):中科大-凸优化 一.强凸性 假设 f ( x ) f(x) f(x)二阶可微且有强凸性 ∃ m > 0 , ∀ x ∈ d o m f , ∇ 2 f ( x ...
- 中科大凸优化P1P2 Chapter1 Introduction
推荐一个别人做的笔记: P1&P2. (相关知识:数学规划) 1.凸优化形式: $\min\limits_x\ f_o(x )\quad subject\ to \ f_i \le b_i $ ...
- 文献翻译__人工智能时代医学图像重建中的凸优化算法(第4、5、6章)
文章下载–我的Gitee Convex optimization algorithms in medical image reconstruction-in the age of AI 人工智能时代医 ...
- 机器学习中的凸优化理论
凸优化课程 优化问题 定义:从一个可行解中找到一个最好的元素. 通常来说优化问题都可以写成如下的形式: 最小化目标函数: m个约束函数: 凸规划与非凸规划 凸规划满足: 凸规划都是相对容易解决的,非凸 ...
- 机器学习中牛顿法凸优化的通俗解释
红色石头的个人网站:redstonewill.com 之前,我发过一篇文章,通俗地解释了梯度下降算法的数学原理和推导过程,推荐一看.链接如下: 为什么局部下降最快的方向就是梯度的负方向? 我们知道,梯 ...
- 中科大凌青老师凸优化课程——目录
视频链接: 中科大-凸优化_哔哩哔哩_bilibili 课程对应目录: 1-2:推荐书目,引言,常见例子,优化问题分类,发展史 3-4:仿射/凸/凸锥 + 集/组合/包 5-6:几种重要的凸集:超平面 ...
- 《凸优化》中科大-讲解 -系列笔记(汇总55/55)
本人学习所有系列:汇总帖 这是一篇汇总贴 1-2:推荐书目,引言,常见例子,优化问题分类,发展史 3-4:仿射/凸/凸锥 + 集/组合/包 5-6:几种重要的凸集:超平面与半空间/球和椭球/多面体/单 ...
最新文章
- 史上最全数据结构算法之递归系列学习,建议收藏!
- python代码解读软件_5种带你轻松分析Python代码的软件库
- 背景图宽度自适应及背景图合并的CSS思想
- c++ primer plus 复合类型之数组
- iOS字体适配方法总结
- RBF神经网络MATLAB代码实现
- cron表达式案例+cron在线生成器
- 全球首个区块链经理人指数发布: 3月BMI 62.7 行业景气整体向好
- 基于 vue.js + elementUI 后台管理系统 (html)模板
- 关于1 problem (1 error, 0 warnings) 1 error and 0 warnings potentially fixable with the `--fix` 错误
- LoadRunner性能测试实战教程
- Spring Boot 入门系列(二十八) JPA 的实体映射关系,一对一,一对多,多对多关系映射!...
- MATLAB生成exe脱离matlab运行可执行程序
- [C/C++] 十进制数转二进制
- 每周读书#3 - 《活着本来单纯》
- Linux命令 - ps命令
- 我博士科研经历中的经验和教训
- 蹩脚的CSDN手机绑定
- 赚流量不赚钱、高退出低留存,水滴的资本故事还能怎样讲?
- 大象声科在联想YOGA Pro 14s的方案概要 和 intel GAN初见
热门文章
- 这些独家记忆串成我们的2022
- IOS音视频(一)AVFoundation核心类
- 用于数据科学和机器学习的GitHub存储库和Reddit主题
- 【晓松奇谈】历史是什么,人生是什么,世界是什么,未来是什么?高晓松的回答
- 从财报看爱奇艺增长想象 长视频巨头要说“10分钟”新故事
- .net core word转pdf_Enolsoft PDF to Word with OCR for Mac(PDF转Word软件)
- 一周XX思考(第12期)
- oracle漏洞pdf,Oracle DBA手记 4 数据安全警示录 pdf完整扫描版版
- html5 canvas 绘制上下浮动的字体
- 二分查找与时间复杂度计算分析