最近学习了矩阵论,对范数相关知识进行了学习,而之前只是在论文和计算方法里提到1-范数、2-范数、∞\infty∞范数,下面我会从范数的定义,性质,以及范数的用途进行总结。

1 范数的物理意义

我们可以从函数、几何、矩阵的角度去理解,几何是函数形象表达,函数是几何抽象描述,几何研究“形”,函数研究“数”,函数与几何图形往往是有对应的关系。函数图像联系了函数和几何,表达了两个数之间的变化关系,函数是几何图像的数学概括,而几何图像是函数的高度形象化,比如一个函数对应几何空间上若干点组成的图形。

但当函数与几何超出三维空间时,就难以获得较好的想象,于是就有了映射的概念,映射表达的就是一个集合通过某种关系转为另外一个集合。数学书一般会先说映射,然后再讨论函数,这是因为函数是映射的一个特例。映射推广了函数的概念,使得自变量不再仅仅局限于一个数,也不再局限于一维,任何事物都可以拿来作映射,维数可以是任意维,传统的函数图象已无法直观地表达高维对象之间的映射关系,这就要求我们在观念中,把三维的几何空间推广到抽象的 nnn 维空间。

由于映射的对象可以是任何事物,为了便于研究映射的性质以及数学表达,我们首先需要对映射的对象进行“量化”,取定一组“基”,确定事物在这组基下的坐标,事物同构于我们所熟悉的抽象几何空间中的点,事物的映射可以理解为从一个空间中的点到另一个空间的点的映射,而映射本身也是事物,自然也可以抽象为映射空间中的一个点,这就是泛函中需要研究的对象——函数。

从一个线性空间到另一个线性空间的线性映射,可以用一个矩阵来表达,矩阵被看线性作映射,线性映射的性质可以通过研究矩阵的性质来获得。这里的矩阵就是表征上述空间映射的线性关系。于是,我们可以这样理解,一个集合(向量),通过一种映射关系(矩阵),得到另外一个集合(另外一个向量)。

矩阵的秩反映了线性映射值域空间的维数,可逆矩阵反映了线性映射的可逆,而矩阵的范数反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。换言之,向量的范数,就是表示这个原有集合的大小;而矩阵的范数,就是表示这个变化过程的大小的一个度量。

范数是把一个事物映射到非负实数,且满足非负性、齐次性、三角不等式,符合以上定义的都可以称之为范数,所以,范数的具体形式有很多种(由内积定义可以导出范数,范数还也可以有其他定义,或其他方式导出)。在数学上,范数包括向量范数和矩阵范数。向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。简单的的解释就是,对应向量范数,向量空间中的向量都是有大小的,这个大小如何度量,就是用范数来度量的,不同的范数都可以来度量这个大小,可以简单形象地理解为向量的长度,或者向量到零点的距离,或者相应两个点的距离;对于矩阵范数,反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。

声明:以上内容是对CSDN博主「jizhihang2000」的文章:范数的物理意义 的简单总结和补充。


2 向量范数

2.1 定义与性质

1. 定义
        设 VVV 是数域 KKK 上的线性空间,对于 VVV 的任意向量 x\pmb{x}xx,对应着一个实值函数 ∣∣x∣∣\left| \left| \pmb{x} \right| \right|∣∣xx∣∣,它满足以下3个条件:
(1)正定性:当 x≠0\pmb{x} \not= \pmb{0}xx=00 时,∣∣x∣∣>0\left| \left| \pmb{x} \right| \right| > 0∣∣xx∣∣>0;当且仅当 x=0\pmb{x} = \pmb{0}xx=00 时,∣∣x∣∣=0\left| \left| \pmb{x} \right| \right| = 0∣∣xx∣∣=0;
(2)齐次性:∣∣kx∣∣=∣k∣∣∣x∣∣,k∈K\left| \left| k\pmb{x} \right| \right| = \left| k \right| \left| \left| \pmb{x} \right| \right|,k \in K∣∣kxx∣∣=∣k∣∣∣xx∣∣,k∈K;
(3)三角不等式:∣∣x+y∣∣=∣∣x∣∣+∣∣y∣∣,x,y∈V\left| \left| \pmb{x} + \pmb{y} \right| \right| = \left| \left| \pmb{x} \right| \right| + \left| \left| \pmb{y} \right| \right|,\pmb{x}, \pmb{y} \in V∣∣xx+yy∣∣=∣∣xx∣∣+∣∣yy∣∣,xx,yy∈V。
        则称 ∣∣x∣∣\left| \left| \pmb{x} \right| \right|∣∣xx∣∣ 为 VVV 上向量 x\pmb{x}xx 的范数(norm)。

2. 性质
        向量范数的等价性: 设∣∣x∣∣α\left| \left| \pmb{x} \right| \right|_{\alpha}∣∣xx∣∣α​和∣∣x∣∣β\left| \left| \pmb{x} \right| \right|_{\beta}∣∣xx∣∣β​为有限维线性空间 VVV 的任意两种向量范数(它们不限于 p−p-p−范数),则存在两个与向量 x\pmb{x}xx 无关的正常数c1c_1c1​和c2c_2c2​,使满足:
c1∣∣x∣∣β≤∣∣x∣∣α≤c2∣∣x∣∣β(2-1)c_1\left| \left| \pmb{x} \right| \right|_{\beta} \leq \left| \left| \pmb{x} \right| \right|_{\alpha} \leq c_2\left| \left| \pmb{x} \right| \right|_{\beta} \tag{2-1}c1​∣∣xx∣∣β​≤∣∣xx∣∣α​≤c2​∣∣xx∣∣β​(2-1)

特殊的范数关系式:
∣∣x∣∣2≤∣∣x∣∣1≤n∣∣x∣∣2∣∣x∣∣∞≤∣∣x∣∣2≤n∣∣x∣∣∞∣∣x∣∣∞≤∣∣x∣∣1≤n∣∣x∣∣∞∣∣x∣∣∞≤∣∣x∣∣2≤n∣∣x∣∣1(2-2)\left| \left| \pmb{x} \right| \right|_{2} \leq \left| \left| \pmb{x} \right| \right|_{1} \leq \sqrt{n} \left| \left| \pmb{x} \right| \right|_{2} \\ \quad \\ \left| \left| \pmb{x} \right| \right|_{\infty} \leq \left| \left| \pmb{x} \right| \right|_{2} \leq \sqrt{n} \left| \left| \pmb{x} \right| \right|_{\infty} \\ \quad \\ \left| \left| \pmb{x} \right| \right|_{\infty} \leq \left| \left| \pmb{x} \right| \right|_{1} \leq {n} \left| \left| \pmb{x} \right| \right|_{\infty} \\ \quad \\ \left| \left| \pmb{x} \right| \right|_{\infty} \leq \left| \left| \pmb{x} \right| \right|_{2} \leq {n} \left| \left| \pmb{x} \right| \right|_{1} \tag{2-2}∣∣xx∣∣2​≤∣∣xx∣∣1​≤n​∣∣xx∣∣2​∣∣xx∣∣∞​≤∣∣xx∣∣2​≤n​∣∣xx∣∣∞​∣∣xx∣∣∞​≤∣∣xx∣∣1​≤n∣∣xx∣∣∞​∣∣xx∣∣∞​≤∣∣xx∣∣2​≤n∣∣xx∣∣1​(2-2)

2.2 范数的分类

设 x=(x1,x2,⋯,xn)T∈Rn\pmb{x} = (x_1, x_2, \cdots, x_n)^T \in \mathbb{R}^nxx=(x1​,x2​,⋯,xn​)T∈Rn,则有以下常用范数:

2.2.1 从范数的定义出发

1. lpl_plp​范数
        lpl_plp​ 范数不是一个范数,而是一组范数,其定义如下:
lp=∥x∥p=(∑i=1n∣xi∣p)1/pp≥1(2-3)l_p=\Vert \pmb{x}\Vert_p = ({\sum\limits_{i=1}\limits^{n}{ \left| x_i \right|}^p})^{1/p} \quad p \geq 1\tag{2-3}lp​=∥xx∥p​=(i=1∑n​∣xi​∣p)1/pp≥1(2-3)
        随着ppp的变化,范数也有着不同的变化,如下图为ppp从无穷到0变化的时候,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。

2. l0l_0l0​范数
        当 p=0p=0p=0 时,也就是 l0l_0l0​范数,由上面的定义可知,l0l_0l0​范数并不是一个真正的范数,它主要被用来度量向量中非零元素的个数。用上面的 lpl_plp​范数定义可以得到的 l0l_0l0​范数的定义为:

KaTeX parse error: Got group of unknown type: 'internal'

上面的公式可能会让我们疑惑,因为非零元素的零次方等于1,但非零数开零次方是什么含义呢,其实是0的指数和平方根严格意义上是受限条件下才成立的。因此在实际应用中,多数人给出下面的替代定义:

∣∣x∣∣0=#(i)withxi≠0(2-5)\left| \left| \pmb{x} \right| \right|_{0}\; \; =\; \#\left( i \right)\; with\; x_{i}\; \neq \; 0 \tag{2-5}∣∣xx∣∣0​=#(i)withxi​=0(2-5)

其表示向量中所有非零元素的个数。如果我们使用l0l_0l0​范数来规则化参数向量x\pmb{x}xx,就是希望x\pmb{x}xx的元素大部分都为零。l0l_0l0​范数的这个属性,使得其非常适合机器学习中稀疏编码。在特征选择中,通过最小化 l0l_0l0​范数,来寻找最少最优的稀疏特征项。但不幸的是,l0l_0l0​范数的最小化问题在实际应用中是NP问题。而l1l_1l1​范数是l0l_0l0​范数的最优凸近似,它比l0l_0l0​范数要更容易求解。因此,优化过程将会被转换为更高维的范数(例如l1l_1l1​范数)问题。

3. l1l_1l1​范数
        l1l_1l1​范数为向量 x\pmb{x}xx 各个元素绝对值之和,即:
∣∣x∣∣1=∑i=1n∣xi∣(2-6)\left| \left| \pmb{x} \right| \right|_{1}\; =\; \sum_{i=1}^{n}{\left| x_{i} \right|} \tag{2-6}∣∣xx∣∣1​=i=1∑n​∣xi​∣(2-6)

由于l1l_1l1​范数的天然性质,对l1l_1l1​优化的解是一个稀疏解,因此l1l_1l1​范数也被叫做稀疏规则算子。通过l1l_1l1​可以实现特征的稀疏,去掉一些没有信息的特征。

4. l2l_2l2​范数
        范数中最常见的就是 l2l_2l2​范数,l2l_2l2​范数又称Euclidean范数或者Frobenius范数,为向量 x\pmb{x}xx 各个元素平方和的1/2次方,即:
∣∣x∣∣2=∑i=1nxi2(2-7)\left| \left| \pmb{x} \right| \right|_{2}\; =\; \sqrt{\sum_{i=1}^{n}{x_{i}^{2}}} \tag{2-7}∣∣xx∣∣2​=i=1∑n​xi2​​(2-7)

l2l_2l2​范数通常会被用来做优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

5. l∞l_{\infty}l∞​范数

KaTeX parse error: Got group of unknown type: 'internal'
        上面的式子看起来比较复杂,下面进行简单的数学变换,假设 xjx_jxj​是向量中最大的元素,则根据无限大的特性,我们可以得到:
xj∞>>xi∞∧j≠i(2-9)x_{j}^{\infty }\; >>\; x_{i}^{\infty }\; \wedge j\neq i \tag{2-9}xj∞​>>xi∞​∧j=i(2-9)
        则可知
∑i=1nxi∞=xj∞(2-10)\sum_{i=1}^{n}{x_{i}^{\infty }\; =\; x_{j}^{\infty }} \tag{2-10}i=1∑n​xi∞​=xj∞​(2-10)
        于是可以得到:
KaTeX parse error: Got group of unknown type: 'internal'

因此,我们可以说 l∞l_{\infty}l∞​范数是向量中最大元素的长度。

∣∣x∣∣∞=max⁡(∣xj∣)(2-12)\left| \left| \pmb{x} \right| \right|_{\infty }\; =\; \max \left( \left| x_{j} \right| \right) \tag{2-12}∣∣xx∣∣∞​=max(∣xj​∣)(2-12)

6. 椭圆范数
        设AAA是任意一个nnn阶实对称正定矩阵,列向量 x∈Rnx \in \mathbb{R}^nx∈Rn,则函数
∣∣x∣∣A=(xTAx)1/2(2-13)\left| \left| \pmb{x} \right| \right|_A = (x^TAx)^{1/2} \tag{2-13}∣∣xx∣∣A​=(xTAx)1/2(2-13)
        是一种向量函数,称为加权范数或椭圆范数。

2.2.2 从距离的定义出发

给定一个集合VVV,在VVV上定义一种新的运算:距离:V×V→R,∀x,y∈VV \times V \to \mathbb{R},\forall x, y \in VV×V→R,∀x,y∈V,在 R\mathbb{R}R 中都有唯一的元素δ\deltaδ与之对应,称为x,yx, yx,y之间的距离,满足的条件如下:
(1)非负性:d(x,y)=0⇔x=yd(x,y)=0\Leftrightarrow x=yd(x,y)=0⇔x=y
(2)三角不等式:d(x,y)⩽d(x,y)+d(y,z)d(x,y)\leqslant d(x,y)+d(y,z)d(x,y)⩽d(x,y)+d(y,z)
(3)自反性:d(x,y)=d(y,x)d(x,y)=d(y,x)d(x,y)=d(y,x)

1. 闵可夫斯基距离(Minkowski Distance)——对应lpl_plp​范数

闵氏距离不是一种距离,而是一组距离的定义。闵氏距离的定义:两个nnn维向量(或者两个nnn维空间点)x1(x11,x12,⋯,x1n)\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})x1​x1​(x11​,x12​,⋯,x1n​)与 x2(x21,x22,⋯,x2n)\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})x2​x2​(x21​,x22​,⋯,x2n​) 间的闵可夫斯基距离定义为:
d(x1,x2)=∑k=1n∣x1k−x2k∣pp(2-14)d{(\pmb{x_1}, \pmb{x_2})}= \sqrt[p]{\sum_{k=1}^{n} {\lvert x_{1k}-x_{2k} \rvert}^p} \tag{2-14}d(x1​x1​,x2​x2​)=pk=1∑n​∣x1k​−x2k​∣p​(2-14)
        其中 ppp 是一个变参数。当 p=1p=1p=1 时,就是曼哈顿距离;当 p=2p=2p=2 时,就是欧氏距离;当 p→∞p \to \inftyp→∞ 时,就是切比雪夫距离。根据变参数的不同,闵氏距离可以表示一类的距离。

2. 曼哈顿距离(Manhattan Distance)——对应l1l_1l1​范数

曼哈顿距离是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。需要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。
        曼哈顿距离的定义:两个nnn维向量(或者两个nnn维空间点)x1(x11,x12,⋯,x1n)\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})x1​x1​(x11​,x12​,⋯,x1n​)与 x2(x21,x22,⋯,x2n)\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})x2​x2​(x21​,x22​,⋯,x2n​) 间的曼哈顿距离定义为:
d(x1,x2)=∑k=1n∣x1k−x2k∣(2-15)d{(\pmb{x_1}, \pmb{x_2})}= \sum_{k=1}^{n} {\lvert x_{1k}-x_{2k}\rvert} \tag{2-15}d(x1​x1​,x2​x2​)=k=1∑n​∣x1k​−x2k​∣(2-15)

3. 欧式距离(Euclidean Distance)——对应l2l_2l2​范数

欧氏距离即两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。nnn维空间中两个点x1(x11,x12,⋯,x1n)\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})x1​x1​(x11​,x12​,⋯,x1n​)与 x2(x21,x22,⋯,x2n)\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})x2​x2​(x21​,x22​,⋯,x2n​)间的欧氏距离:
d(x1,x2)=∑k=1n(x1k−x2k)2(2-16)d{(\pmb{x_1}, \pmb{x_2})}= \sqrt{\sum_{k=1}^{n} {(x_{1k}-x_{2k})}^2} \tag{2-16}d(x1​x1​,x2​x2​)=k=1∑n​(x1k​−x2k​)2​(2-16)
        也可以用向量的运算形式表示出来:
d(x1,x2)=(x1−x2)(x1−x2)T(2-17)d{(\pmb{x_1}, \pmb{x_2})}= \sqrt{(\pmb{x_1}- \pmb{x_2})(\pmb{x_1}- \pmb{x_2})^T} \tag{2-17}d(x1​x1​,x2​x2​)=(x1​x1​−x2​x2​)(x1​x1​−x2​x2​)T​(2-17)

4. 切比雪夫距离————对应l∞l_{\infty}l∞​范数
        若两个向量或两个点 x1\pmb{x_1}x1​x1​ 和 x2\pmb{x_2}x2​x2​,其坐标分别为x1(x11,x12,⋯,x1n)\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})x1​x1​(x11​,x12​,⋯,x1n​)与 x2(x21,x22,⋯,x2n)\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})x2​x2​(x21​,x22​,⋯,x2n​),则二者的切比雪夫距离为:
d(x1,x2)=max⁡k∣x1k−x2k∣(2-18)d{(\pmb{x_1}, \pmb{x_2})} = \max_{k} \lvert x_{1k}-x_{2k}\rvert \tag{2-18}d(x1​x1​,x2​x2​)=kmax​∣x1k​−x2k​∣(2-18)
        上述表达式有下面的等价形式:
d(x1,x2)=lim⁡k→∞(∑k=1n∣x1k−x2k∣k)1/k(2-19)d{(\pmb{x_1}, \pmb{x_2})} = \lim_{k \to \infty}(\sum_{k=1}^{n}\lvert x_{1k}-x_{2k}\rvert^k)^{1/k} \tag{2-19}d(x1​x1​,x2​x2​)=k→∞lim​(k=1∑n​∣x1k​−x2k​∣k)1/k(2-19)

因此切比雪夫距离也称为l∞l_{\infty}l∞​度量。

小结: 由上面的对比我们可以看出来,距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则。有时候为了便于理解,我们可以把范数当作距离来理解。


3 矩阵范数

矩阵范数主要有三种类型:算子范数(我们经常接触的)、元素形式范数和Schatten范数。

3.1 定义

1. 定义
        对于 m×nm \times nm×n 复矩阵空间 Cm×n\mathbb{C}^{m \times n}Cm×n,我们也希望定义一个长度衡量矩阵的大小,定义距离比较两个矩阵之间的接近程度,由此我们引进了矩阵范数。
        设 A∈Cm×n\pmb{A} \in \mathbb{C}^{m \times n}AA∈Cm×n,定义一个实值函数 ∣∣A∣∣\left| \left| A \right| \right|∣∣A∣∣,满足下面的条件:
(1)正定性:∀A∈Cm×n\forall \pmb{A}\in \mathbb C^{m \times n}∀AA∈Cm×n,当 A≠0\pmb{A} \not= \bf{0}AA=0 时,∣∣A∣∣>0\left| \left| \pmb{A} \right| \right| > 0∣∣AA∣∣>0;当且仅当 A=0\pmb{A} = \bf{0}AA=0 时,∣∣A∣∣=0\left| \left| \pmb{A} \right| \right| = 0∣∣AA∣∣=0;
(2)齐次性:∀A∈Cm×n,∀α∈C\forall \pmb{A} \in\mathbb C^{m \times n},\forall\alpha\in\mathbb C∀AA∈Cm×n,∀α∈C,有∥αA∥=∣α∣⋅∥A∥\Vert \alpha \pmb{A} \Vert=\vert\alpha\vert\cdot\Vert \pmb{A} \Vert∥αAA∥=∣α∣⋅∥AA∥
(3)三角不等式:∀A,B∈Cm×n\forall \pmb{A},\pmb{B} \in\mathbb C^{m\times n}∀AA,BB∈Cm×n ∥A+B∥≤∥A∥+∥B∥\Vert \pmb{A}+\pmb{B}\Vert\le\Vert \pmb{A}\Vert+\Vert \pmb{B}\Vert∥AA+BB∥≤∥AA∥+∥BB∥
(4)乘法相容性:∀A,B∈Cm×n\forall \pmb{A},\pmb{B} \in\mathbb C^{m\times n}∀AA,BB∈Cm×n有 ∥AB∥≤∥A∥∥B∥\Vert \pmb{AB}\Vert\le\Vert \pmb{A}\Vert\,\Vert \pmb{B}\Vert∥ABAB∥≤∥AA∥∥BB∥
        则称 ∣∣A∣∣\left| \left| \pmb{A} \right| \right|∣∣AA∣∣ 为 A\pmb{A}AA 的矩阵范数。

2. 相容性

在计算中经常出现矩阵和向量的乘积,希望矩阵范数和向量范数间有某种协调性,于是提出了矩阵范数和向量范数的相容性:
        设 ∥⋅∥p\| \cdot \|_{p}∥⋅∥p​ 是 Cn\mathbb{C}^{n}Cn 上的向量范数,∥∗∥m\| \ast \|_{m}∥∗∥m​ 是 Cm×n\mathbb{C}^{m \times n}Cm×n 上的矩阵范数,且
∥Ax∥p≤∥A∥m∥x∥p(3-1)\|\pmb{Ax}\|_p \leq \|\pmb{A}\|_m \|\pmb{x}\|_p \tag{3-1}∥AxAx∥p​≤∥AA∥m​∥xx∥p​(3-1)
        则称 ∥∗∥m\| \ast \|_{m}∥∗∥m​ 为与向量范数 ∥⋅∥p\| \cdot \|_{p}∥⋅∥p​ 相容的矩阵范数。
        注:不是所有的矩阵范数都与向量范数相容,只有满足该条件的矩阵范数才与向量范数是相容的。

3.2 算子范数

在介绍该范数之前,需要先了解矩阵的算子范数(诱导范数),矩阵的算子范数,是由向量范数导出的。

设 ∥x∥p\|\pmb{x}\|_p∥xx∥p​ 是 Cn\mathbb{C}^nCn上的向量范数,A∈Cm×n\pmb{A} \in \mathbb{C}^{m \times n}AA∈Cm×n,则
∥x∥p=defmax⁡x≠0∥Ax∥p∥x∥p(=max⁡∥x∥p=1∥Ax∥p)(3-2)\|\pmb{x}\|_p \overset{def}{=} \max_{\boldsymbol{x} \not= 0}\dfrac{\|\pmb{Ax}\|_p}{\|\boldsymbol{x}\|_p}(= \max_{\|\boldsymbol{x}\|_p=1}\|\pmb{Ax}\|_p) \tag{3-2}∥xx∥p​=defx=0max​∥x∥p​∥AxAx∥p​​(=∥x∥p​=1max​∥AxAx∥p​)(3-2)
        是与向量范数 ∥x∥p\|\boldsymbol{x}\|_p∥x∥p​相容的矩阵范数。称此矩阵范数为从属于向量范数 ∥x∥\|\boldsymbol{x}\|∥x∥ 的算子范数。

从线性变换的角度理解该范数:矩阵 A\pmb{A}AA 作用于向量 x\boldsymbol{x}x,相当于对向量x\boldsymbol{x}x施加了一次线性变换,(向量 x\pmb{x}xx 的算子范数 ∥x∥p\|\boldsymbol{x}\|_p∥x∥p​ 相当于该向量长度的一种度量方式)则向量线性变换前后的长度之比为 ∥Ax∥p/∥x∥p\|\pmb{Ax}\|_p / \|\pmb{x}\|_p∥AxAx∥p​/∥xx∥p​,亦即线性变换 Ax\boldsymbol{Ax}Ax 相对于 x\boldsymbol{x}x 的放大倍数。因此,矩阵 A\boldsymbol{A}A 的算子范数是由 A\boldsymbol{A}A 产生的最大放大倍数。

(1)列和范数(p=1p=1p=1)
∣∣A∣∣1=max⁡x≠0∥Ax∥1∥x∥1=max⁡1≤j≤n∑i=1m∣ai,j∣(3-3)||\boldsymbol{A}||_1 =\max_{\boldsymbol{x} \not= 0}\frac{\|\boldsymbol{Ax}\|_1}{\|\boldsymbol{x}\|_1}= \max_{ 1 \leq j \leq n}\sum_{i=1}^m|a_{i,j}| \tag{3-3}∣∣A∣∣1​=x=0max​∥x∥1​∥Ax∥1​​=1≤j≤nmax​i=1∑m​∣ai,j​∣(3-3)
        即矩阵的各列元素绝对值之和的最大值(最大绝对列和)。

(2)谱范数(p=2p=2p=2)
∣∣A∣∣2=max⁡x≠0∥Ax∥2∥x∥2=λmax(AHA)=max⁡1≤i≤n∣λi∣,其中λi为AHA的特征值(3-4)||\boldsymbol{A}||_2 =\max_{\boldsymbol{x} \not= 0}\frac{\|\boldsymbol{Ax}\|_2}{\|\boldsymbol{x}\|_2}=\sqrt{\lambda_{}max(\boldsymbol{A}^H\boldsymbol{A})} = \sqrt{ \max_{ 1 \leq i \leq n} |\lambda_i|},其中\lambda_i 为 \boldsymbol{A}^H\boldsymbol{A}的特征值 \tag{3-4}∣∣A∣∣2​=x=0max​∥x∥2​∥Ax∥2​​=λ​max(AHA)​=1≤i≤nmax​∣λi​∣​,其中λi​为AHA的特征值(3-4)
        即矩阵 A\boldsymbol{A}A 的最大奇异值。(这里的AH\boldsymbol{A}^HAH代表A\boldsymbol{A}A的共轭转置)

(3)行和范数(p=∞p=\inftyp=∞)
∣∣A∣∣∞=max⁡x≠0∥Ax∥∞∥x∥∞=max⁡1≤i≤m∑j=1n∣ai,j∣(3-5)||\boldsymbol{A}||_\infty =\max_{\boldsymbol{x} \not= 0}\frac{\|\boldsymbol{Ax}\|_{\infty}}{\|\boldsymbol{x}\|_{\infty}}= \max_{ 1 \leq i \leq m}\sum_{j=1}^n|a_{i,j}| \tag{3-5}∣∣A∣∣∞​=x=0max​∥x∥∞​∥Ax∥∞​​=1≤i≤mmax​j=1∑n​∣ai,j​∣(3-5)
        即矩阵的各行元素绝对值之和的最大值(最大绝对行和)。

3.3 元素形式范数

将 m×nm \times nm×n 矩阵先按照列堆栈的形式,排列成一个 mn×1mn \times 1mn×1 向量,然后采用向量的范数定义,即得到矩阵的范数。由于这类范数是使用矩阵的元素表示的,故称为元素形式范数。定义如下:
∣∣A∣∣p=def(∑i=1m∑j=1n∣aij∣p)1/p(3-6)\left|\left| \boldsymbol{A} \right|\right|_{p} \overset{def}{=} \left( \sum_{i=1}^{m}{ \sum_{j=1}^{n}{ \left| a_{ij} \right|^{p} } } \right)^{1/p} \tag{3-6}∣∣A∣∣p​=def(i=1∑m​j=1∑n​∣aij​∣p)1/p(3-6)
        最常用的元素形式范数是 p=1,2,∞p=1, 2, \inftyp=1,2,∞ 三种情况:
(1)l1l_1l1​范数(和范数)(p=1p=1p=1)
∣∣A∣∣1=∑i=1m∑j=1n∣aij∣(3-7)\left|\left| \pmb{A} \right|\right|_{1} = \sum_{i=1}^{m}{ \sum_{j=1}^{n}{ \left| a_{ij} \right| } } \tag{3-7}∣∣AA∣∣1​=i=1∑m​j=1∑n​∣aij​∣(3-7)
(2)Frobenius范数(F-范数)(p=2p=2p=2)
∣∣A∣∣F=(∑i=1m∑j=1n∣ai,j∣2)=tr(AHA)(3-8)||\pmb{A}||_F=\sqrt{\left(\sum_{i=1}^m\sum_{j=1}^n|a_{i,j}|^2\right)} = \sqrt{tr(\pmb{A}^H\pmb{A})} \tag{3-8}∣∣AA∣∣F​=(i=1∑m​j=1∑n​∣ai,j​∣2)​=tr(AAHAA)​(3-8)
        即矩阵的各个元素平方之和再开平方根。
        矩阵的Frobenius范数有时也称Euclidean范数、 Schur范数、Hilbert-Schmidt范数或者l2l_2l2​范数。
(3)最大范数(max norm)(p=∞p=\inftyp=∞)
∣∣A∣∣p=max{∣aij∣},i=1,⋅⋅⋅,m;j=1,⋅⋅⋅,n(3-9)\left|\left| \pmb{A} \right|\right|_{p} =max \left\{ \left| a_{ij} \right| \right\}, i=1,\cdot\cdot\cdot,m;j=1,\cdot\cdot\cdot,n \tag{3-9}∣∣AA∣∣p​=max{∣aij​∣},i=1,⋅⋅⋅,m;j=1,⋅⋅⋅,n(3-9)

3.4 Schatten范数

Schatten范数是用矩阵的奇异值定义的范数。在介绍 Schatten 范数之前,有必要先来简单了解一下酉不变范数的概念:
        若 U∈Cm×m\pmb{U}\in \mathbb{C}^{m\times m}UU∈Cm×m 和 V∈Cn×n\pmb{V} \in \mathbb{C}^{n \times n}VV∈Cn×n是两个酉矩阵,满足 ∣∣A∣∣=∣∣UAV∣∣\left|\left| \pmb{A} \right|\right| = \left|\left| \pmb{UAV} \right|\right|∣∣AA∣∣=∣∣UAVUAV∣∣ 的范数称为酉不变范数。令矩阵 A∈Cm×n\pmb{A} \in \mathbb{C}^{m \times n}AA∈Cm×n 有奇异值分解 A=UΣVH\pmb{A} = \pmb{U}\Sigma \pmb{V}^{H}AA=UUΣVVH 。显然,∣∣A∣∣=∣∣UHAV∣∣=∣∣Σ∣∣\left|\left| \pmb{A}\right|\right| = \left|\left| \pmb{U}^{H}\pmb{AV} \right|\right|=\left|\left| \Sigma\right|\right|∣∣AA∣∣=∣∣​∣∣​UUHAVAV∣∣​∣∣​=∣∣Σ∣∣ 是一酉不变范数。令:
σ=[σi,⋅⋅⋅,σk]T,k=min{m,n}(3-10)\pmb{\sigma} = [ \sigma_{i},\cdot\cdot\cdot,\sigma_{k} ]^{T},k=min\left\{ m,n \right\} \tag{3-10}σσ=[σi​,⋅⋅⋅,σk​]T,k=min{m,n}(3-10)
        表示矩阵 Am×n\pmb{A}_{m\times n}AAm×n​ 的全部奇异值组成的向量,则 Schatten-p范数定义如下:
∣∣A∣∣p=def∣∣σ∣∣p=(∑i=1min{m,n}σip)1/p(3-11)\left|\left| \pmb{A} \right|\right|_{p} \overset{def}{=} \left|\left| \pmb{\sigma} \right|\right|_{p} = ( \sum_{i=1}^{ min\left\{m,n\right\} }{ \sigma_{i}^{p} } )^{1/p} \tag{3-11}∣∣AA∣∣p​=def∣∣σσ∣∣p​=(i=1∑min{m,n}​σip​)1/p(3-11)
        最常用的Schatten范数是 p=1,2,∞p=1, 2, \inftyp=1,2,∞ 三种情况:
(1)p=1p=1p=1 时的Schatten范数称为核范数(nuclear norm),定义为——矩阵的所有奇异值之和
∣∣A∣∣∗=∑i=1min{m,n}σi=tr(AHA)(3-12)\left|\left| \pmb{A} \right|\right|_{*} = \sum_{i=1}^{min\left\{m,n\right\}}{ \sigma _{i} } = tr(\sqrt{\pmb{A}^{H}\pmb{A}}) \tag{3-12}∣∣AA∣∣∗​=i=1∑min{m,n}​σi​=tr(AAHAA​)(3-12)
        即矩阵的奇异值(将矩阵SVD分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩)。
(2)p=2p=2p=2 时的Schatten范数与 Frobenius范数等价
∣∣A∣∣2=∣∣A∣∣F=∑i=1min{m,n}σi2=tr(AHA)=∑i=1m∑j=1n∣aij∣2(3-13)\left| \left| \pmb{A}\right|\right|_{2} = \left| \left| \pmb{A}\right|\right|_{F} = \sqrt{ \sum_{i=1}^{min\left\{m,n\right\}}{\sigma_i ^{2}} } = \sqrt{ tr(\pmb{A}^{H}\pmb{A}) } = \sum_{i=1}^{m}\sum_{j=1}^{n}\left| a_{ij} \right|^{2} \tag{3-13}∣∣AA∣∣2​=∣∣AA∣∣F​=i=1∑min{m,n}​σi2​​=tr(AAHAA)​=i=1∑m​j=1∑n​∣aij​∣2(3-13)

(3) p=∞p=\inftyp=∞ 时的 Schatten范数与算子范数谱范数相同,即
∣∣A∣∣∞=σmax(A)(3-14)\left|\left| \pmb{A} \right|\right|_{\infty} = \sigma_{max}(\pmb{A}) \tag{3-14}∣∣AA∣∣∞​=σmax​(AA)(3-14)
        即矩阵 A\pmb{A}AA 的最大奇异值。


参考

  • 范数的物理意义:https://blog.csdn.net/jizhihang2000/article/details/7977600
  • 范数的概念:https://blog.csdn.net/skybirdhua1989/article/details/17584797
  • 范数与距离的关系:https://www.cnblogs.com/wt869054461/p/5935961.html
  • 浅谈L0、L1、L2范数及其应用:http://t.hengwei.me/post/浅谈l0l1l2范数及其应用.html
  • 机器学习中的范数规则化之(一)L0、L1与L2范数:https://blog.csdn.net/zouxy09/article/details/24971995?spm=1001.2014.3001.5501
  • 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法:https://blog.csdn.net/v_july_v/article/details/8203674
  • 如何通俗易懂地解释「范数」:https://zhuanlan.zhihu.com/p/26884695
  • 矩阵基础 | 向量范数与矩阵范数:https://zhuanlan.zhihu.com/p/265713608

矩阵篇(一)-- 向量范数与矩阵范数的认识相关推荐

  1. 范数(赋范线性空间、向量范数、矩阵范数)

    赋范线性空间: 在线性空间中装配上范数就成了赋范线性空间,这和內积空间是不是套路一致. ---------------------------------------------------- 向量范 ...

  2. 7.4.1 矩阵低秩近似、矩阵范数

    矩阵低秩近似.矩阵范数 根据奇异值分解,秩为 rrr 的任意矩阵 AAA 可分解为 rrr 个简单矩阵(秩为 111) σiuiviT\sigma_i\mathbf{u}_i\mathbf{v}^T_ ...

  3. 常见向量范数和矩阵范数及其MATLAB实现

    参考  常见向量范数和矩阵范数及其MATLAB实现 - 云+社区 - 腾讯云 1.向量范数 1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1) . 2-范数:,Euclid范数 ...

  4. 向量范数与矩阵范数定义和python向量矩阵运算示例

    向量范数与矩阵范数定义和python向量矩阵运算示例 1.范数(norm)的意义 要更好的理解范数,就要从函数.几何与矩阵的角度去理解.  我们都知道,函数与几何图形往往是有对应的关系,这个很好想象, ...

  5. 【矩阵论】7. 范数理论——基本概念——向量范数与矩阵范数

    矩阵论 1. 准备知识--复数域上矩阵,Hermite变换) 1.准备知识--复数域上的内积域正交阵 1.准备知识--Hermite阵,二次型,矩阵合同,正定阵,幂0阵,幂等阵,矩阵的秩 2. 矩阵分 ...

  6. 数值分析总结笔记1——向量范数、矩阵范数

    一.向量范数 1.定义: 对于任意向量x,y以及复数α∈C,函数 f(x)=||x|| 满足以下三个条件: 1.非负性 ||x|| ≧ 0, ||x||=0 ⇿ x=0 (n*1) 注意符号,可能会导 ...

  7. 向量范数证明例题_数值与计算方法第六章向量范数和矩阵范数试题.ppt

    在很多实际问题中,我们需要对向量和矩阵的大小引进度量,这些度量便是向量与矩阵范数的概念. 6.6.1 向量范数 约定:用 表示所有 n 维实的列向量 的实线性空间. 在 上引入向量范数的定义如下: 定 ...

  8. python求矩阵范数_向量范数和矩阵范数(示例代码)

    title: 向量范数和矩阵范数 date: 2018-05-28 16:49:50 tags: [经常忘,数学] categories: 概念 mathjax: true --- 范数 范数分为向量 ...

  9. 矩阵分析与计算学习记录-向量范数与矩阵范数

    本章知识重点: 向量范数:定义.性质.等价性.分析性质 矩阵范数:定义.算子范数 矩阵范数与向量范数的相容性 矩阵的普半径及应用:普半径.矩阵序列及级数中的应用 矩阵的条件数及应用:矩阵的条件数.误差 ...

最新文章

  1. 前景背景分割——ostu算法的原理及实现 OpenCV (八)
  2. 【SQL提数】case..when..then..end的使用
  3. python编程软件开发_Python编程对软件开发人员很重要?
  4. 旧文 | 舒迅:产品经理必读的九步法
  5. SpringMVC 全局异常处理,返回json
  6. 域名服务器的配置文档,配置自己的域名服务器
  7. 美女同事DL-624+A家庭办公无线路由的解决方案!
  8. 详解公钥、私钥、数字证书的概念
  9. 数据库小知识点(一直更新)
  10. 【JavaWeb】数据库基础复习
  11. 数列分块入门 9(LibreOj-6285)
  12. 【pytorch】torch.nn.Identity()
  13. Educational Codeforces Round 64 Div.2 D - 0-1-Tree
  14. 计算机十进制例子,verilog给你举个最简单的例子:以十进制计算为例:14
  15. 案例:实现用户登录功能
  16. Eagle个人博客系统
  17. should, could, would, will, be going to, may, might到底有甚麼不同,又該怎麼用?
  18. 数据库事务的四大特性以及事务的隔离级别 1
  19. kubectl 重启pod_Part4:Pod对象的管理
  20. Web前端实现3D旋转魔方相册【超详细】

热门文章

  1. android_系统广播大全
  2. 字节跳动Android三面凉凉,已开源
  3. WinForm分数化简计算器(带源码)
  4. 正交试验法生成测试用例
  5. 常用的几种排序,卖菜的王婆已经学废了,你不来瞅瞅?
  6. 技术大牛VS小菜鸟VS客户—南昌某局的项目纪实
  7. jq点击事件第二次点击会出现两次点击 依次累积
  8. 如何将一首网易云音乐,生成一个音乐二维码?
  9. STM32F103C8T6用ADS1115采集热敏电阻
  10. centos7安装xrdp