Lasso回归系列三：机器学习中的L0, L1, L2, L2,1范数

L0, L1, L2, L2,1范数

机器学习中的范数定义不同于数学中的定义。
对于向量xxx (x=[x1,x2,x3,...xm]x=[x_1,x_2,x_3,... x_m]x=[x1,x2,x3,...xm])和一个nnn行，ttt列的矩阵XXX，它的 L0, L1, L2, L2,1范数定义如下：

L0范数：向量/矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小，0元素越多，也就越稀疏。
∣∣x∣∣0=count(xi≠0),i∈(1,2,..m)∣∣X∣∣0=count(xi,j≠0),i∈(1,2,..n),j∈(1,2,..t)||x||_0 = count(x_i \neq0) , i \in (1,2,..m) \\||X||_0 = count(x_{i,j} \neq0) , i \in (1,2,..n), j \in (1,2,..t) ∣∣x∣∣0=count(xi=0),i∈(1,2,..m)∣∣X∣∣0=count(xi,j=0),i∈(1,2,..n),j∈(1,2,..t)

L1范数：向量/矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似，因此它也可以近似表示稀疏；
∣∣x∣∣1=∑i=1m∣xi∣∣∣X∣∣1=∑i=1n∑j=1t∣xi,j∣||x||_1 = \sum _{i=1}^m |x_i| \\||X||_1 = \sum _{i=1}^n \sum _{j=1}^t |x_{i,j}| ∣∣x∣∣1=i=1∑m∣xi∣∣∣X∣∣1=i=1∑nj=1∑t∣xi,j∣

L2范数：向量/矩阵的各个元素平方之和再开平方根，它通常也叫做矩阵的L2范数，它是一个凸函数，可以求导求解，易于计算；
∣∣x∣∣1=∑i=1mxi2∣∣X∣∣1=∑i=1n∑j=1txi,j2||x||_1 = \sqrt { \sum _{i=1}^m x_i^2} \\||X||_1 = \sqrt { \sum _{i=1}^n \sum _{j=1}^t x_{i,j}^2} ∣∣x∣∣1=i=1∑mxi2∣∣X∣∣1=i=1∑nj=1∑txi,j2

L2，1范数：矩阵XXX每一行行内元素的L2范数之和，也即先求每一行行内元素的L2范数，然后再求所有行L2范数的L1范数。向量xxx是不存在L2,1范数的，只有矩阵才有。
∣∣X∣∣2,1=∑i=1n∑j=1tXi,j=∑i=1n∣∣Xi,:∣∣2||X||_{2,1}=\sum _{i=1}^{n} \sqrt {\sum _{j=1}^{t} X_{i,j}} = \sum _{i=1}^{n} ||X_{i,:}||_2 ∣∣X∣∣2,1=i=1∑nj=1∑tXi,j=i=1∑n∣∣Xi,:∣∣2
最小化L2,1范数，就需要让行的L1范数尽可能小，即∣∣Xi,:∣∣2||X_{i,:}||_2∣∣Xi,:∣∣2尽可能为0，也就是让尽可能多的行内的所有元素都是0，以此实现行稀疏的效果。不同于L1范数，是让尽可能多的Xi,jX_{i,j}Xi,j为0，也即单个的元素为0。

除了L2,1范数，还有L0.5,1范数，L1,2范数等组合，这些统称为结构化稀疏。

参考

向量与矩阵的范数（比较1-范数、2-范数、无穷范数、p-范数、L0范数和 L1范数等）

L2,1范数的作用

Lasso回归系列三：机器学习中的L0, L1, L2, L2,1范数相关推荐

机器学习中正则化项L1和L2的直观理解
文章目录正则化(Regularization) 稀疏模型与特征选择的关系 L1和L2正则化的直观理解正则化和特征选择的关系为什么梯度下降的等值线与正则化函数第一次交点是最优解? L2正则化和过拟 ...
机器学习中正则化项L1和L2
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作 L1正则化和 L2正则化,或者 L1范数和 L2范数. 图像卷 ...
Lasso回归系列二：Lasso回归/岭回归的原理
Lasso回归/岭回归的原理在学习L1,L2正则化的作用和区别时,我们总是会看到这样的一副图片: 这幅图片形象化地解释了L1,L2对线性模型产生的不同的约束效果. 我最开始其实是不太理解为什么要这么 ...
Lasso回归系列四：Group Lasso，Sparse Group Lasso
Lasso变体:Group Lasso,Sparse Group Lasso 关于Lasso回归的讲解可以看我的另一篇博客:Lasso回归系列二:Lasso回归/岭回归的原理 Group Lasso ...
Lasso回归系列一：用LASSO回归做特征筛选踩坑记
用LASSO回归做特征筛选使用踩坑记什么时候应该用LASSO回归进行特征筛选?使用时容易踩的坑你都避开了吗?Lasso回归的原理(请看我的另一篇博客: Lasso回归系列二:Lasso回归/岭回归的 ...
机器学习中的正则化——L1范数和L2范数
机器学习中的正则化--L1范数和L2范数正则化是什么?为什么要正则化? LP范数 L0范数(补充了解) L1范数 L2范数 L1范数和L2范数的区别以深度学习的角度看待L1范数和L2范数正则化是 ...
机器学习中的数学基础（1）——向量和范数
https://www.toutiao.com/i6668553958534939144/ 从今天开始,我将开设一个机器学习数学基础的系列.主要介绍机器学习中经常用到的那些数学知识,方便大家入门.一说 ...
h0在c语言中可作为变量吗,请问TMS320F2809中的L0/L1/H0 SARAM双重映射数据段和程序段的地址空间能重合吗？...
我有以下几个问题: 1.M0.M1.L0.L1.H0(SARAM)是不是既可以当做数据段,又可以当做程序段?假如可以的话,数据段和程序段的地址空间能重合吗? 如: PAGE 0: RAML11 ...
损失函数中正则化项L1和L2的理解
正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L ...

Lasso回归系列三：机器学习中的L0, L1, L2, L2,1范数

L0, L1, L2, L2,1范数

Lasso回归系列三：机器学习中的L0, L1, L2, L2,1范数相关推荐

最新文章

热门文章