L0, L1, L2, L2,1范数

机器学习中的范数定义不同于数学中的定义。
对于向量xxx (x=[x1,x2,x3,...xm]x=[x_1,x_2,x_3,... x_m]x=[x1​,x2​,x3​,...xm​])和一个nnn行,ttt列的矩阵XXX,它的 L0, L1, L2, L2,1范数定义如下:

L0范数:向量/矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小,0元素越多,也就越稀疏。
∣∣x∣∣0=count(xi≠0),i∈(1,2,..m)∣∣X∣∣0=count(xi,j≠0),i∈(1,2,..n),j∈(1,2,..t)||x||_0 = count(x_i \neq0) , i \in (1,2,..m) \\||X||_0 = count(x_{i,j} \neq0) , i \in (1,2,..n), j \in (1,2,..t) ∣∣x∣∣0​=count(xi​​=0),i∈(1,2,..m)∣∣X∣∣0​=count(xi,j​​=0),i∈(1,2,..n),j∈(1,2,..t)

L1范数:向量/矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以近似表示稀疏;
∣∣x∣∣1=∑i=1m∣xi∣∣∣X∣∣1=∑i=1n∑j=1t∣xi,j∣||x||_1 = \sum _{i=1}^m |x_i| \\||X||_1 = \sum _{i=1}^n \sum _{j=1}^t |x_{i,j}| ∣∣x∣∣1​=i=1∑m​∣xi​∣∣∣X∣∣1​=i=1∑n​j=1∑t​∣xi,j​∣

L2范数:向量/矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它是一个凸函数,可以求导求解,易于计算;
∣∣x∣∣1=∑i=1mxi2∣∣X∣∣1=∑i=1n∑j=1txi,j2||x||_1 = \sqrt { \sum _{i=1}^m x_i^2} \\||X||_1 = \sqrt { \sum _{i=1}^n \sum _{j=1}^t x_{i,j}^2} ∣∣x∣∣1​=i=1∑m​xi2​​∣∣X∣∣1​=i=1∑n​j=1∑t​xi,j2​​

L2,1范数:矩阵XXX每一行行内元素的L2范数之和,也即先求每一行行内元素的L2范数,然后再求所有行L2范数的L1范数。向量xxx是不存在L2,1范数的,只有矩阵才有。
∣∣X∣∣2,1=∑i=1n∑j=1tXi,j=∑i=1n∣∣Xi,:∣∣2||X||_{2,1}=\sum _{i=1}^{n} \sqrt {\sum _{j=1}^{t} X_{i,j}} = \sum _{i=1}^{n} ||X_{i,:}||_2 ∣∣X∣∣2,1​=i=1∑n​j=1∑t​Xi,j​​=i=1∑n​∣∣Xi,:​∣∣2​
最小化L2,1范数,就需要让行的L1范数尽可能小,即∣∣Xi,:∣∣2||X_{i,:}||_2∣∣Xi,:​∣∣2​尽可能为0,也就是让尽可能多的行内的所有元素都是0,以此实现行稀疏的效果。不同于L1范数,是让尽可能多的Xi,jX_{i,j}Xi,j​为0,也即单个的元素为0。

除了L2,1范数,还有L0.5,1范数,L1,2范数等组合,这些统称为结构化稀疏。

参考

向量与矩阵的范数(比较1-范数、2-范数、无穷范数、p-范数、L0范数 和 L1范数等)

L2,1范数的作用

Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数相关推荐

  1. 机器学习中正则化项L1和L2的直观理解

    文章目录 正则化(Regularization) 稀疏模型与特征选择的关系 L1和L2正则化的直观理解 正则化和特征选择的关系 为什么梯度下降的等值线与正则化函数第一次交点是最优解? L2正则化和过拟 ...

  2. 机器学习中正则化项L1和L2

    机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数.  图像卷 ...

  3. Lasso回归系列二:Lasso回归/岭回归的原理

    Lasso回归/岭回归的原理 在学习L1,L2正则化的作用和区别时,我们总是会看到这样的一副图片: 这幅图片形象化地解释了L1,L2对线性模型产生的不同的约束效果. 我最开始其实是不太理解为什么要这么 ...

  4. Lasso回归系列四:Group Lasso,Sparse Group Lasso

    Lasso变体:Group Lasso,Sparse Group Lasso 关于Lasso回归的讲解可以看我的另一篇博客:Lasso回归系列二:Lasso回归/岭回归的原理 Group Lasso ...

  5. Lasso回归系列一:用LASSO回归做特征筛选踩坑记

    用LASSO回归做特征筛选使用踩坑记 什么时候应该用LASSO回归进行特征筛选?使用时容易踩的坑你都避开了吗?Lasso回归的原理(请看我的另一篇博客: Lasso回归系列二:Lasso回归/岭回归的 ...

  6. 机器学习中的正则化——L1范数和L2范数

    机器学习中的正则化--L1范数和L2范数 正则化是什么?为什么要正则化? LP范数 L0范数(补充了解) L1范数 L2范数 L1范数和L2范数的区别 以深度学习的角度看待L1范数和L2范数 正则化是 ...

  7. 机器学习中的数学基础(1)——向量和范数

    https://www.toutiao.com/i6668553958534939144/ 从今天开始,我将开设一个机器学习数学基础的系列.主要介绍机器学习中经常用到的那些数学知识,方便大家入门.一说 ...

  8. h0在c语言中可作为变量吗,请问TMS320F2809中的L0/L1/H0 SARAM双重映射数据段和程序段的地址空间能重合吗?...

    我有以下几个问题: 1.M0.M1.L0.L1.H0(SARAM)是不是既可以当做数据段,又可以当做程序段?假如可以的话,数据段和程序段的地址空间能重合吗? 如: PAGE 0: RAML11     ...

  9. 损失函数中正则化项L1和L2的理解

    正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L ...

最新文章

  1. LeetCode 12 Integer to Roman (整数转罗马数字)
  2. 3.什么叫堆排序?与快速排序有什么不同?
  3. 新建gradle项目时总在下载gradle.zip
  4. 华为云创建免费服务器的一次失败尝试
  5. 实例解析Java class文件格式
  6. leetcode - 931. 下降路径最小和
  7. Java校招笔试题-Java基础部分(三)
  8. 趋势:“无人化”的未来,这些事情你需要知道!
  9. 关于Kswapd的理解(一)
  10. 完美卸载IE8/IE7安装IE6
  11. ISTQB FL初级认证考试资料(中文)
  12. 人机共生?马斯克的疯狂“实验”还很遥远
  13. openerp mysql_openerp 经典收藏 Openerp开发进销存系统完毕总结(转载)
  14. 数据挖掘学习笔记01——数据挖掘的基本流程
  15. 使用Timer实现Flutter启动页
  16. HCIP之路重点LSA
  17. empress和queen区别_女王英文如何表达 原来扑克牌和女王也有关吗
  18. 第三节 MapReduce(一)
  19. photoshopcs6安装包
  20. 关于百度快照问题的若干说明

热门文章

  1. Efficient Organized Point Cloud Segmentation with Connected Components论文阅读
  2. github小工具之fscan
  3. MySQL(复合查询)
  4. oracle if查询,Oracle条件查询
  5. 修改网站TITLE被降权恢复过程
  6. jq实现文字个数限制_js实现文本框输入文字个数限制代码
  7. 个人工具开发【卡片式记忆面试题开发】v.1.0.2
  8. 二叉树的遍历及其例题(数据结构学习笔记)
  9. uni-app 小项目开发 仿小米商城 后端提供数据3
  10. 《Photoshop图像合成专业技法(修订版)》—第1章1.3节抠取头发