L0范数:向量中非零元素的个数

L1范数:向量中各个元素绝对值的和

L2范数:向量中元素平方的和,再开方;即向量的模长

无穷范数:向量中各个元素绝对值的最大值

关于范数,有个好文章:http://blog.csdn.net/zouxy09/article/details/24971995

重要部分贴过来(感谢作者):

好了,这里兑现上面的承诺,来直观的聊聊L1和L2的差别,为什么一个让绝对值最小,一个让平方最小,会有那么大的差别呢?我看到的有两种几何上直观的解析:

1)下降速度:

我们知道,L1和L2都是规则化的方式,我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。而这个最小化就像一个下坡的过程,L1和L2的差别就在于这个“坡”不同,如下图:L1就是按绝对值函数的“坡”下降的,而L2是按二次函数的“坡”下降。所以实际上在0附近,L1的下降速度比L2的下降速度要快。所以会非常快得降到0。不过我觉得这里解释的不太中肯,当然了也不知道是不是自己理解的问题。

L1在江湖上人称Lasso,L2人称Ridge。不过这两个名字还挺让人迷糊的,看上面的图片,Lasso的图看起来就像ridge,而ridge的图看起来就像lasso。

2)模型空间的限制:

实际上,对于L1和L2规则化的代价函数来说,我们可以写成以下形式:

也就是说,我们将模型空间限制在w的一个L1-ball 中。为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:

可以看到,L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现,而目标函数的测地线除非位置摆得非常好,大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性,例如图中的相交点就有w1=0,而更高维的时候(想象一下三维的L1-ball 是什么样的?)除了角点以外,还有很多边的轮廓也是既有很大的概率成为第一次相交的地方,又会产生稀疏性。

相比之下,L2-ball 就没有这样的性质,因为没有角,所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性,而L2-regularization 不行的原因了。

   因此,一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。

L0/L1/L2/无穷范数相关推荐

  1. L0,L1,L2 无穷范数

    L0范数:向量中非零元素的个数 L1范数:向量中各个元素绝对值的和 L2范数:向量中元素平方的和,再开方:即向量的模长 无穷范数:向量中各个元素绝对值的最大值

  2. 机器学习中的规则化范数(L0, L1, L2, 核范数)

    今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个 ...

  3. Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数

    L0, L1, L2, L2,1范数 机器学习中的范数定义不同于数学中的定义. 对于向量xxx (x=[x1,x2,x3,...xm]x=[x_1,x_2,x_3,... x_m]x=[x1​,x2​ ...

  4. 浅谈L0,L1,L2范数及其应用

    原文传送门:浅谈L0,L1,L2范数及其应用 浅谈L0,L1,L2范数及其应用 在线性代数,函数分析等数学分支中,范数(Norm)是一个函数,其赋予某个向量空间(或矩阵)中的每个向量以长度或大小.对于 ...

  5. 机器学习基础-23:矩阵理论(L0/L1/L2范数等)

    机器学习基础-23:矩阵理论(L0/L1/L2范数等) 机器学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读! 线性代数是数学的一个分支,广泛应用于科学和工程领域.线性代数和矩阵理论是机器学 ...

  6. L0/L1/L2/Lp/L∞范数的联系与区别

    向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离. 向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| ...

  7. 正则化与L0,L1,L2范数简介

    参考:机器学习中的范数规则化之(一)L0.L1与L2范数 1. 常见的范数 1.1 L0 范数 向量中非零元素的个数,即稀疏度,适合稀疏编码,特征选择. 1.2 L1 范数 又叫曼哈顿距离或最小绝对误 ...

  8. 机器学习中的范数理解(L0,L1,L2)

    监督机器学习就是规则化参数的同时最小化误差. 有监督学习的样本都是带有标签的样本,用 yyy 来表示样本的标签,我们通过算法来提取样本特征并对其进行分类或回归,得到结果 y1=WTx" ro ...

  9. python 怎么算l2范数_向量范数与矩阵范数(L0, L1, L2)

    直观理解 在实数域中,数的大小和两个数之间的距离是通过绝对值来度量的.在解析几何中,向量的大小和两个向量之差的大小是"长度"和"距离"的概念来度量的.为了对矩阵 ...

最新文章

  1. DLL技术应用04 - 零基础入门学习Delphi47
  2. java i 底层原理,《Java基础知识》Java Hash底层原理
  3. windows下使用Jenkins搭建CI持续集成平台(版本源码管理使用SVN)
  4. openJDK之sun.misc.Unsafe类CAS底层实现
  5. 8086/8088 存储器分段概念
  6. SpringSecurity OAuth2介绍
  7. iOS: 让自定义控件适应Autolayout注意的问题
  8. Android开发之在任意Activity在广点通页面添加自定义布局在穿山甲页面添加任意布局
  9. CKEditor的使用-编辑文本
  10. 使用mysql命令修改配置信息
  11. 介绍Linux系统如何初始化和启动系统服务的
  12. Gatech OMSCS的申请和学习之奥妙
  13. [工业互联-7]:工业控制电气自动化系统与主要元器件
  14. iMovie 6 IDVD : The Missing Manual
  15. flutter 漂亮聊天UI界面实现 flutter-chatUI-again (11)
  16. 微信小程序开发初体验
  17. 小米200万的新LOGO 一行代码就能修改?
  18. python--绘制WRF模式近地面风场以及辐射
  19. 软件测试基础理论2-产品模型
  20. matlab图像配准之SSD、NCC、SAD等相似度计算

热门文章

  1. data mining blog (foreign)
  2. 《方块方舟》自定义服务器工具,方舟方块世界服务器建立方法
  3. OD调试常见断点及原理
  4. 自动学习——《Learning to Teach》——ICLR2018
  5. 从入门到放弃系列-傅里叶变换,拉普拉斯变换,Z变换
  6. 打印当前python文件出错行
  7. 自控力读书笔记:第一章 我要做,我不要,我想要
  8. 海康威视网络摄像头配置本地存储服务器(远程连接查看回放)
  9. 因子分析python代码_关于「因」的诗词(649首)_诗词名句网
  10. JavaScript-百炼成仙(第1节掌握JavaScript基础1.1-1.21)