Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数
L0, L1, L2, L2,1范数
机器学习中的范数定义不同于数学中的定义。
对于向量xxx (x=[x1,x2,x3,...xm]x=[x_1,x_2,x_3,... x_m]x=[x1,x2,x3,...xm])和一个nnn行,ttt列的矩阵XXX,它的 L0, L1, L2, L2,1范数定义如下:
L0范数:向量/矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小,0元素越多,也就越稀疏。
∣∣x∣∣0=count(xi≠0),i∈(1,2,..m)∣∣X∣∣0=count(xi,j≠0),i∈(1,2,..n),j∈(1,2,..t)||x||_0 = count(x_i \neq0) , i \in (1,2,..m) \\||X||_0 = count(x_{i,j} \neq0) , i \in (1,2,..n), j \in (1,2,..t) ∣∣x∣∣0=count(xi=0),i∈(1,2,..m)∣∣X∣∣0=count(xi,j=0),i∈(1,2,..n),j∈(1,2,..t)
L1范数:向量/矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以近似表示稀疏;
∣∣x∣∣1=∑i=1m∣xi∣∣∣X∣∣1=∑i=1n∑j=1t∣xi,j∣||x||_1 = \sum _{i=1}^m |x_i| \\||X||_1 = \sum _{i=1}^n \sum _{j=1}^t |x_{i,j}| ∣∣x∣∣1=i=1∑m∣xi∣∣∣X∣∣1=i=1∑nj=1∑t∣xi,j∣
L2范数:向量/矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它是一个凸函数,可以求导求解,易于计算;
∣∣x∣∣1=∑i=1mxi2∣∣X∣∣1=∑i=1n∑j=1txi,j2||x||_1 = \sqrt { \sum _{i=1}^m x_i^2} \\||X||_1 = \sqrt { \sum _{i=1}^n \sum _{j=1}^t x_{i,j}^2} ∣∣x∣∣1=i=1∑mxi2∣∣X∣∣1=i=1∑nj=1∑txi,j2
L2,1范数:矩阵XXX每一行行内元素的L2范数之和,也即先求每一行行内元素的L2范数,然后再求所有行L2范数的L1范数。向量xxx是不存在L2,1范数的,只有矩阵才有。
∣∣X∣∣2,1=∑i=1n∑j=1tXi,j=∑i=1n∣∣Xi,:∣∣2||X||_{2,1}=\sum _{i=1}^{n} \sqrt {\sum _{j=1}^{t} X_{i,j}} = \sum _{i=1}^{n} ||X_{i,:}||_2 ∣∣X∣∣2,1=i=1∑nj=1∑tXi,j=i=1∑n∣∣Xi,:∣∣2
最小化L2,1范数,就需要让行的L1范数尽可能小,即∣∣Xi,:∣∣2||X_{i,:}||_2∣∣Xi,:∣∣2尽可能为0,也就是让尽可能多的行内的所有元素都是0,以此实现行稀疏的效果。不同于L1范数,是让尽可能多的Xi,jX_{i,j}Xi,j为0,也即单个的元素为0。
除了L2,1范数,还有L0.5,1范数,L1,2范数等组合,这些统称为结构化稀疏。
参考
向量与矩阵的范数(比较1-范数、2-范数、无穷范数、p-范数、L0范数 和 L1范数等)
L2,1范数的作用
Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数相关推荐
- 机器学习中正则化项L1和L2的直观理解
文章目录 正则化(Regularization) 稀疏模型与特征选择的关系 L1和L2正则化的直观理解 正则化和特征选择的关系 为什么梯度下降的等值线与正则化函数第一次交点是最优解? L2正则化和过拟 ...
- 机器学习中正则化项L1和L2
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数. 图像卷 ...
- Lasso回归系列二:Lasso回归/岭回归的原理
Lasso回归/岭回归的原理 在学习L1,L2正则化的作用和区别时,我们总是会看到这样的一副图片: 这幅图片形象化地解释了L1,L2对线性模型产生的不同的约束效果. 我最开始其实是不太理解为什么要这么 ...
- Lasso回归系列四:Group Lasso,Sparse Group Lasso
Lasso变体:Group Lasso,Sparse Group Lasso 关于Lasso回归的讲解可以看我的另一篇博客:Lasso回归系列二:Lasso回归/岭回归的原理 Group Lasso ...
- Lasso回归系列一:用LASSO回归做特征筛选踩坑记
用LASSO回归做特征筛选使用踩坑记 什么时候应该用LASSO回归进行特征筛选?使用时容易踩的坑你都避开了吗?Lasso回归的原理(请看我的另一篇博客: Lasso回归系列二:Lasso回归/岭回归的 ...
- 机器学习中的正则化——L1范数和L2范数
机器学习中的正则化--L1范数和L2范数 正则化是什么?为什么要正则化? LP范数 L0范数(补充了解) L1范数 L2范数 L1范数和L2范数的区别 以深度学习的角度看待L1范数和L2范数 正则化是 ...
- 机器学习中的数学基础(1)——向量和范数
https://www.toutiao.com/i6668553958534939144/ 从今天开始,我将开设一个机器学习数学基础的系列.主要介绍机器学习中经常用到的那些数学知识,方便大家入门.一说 ...
- h0在c语言中可作为变量吗,请问TMS320F2809中的L0/L1/H0 SARAM双重映射数据段和程序段的地址空间能重合吗?...
我有以下几个问题: 1.M0.M1.L0.L1.H0(SARAM)是不是既可以当做数据段,又可以当做程序段?假如可以的话,数据段和程序段的地址空间能重合吗? 如: PAGE 0: RAML11 ...
- 损失函数中正则化项L1和L2的理解
正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L ...
最新文章
- LeetCode 12 Integer to Roman (整数转罗马数字)
- 3.什么叫堆排序?与快速排序有什么不同?
- 新建gradle项目时总在下载gradle.zip
- 华为云创建免费服务器的一次失败尝试
- 实例解析Java class文件格式
- leetcode - 931. 下降路径最小和
- Java校招笔试题-Java基础部分(三)
- 趋势:“无人化”的未来,这些事情你需要知道!
- 关于Kswapd的理解(一)
- 完美卸载IE8/IE7安装IE6
- ISTQB FL初级认证考试资料(中文)
- 人机共生?马斯克的疯狂“实验”还很遥远
- openerp mysql_openerp 经典收藏 Openerp开发进销存系统完毕总结(转载)
- 数据挖掘学习笔记01——数据挖掘的基本流程
- 使用Timer实现Flutter启动页
- HCIP之路重点LSA
- empress和queen区别_女王英文如何表达 原来扑克牌和女王也有关吗
- 第三节 MapReduce(一)
- photoshopcs6安装包
- 关于百度快照问题的若干说明
热门文章
- Efficient Organized Point Cloud Segmentation with Connected Components论文阅读
- github小工具之fscan
- MySQL(复合查询)
- oracle if查询,Oracle条件查询
- 修改网站TITLE被降权恢复过程
- jq实现文字个数限制_js实现文本框输入文字个数限制代码
- 个人工具开发【卡片式记忆面试题开发】v.1.0.2
- 二叉树的遍历及其例题(数据结构学习笔记)
- uni-app 小项目开发 仿小米商城 后端提供数据3
- 《Photoshop图像合成专业技法(修订版)》—第1章1.3节抠取头发