监督机器学习就是规则化参数的同时最小化误差

有监督学习的样本都是带有标签的样本,用 yyy 来表示样本的标签,我们通过算法来提取样本特征并对其进行分类或回归,得到结果 y1=WTx" role="presentation" style="position: relative;">y1=WTxy1=WTxy_1 = W^Tx, 这里xxx为样本、W" role="presentation" style="position: relative;">WWW 即是参数,此时有目标函数 z=y−y1z=y−y1z = y - y_1,我们希望对于相同的样本,其结果输出与其标签一样,于是我们通过优化算法使得zzz 尽可能的小,即min(z)=min(y−WTx)" role="presentation" style="position: relative;">min(z)=min(y−WTx)min(z)=min(y−WTx)min(z) = min(y-W^Tx), 优化算法即是更新参数WWW 的值使得分类输出更加接近于标签y" role="presentation" style="position: relative;">yyy ,但是由于种种原因比如样本量过少的问题会导致过拟合,这里以简单的三个图示讲解过拟合。



假设我们根据特征分界,{男人X,女人O}
请看下面三个图:

这三幅图很容易理解:
1、 图x1明显分类的有点欠缺,有很多的“男人”被分类成了“女人”。
2、 图x2虽然有两个点分类错误,但是能够理解,毕竟现实世界有噪音干扰,比如有些人男人留长发、化妆、人妖等等。
3、 图x3分类全部是正确的,但是看着这副图片,明显觉得过了,连人妖都区分的出来,可想而知,学习的时候需要更多的参数项,甚至将生殖器官的形状、喉结的大小、有没有胡须特征等都作为特征取用了,总而言之f(x)多项式的N特别的大,因为需要提供的特征多,或者提供的测试用例中我们使用到的特征非常多(一般而言,机器学习的过程中,很多特征是可以被丢弃掉的)。

好了,总结一下三幅图:
x1我们称之为【欠拟合】
x2我们称之为【恰好拟合】,随便取的名字,反正就是容错情况下刚好的意思。
x3我们称之为【过拟合】,这种情况是我们不希望出现的状况,为什么呢?很简单,它的分类只是适合于自己这个测试用例,对需要分类的真实样本而言,实用性可想而知的低。

通过以上的示例我们知道,过拟合导致参数向量WWW变大, 我们可以给目标函数z" role="presentation" style="position: relative;">zzz 加上一个正则化项,常见的正则化项有L0L0L0范数、L1L1L1范数以及L2L2L2范数,下面简单的介绍一下范数的概念。



范数的一般化定义,对于实数 XXX,p-范数的定义为:
||X||p=(∑i=0n|xi|p)1p" role="presentation" style="position: relative;">||X||p=(∑ni=0|xi|p)1p||X||p=(∑i=0n|xi|p)1p||X||_p = (\sum_{i=0}^n |x_i|^p)^ \frac{1}{p}

其赋予某个向量空间中每个元素的以长度或大小。



L0L0L0范数: ||X||0=∑ni=0X0i||X||0=∑i=0nXi0||X||_0 = \sum_{i=0}^nX_i^0

其表示向量中非零元素的个数。如果我们使用L0L0L0来规则化参数向量WWW,就是希望W" role="presentation" style="position: relative;">WWW的元素大部分都为零。L0L0L0范数的这个属性,使其非常适用于机器学习中的稀疏编码。在特征选择中,通过最小化L0L0L0范数来寻找最少最优的稀疏特征项。但是,L0L0L0范数的最小化问题是NP难问题。L1L1L1范数是L0L0L0范数的最优凸近似,它比L0L0L0范数要更容易求解。因此,L0L0L0优化过程将会被转换为更高维的范数(例如L1范数)问题。



L1L1L1范数: ||X||0=∑ni=0|Xi|||X||0=∑i=0n|Xi|||X||_0 = \sum_{i=0}^n|X_i|

L1L1L1 范数是向量中各个元素绝对值之和,也被称作“Lasso regularization”(稀疏规则算子)。



L2L2L2范数: ||X||2=∑ni=0X2i−−−−−−−√||X||2=∑i=0nXi2||X||_2 =\sqrt{\sum_{i=0}^nX_i^2}

Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方。
我们让L2L2L2的规则化项||W||2||W||2||W||_2最小,可以使WWW中的每个元素都很小,但不像L1" role="presentation" style="position: relative;">L1L1L1范数那样使元素等于0,而是接近于零。越小的参数说明模型越简单,越简单的模型越不容易产生过拟合的现象。即通过L2范数可以防止过拟合,提升模型的泛化能力。



我们给目标函数加上一个正则化项,那么我们需要优化的目标函数就变成了以下这样一个式子。

当我们最小化这个目标函数时,前一项的参数 WWW会变大,后一项正则化项的参数W" role="presentation" style="position: relative;">WWW会变小,取个折中,参数 WW<script type="math/tex" id="MathJax-Element-80">W</script>不会变的很大or很小,即加入正则化项一定程度上避免了过拟合的发生。



本文大部分内容参考知乎和CSDN,下面已附带链接,只是为了方便自己以后查阅,若涉及侵权,请告知,谢谢。
参考:
https://www.zhihu.com/question/20924039
https://blog.csdn.net/zouxy09/article/details/24971995
https://blog.csdn.net/yinyu19950811/article/details/78243801
https://www.zhihu.com/question/20473040

机器学习中的范数理解(L0,L1,L2)相关推荐

  1. 机器学习中的范数规则化之L0、L1、L2范数

    我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正. 本篇博客主要是为了解决机器学习中的过拟合 ...

  2. 机器学习中的范数规则化之(一)L0、L1与L2范数

    机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 参考资料:<机器学习中常常提到的正则化到底是什么意思? ...

  3. l2范数求导_机器学习中的范数规则化之(一)L0、L1与L2范数 非常好,必看

    机器学习中的范数规则化之(一)L0.L1与L2范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题 ...

  4. Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数

    L0, L1, L2, L2,1范数 机器学习中的范数定义不同于数学中的定义. 对于向量xxx (x=[x1,x2,x3,...xm]x=[x_1,x_2,x_3,... x_m]x=[x1​,x2​ ...

  5. 机器学习基础-23:矩阵理论(L0/L1/L2范数等)

    机器学习基础-23:矩阵理论(L0/L1/L2范数等) 机器学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读! 线性代数是数学的一个分支,广泛应用于科学和工程领域.线性代数和矩阵理论是机器学 ...

  6. 正则化与L0,L1,L2范数简介

    参考:机器学习中的范数规则化之(一)L0.L1与L2范数 1. 常见的范数 1.1 L0 范数 向量中非零元素的个数,即稀疏度,适合稀疏编码,特征选择. 1.2 L1 范数 又叫曼哈顿距离或最小绝对误 ...

  7. 浅谈L0,L1,L2范数及其应用

    原文传送门:浅谈L0,L1,L2范数及其应用 浅谈L0,L1,L2范数及其应用 在线性代数,函数分析等数学分支中,范数(Norm)是一个函数,其赋予某个向量空间(或矩阵)中的每个向量以长度或大小.对于 ...

  8. 机器学习中的范数规则化之(二)核范数与规则项参数选择

    机器学习中的范数规则化之(二)核范数与规则项参数选择 zouxy09@qq.com http://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮 ...

  9. 范数和机器学习中的范数

    什么是范数? 我们知道距离的定义是一个宽泛的概念,只要满足非负.自反.三角不等式就可以称之为距离.范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则.有时候为了便于理解,我们可以把范数 ...

最新文章

  1. Nginx 配置中一个不起眼字符 “/“ 的巨大作用
  2. C#/.NET基于Topshelf创建Windows服务的守护程序作为服务启动的客户端桌面程序不显示UI界面的问题分析和解决方案
  3. 在线实时大数据平台Storm集成redis开发(分布锁)
  4. linux之vim操作快速跳到下一个空格和上一个空格命令
  5. 时富金融:八年左右后内地房价会下降
  6. Java设计模式学习总结(16)——行为型模式之命令模式
  7. 一公顷等于多少平方米
  8. 获取响应里面的cookie的方法
  9. POJ 2142 The Balance ★ (不定方程 ax+by=c 的|x|+|y|最小解)
  10. 学习总结5.0 Linux tar打包命令
  11. grpc系列1-K8S集群,VIP,grpc._channel._InactiveRpcError connection reset by peer解决方案 Paddleserving服务化部署
  12. 什么是手机号码姓名实名认证 手机号码查姓名 手机号实名认证API
  13. CVPR 2022 | 未知目标检测模块STUD:学习视频中的未知目标
  14. 计算机技术水平考核试卷带答案,中小学教师计算机技术水平考核试卷笔试题带答案...
  15. 2009年北京航空航天大学上机题
  16. 文化的影响:整体感知与分析感知
  17. ECG心电信号处理:初识ECG
  18. 斯坦福NLP名课带学详解 | CS224n 第10讲 - NLP中的问答系统(NLP通关指南·完结)
  19. Aggregation level-聚集等级/BPC/ input ready query
  20. 合成地震记录的matlab程序,合成地震记录的matlab程序

热门文章

  1. 多人网络游戏服务器开发基础学习笔记 II: 帧同步 | 游戏客户端预测原理分析 | FPS 游戏状态同步
  2. 中国 省会 地级市 经纬度 city array
  3. 计统大作业Hello P2P
  4. HTML5制作99乘法表
  5. 由xubuntu桌面系统恢复到ubuntu桌面系统
  6. PPT2007将Excel图表转为图片
  7. 团队组成五个基本要素_团队的5个基本构成要素(5P):目标、定位、计划、职权、人...
  8. web一阶段 day14
  9. 1.1.3 操作系统的发展与分类(手工操作阶段、批处理阶段、分时操作系统、实时操作系统、其它操作系统)
  10. 【苹果相册推】您只需使用证书并发布证书描述文件(无需发布)上传PEM范例文件