L1L2正则化图形解读
L1L2正则化图形解读
- 前提假设
- L1正则
- L2正则
L1L2正则化图形解读
在学习L1、L2正则化的过程中一定看过下面这两幅图,看过之后确实懂了L1和L2正则化的区别,无非是一个相交在坐标轴,一个不在坐标轴。但这一圈圈等高线怎么来的,L1正则化一定相交在坐标轴吗?为什么会相交在坐标轴呢?本篇文章从头开始画出这幅图,并介绍其由来。
前提假设
由该图的横纵坐标可以看出,损失函数有w1、w2w_1、w_2w1、w2两个参数。
本文模型就假定使用的是二元线性回归:y^=w1x1+w2x2\hat{y} = w_1x_1+w_2x_2y^=w1x1+w2x2
损失函数为平方差损失 J0=(y−y^)2=(y−w1x1−w2x2)2J_0=(y-\hat{y})^2=(y-w_1x_1-w_2x_2)^2J0=(y−y^)2=(y−w1x1−w2x2)2
L1正则项为:∑w∣w∣=∣w1∣+∣w2∣\sum_{w}{|w|} = |w_1| + |w_2|∑w∣w∣=∣w1∣+∣w2∣
总损失为: J=J0+α∑w∣w∣J=J_0+\alpha\sum_{w}{|w|}J=J0+α∑w∣w∣,α\alphaα为惩罚项,代表正则所占比重
L1正则
J0J_0J0损失值等高线形成过程
(1)迭代中或初始时任一组(w1,w2)(w_1,w_2)(w1,w2),假设在第一象限,其他情况同理。
(2)找到其他组(w1,w2)(w_1,w_2)(w1,w2)使得J0J_0J0值相等。
(3)将J0J_0J0值相等的无数组(w1,w2)(w_1,w_2)(w1,w2)连成线,称作等高线,等高线中心的点是使J0J_0J0值为0的点,通常不存在该情况。
(4)画出不同的J0J_0J0值组成的等高线。
L1正则项等高线形成过程
(1)迭代中或初始时任一组(w1,w2)(w_1,w_2)(w1,w2),假设在第一象限,其他情况同理。
(2)找到其他组(w1,w2)(w_1,w_2)(w1,w2)使得∑w∣w∣\sum_{w}{|w|}∑w∣w∣值相等。
(3)将∑w∣w∣\sum_{w}{|w|}∑w∣w∣值相等的无数组(w1,w2)(w_1,w_2)(w1,w2)连成线,称作等高线。
(4)画出不同的∑w∣w∣\sum_{w}{|w|}∑w∣w∣值组成的等高线。
总损失形成过程
(1)假设初始点为(w1,w2)(w_1,w_2)(w1,w2),画出该点所在的J0J_0J0值等高线和正则项等高线,初始点各种相交情况都有可能发生。
(2)正则项L1=∣w1∣+∣w2∣L1=|w_1| + |w_2|L1=∣w1∣+∣w2∣,以w1w_1w1为例,L1(w1)=∣w1∣L1(w_1)=|w_1|L1(w1)=∣w1∣
- 图2.1、2.2分别为L1(w1)L1(w_1)L1(w1)与∂L1(w1)∂w1\frac{\partial L1(w_1)}{\partial w_1}∂w1∂L1(w1)的坐标图,可以看出在第一象限w1w_1w1导数恒为1,由梯度下降公式w1=w1−lr∗gradw_1=w_1-lr*gradw1=w1−lr∗grad,会使得正则项等高线往靠近原点方向移动,最终会与J0J_0J0等高线相切,或者说在相切时才能使得正则项和J0J_0J0损失值同时最小。
(3)惩罚项α\alphaα可看做正则项所占的比重,α\alphaα越大,正则项所贡献的损失值越大,正则梯度值越大,越会往靠近原点方向移动,最终达到一个平衡点。平衡点即总损失最小时的参数所在点。
注:正则项等高线与J0J_0J0等高线并不总是相切在坐标轴,只是由于在迭代过程中参数w1,w2w_1,w_2w1,w2倾向于向零移动,到达零后停止,所以最终平衡态更容易停在坐标轴。这就造成了L1正则使得模型参数稀疏性的现象,但这并不是一个坏处。
L2正则
L2正则图的形成原理与L1正则相同,区别只是L2=∑ww2=w12+w22L2=\sum_{w}{w^2} = w_1^2 + w_2^2L2=∑ww2=w12+w22,其导数在靠近0时变得很小,在迭代时不容易将其更新成0,所以平衡态通常相交在正则项等高线的边上。
L1L2正则化图形解读相关推荐
- 基因组浏览器IGV的安装和图形解读
IGV (Itegrative Genomics Viewer)是一款功能强大的综合性基因组学可视化工具,能够将基因组的变异情况进行可视化,因此广泛应用于基因组学的研究中.IGV的开发得到了美国国立癌 ...
- 深度学习的权重衰减是什么_【深度学习理论】一文搞透Dropout、L1L2正则化/权重衰减...
前言 本文主要内容--一文搞透深度学习中的正则化概念,常用正则化方法介绍,重点介绍Dropout的概念和代码实现.L1-norm/L2-norm的概念.L1/L2正则化的概念和代码实现- 要是文章看完 ...
- “用于无监督图像生成解耦的正交雅可比正则化”论文解读
Tikhonov regularization terms https://blog.csdn.net/jiejinquanil/article/details/50411617 本文是对博客http ...
- L1L2正则化的选择
首先了解范数: 范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小.范数的一般化定义:对实数p>=1, 范数定义如下: L0范数 表示非零元素的个数,希望参数中的大部分元素是0,希望参数是 ...
- 为什么正则化可以起到对模型容量进行控制_论文解读 | 基于正则化图神经网络的脑电情绪识别...
©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言论文动机 现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题:1. 脑电图信号的拓扑结构 ...
- 论文解读 | 基于正则化图神经网络的脑电情绪识别
©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言 论文动机 现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题: 1. 脑电图信号的拓 ...
- Paper:《Graph Neural Networks: A Review of Methods and Applications—图神经网络:方法与应用综述》翻译与解读
Paper:<Graph Neural Networks: A Review of Methods and Applications-图神经网络:方法与应用综述>翻译与解读 目录 < ...
- 梯度消失、梯度爆炸、过拟合问题之神经网络应对方案:数据预处理、批量归一化、非饱和激活函数、梯度缩放和梯度裁剪、权重初始化、提前终止、集成学习、l1l2、Dropout
数据预处理.批量归一化Batch Normalization.非饱和激活函数.梯度缩放(Gradient Scaling)和梯度裁剪(Gradient Clipping).权重初始化(Xavier+H ...
- 机器学习之L1正则化和L2正则化(附源码解析)
前言 今天还是机器学习的基础知识内容,也是最基础的哈.首先说一下什么是正则化,其实它就是一个减少方差的策略.那么什么是方差呢?在这里也引入一个和方差相辅相成的概念--偏差. 偏差度量了学习算法的期望预 ...
最新文章
- c语言中不能表示的整型常量进制,C语言中整型常量的表示方法
- 安卓双摄像头录像_android开发之调用手机的摄像头使用MediaRecorder录像并播放_Android_脚本之家...
- Quartz 在 Spring 中如何动态配置时间--转
- 作为前端,你不得不知道的SEO
- CSMA/CD工作原理
- vi/vim多行注释和取消注释
- HttpReports 2.0 发布了 !!!
- 操作系统内存管理--简单、页式、段式、段页式
- domino流程图_OA实施工程师一线解读Java与Domino优劣
- Java的native方法java.lang.UnsatisfiedLinkError
- 贪心法—LeetCode 452 用最少数量的箭引爆气球
- AlphaGo实力远超对手
- 【SQL基础】SQL增删改查基本语句
- java jshelllink_Jshell使用
- 给js对象定义属性的方法
- rms 公式 有效值_有效值、真有效值、基波有效值、全有效值概念辨析
- 三代UHS超高速SD卡
- 卷积神经网络 (CNN) 基本原理和公式
- dz社区模板源码手机自适应
- 【方向盘】使用IDEA的60+个快捷键分享给你,权为了提效(视窗、选择篇)
热门文章
- Linux制作网页用什么,linux网页应该怎样制作?
- Strapi-API服务器 超详细配置使用攻略
- kvm切换器是什么?
- java处理word公式(wmf格式转换成svg)(svg格式转换成png)
- Windows7任务栏下面的图标不见了,去“打开或关闭系统图标”发现它默认关闭了且呈灰色状态,怎么打开??
- 今天给大家分享使用Scratch做飞不出去的醉酒蝴蝶!
- 当你按下「随机播放」时,QQ音乐和网易云们都做了什么?
- 利用POI生成带表头的Excel
- 成为构架师必知的Vue目录结构和构建规范,恩师王红元的蘑菇街项目❤
- IntelliJ IDEA 字体大小缩放式更改的快捷键设置(很实用!)