L1和L2

L2正则化,为什么L2正则化可以防止过拟合?L1正则化是啥?

https://editor.csdn.net/md/?articleId=106009362

“为什么所有这些都有助于减少过度拟合的问题?”

请考虑绝对值和平方函数的图,其中绝对值表示在L1期间执行的运算,而在L2正则化期间执行的运算平方。

L1和L2正则化
当我们用正则项Ω最小化损失函数时,每个权重都被“拉”为零。请考虑位于上述曲线之一上的每个权重参数,这些权重参数正比于正则化率α的“重力”。

在L1正则化过程中,权重值与其绝对值成正比地趋近于零-它们位于红色曲线上。
在L2正则化过程中,权重值将按其平方值-蓝色曲线成比例地拉向零。

起初,L2似乎更严重,但要注意的是,接近零时,会出现另一种情况:


在L2正则化的情况下,我们的权重参数会减小,但不一定变为零,因为曲线在零附近趋于平坦。另一方面,在L1正则化期间,权重始终始终被迫逼近零。

我们也可以对此采取不同的数学观点。

对于L2,您可以考虑求解一个方程,其中权重平方值的总和等于或小于值s。 s是存在于正则项α的每个可能值的常数。对于仅两个权重值W1和W2,该方程式如下所示:W1²+W2²≤s

另一方面,可以将L1正则化视为权重值的模和小于或等于值s的等式。它将类似于以下表达式:| W1 | + | W2 | ≤秒

基本上,为L1和L2正则化引入的方程是约束函数,我们可以将其可视化:

岭和lasso回归
左图显示了L1正则化的约束函数(绿色区域),右图显示了L2正则化的约束函数。红色椭圆是梯度下降过程中使用的损失函数的轮廓。在轮廓的中心有一组最佳权重,其损失函数具有全局最小值。

在L1和L2正则化的情况下,W1和W2的估计值由椭圆与绿色约束区域相交的第一点给出。

由于L2正则化具有圆形约束区域,因此通常不会在轴上发生交点,因此W1和W2的估算值将全部为非零值。

在L1的情况下,约束区域具有带角的菱形形状。因此,损失函数的轮廓通常会在轴上与约束区域相交。然后发生这种情况,估计之一(W1或W2)将为零。

在高维空间中,许多权重参数将同时等于零。
这说明了岭回归的一个明显缺点:模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0,但永不达到 0。也就是说,最终的模型会包含所有的预测因子。但是,在 Lasso 中,如果将调整因子 λ 调整得足够大,L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此,Lasso 可以进行变量选择,产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。

深度学习里面怎么防止过拟合?(data aug;dropout;multi-task learning)如何防止过拟合,我跟他列举了4中主要防止过拟合方法:Early Stopping、数据集扩充、正则化法以及dropout,还详细跟他说了每种方法原理及使用的场景,并解释我在哪些项目里具体用到了这些方法

DropOut
神经网络正则化的另一种非常流行的方法是DropOut。这个想法实际上非常简单-我们神经网络的每个单元(属于输出层的单元除外)都具有在计算中被暂时忽略的概率p。超级参数p称为丢失率,通常将其默认值设置为0.5。然后,在每次迭代中,我们根据分配的概率随机选择掉落的神经元。结果,每次我们使用较小的神经网络时。下面的可视化图显示了遭受丢失的神经网络的示例。我们可以看到在每次迭代中如何停用第二层和第四层的随机神经元。

这种方法的有效性非常令人惊讶并且违反直觉。毕竟,在现实世界中,如果工厂的经理每天随机选择雇员并将其送回家,那么工厂的生产率就不会提高。让我们从单个神经元的角度来看这个问题。由于在每次迭代中都可以随机消除任何输入值,因此神经元会尝试平衡风险,而不偏爱任何功能。结果,权重矩阵中的值变得更均匀地分布。该模型希望避免提出的解决方案不再有意义的情况,因为该解决方案不再具有来自非活动功能的信息。

earlier stop

在实践中,每隔几次迭代对我们的模型进行抽样并检查其与验证集的配合情况。将保存比以前的所有模型性能更好的每个模型。我们还设置了一个限制,即没有记录进度的最大迭代次数。当超过该值时,学习停止。尽管尽早停止可以大大改善我们模型的性能,但实际上,它的应用使模型优化的过程大大复杂化。很难与其他常规技术结合使用。

机器学习中使用「正则化来防止过拟合」到底是一个什么原理?为什么正则化项就可以防止过拟合?https://www.zhihu.com/question/20700829

机器学习中常常提到的正则化到底是什么意思?https://www.zhihu.com/question/20924039

什么是正则项,L1范式,L2范式区别是什么,各自用在什么地方?L1 与 L2 的区别以及如何解决 L1 求导困难;

https://www.cnblogs.com/nxf-rabbit75/p/9954394.html#auto-id-20

L1正则为什么能让系数变为0?L1正则怎么处理0点不可导的情形?(近端梯度下降)
参见我的另一篇详细文章

L0,L1,L2正则化(如果能推导绝对是加分项,一般人最多能画个等高线,L0是NP问题)其实上面的这些问题基本都能在《李航:统计学习方法》《周志华:机器学习》里面找到,能翻个4,5遍基本就无压力了

避免过拟合策略、如何提高模型泛化能力、L1与L2正则区别,优缺点、

生成式,判别式模型、深度学习这块了解多少、

父亲有两个孩子,孩子A和孩子B。孩子A具有特殊的性格,但他可以深入学习所有东西。小孩子B具有特殊的性格,而他只能学习所见事物之间的差异。
晴天,父亲将两个孩子(孩子A和孩子B)带到动物园。这个动物园很小,只有狮子和大象两种动物。他们从动物园出来后,父亲给他们看了一只动物,问他们“这只动物是狮子还是大象?”
孩子A,孩子突然根据他在动物园内看到的东西,在纸上画了狮子和大象的图像。他将这两个图像与之前站立的动物进行了比较,并根据与图像和动物最接近的匹配进行了回答,他回答:“动物是狮子”。
根据所学的不同属性,孩子B仅知道差异,他回答:“动物是狮子”。
在这里,我们可以看到他们俩都在寻找动物,但是学习的方式和寻找答案的方式完全不同。在机器学习中,我们通常将孩子A称为生成模型,将孩子B称为判别模型。
通常,判别模型‌为类之间的决策边界建模。生成模型‌显式地模拟每个类的实际分布。最后,他们俩都在预测条件概率P(动物|特征)。但是,两种模型都学习不同的概率。
生成模型‌学习联合概率分布p(x,y)。它借助贝叶斯定理预测条件概率。判别模型学习条件概率分布p(y | x)。这两种模型通常用于有监督的学习问题中。

在数学中
‌训练分类器涉及估算f:X-> Y或P(Y | X)
生成分类器
假定P(Y),P(X | Y)的一些函数形式
直接从训练数据估计P(X | Y),P(Y)的参数
使用贝叶斯规则计算P(Y | X)
区分性分类器
假设P(Y | X)的一些函数形式
直接从训练数据估计P(Y | X)的参数
例子:
生成分类器
‌朴素贝叶斯
贝叶斯网络
马尔可夫随机场
Mar隐马尔可夫模型(HMM)
区分性分类器
‌逻辑回归
标量向量机
neural传统神经网络
neighbor最近的邻居
条件随机场(CRF)

如何克服过拟合,欠拟合
之前文章写到过

https://editor.csdn.net/md/?articleId=105983507

L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节

https://www.coursera.org/lecture/ml-regression/coordinate-descent-uHBq7

首先确定目标:


f是凸且光滑的

当n大时,计算完整的梯度,这意味着梯度下降不一定总是有效的。 观察到对于非约束问题,当且仅当∇f(x ∗)= 0,即∇if(x ∗)= 0,∀i= 1时,x ∗是最优解。 。 。 ,n。 为了找到最佳解决方案,沿着每个坐标方向进行搜索是有意义的。 如果在某个点上目标并非在每个坐标方向上都在减小,那么我们已经达到了最佳状态。 这激发了所谓的坐标最小化算法,或者也称为坐标下降算法。
坐标下降算法是无导数优化方法。

坐标最小化坐标下降算法的总体思路如下所示

  1. 目标函数值不减:f(x(0))≥f(x(1))≥…
  2. 如果f是凸且光滑的,则算法收敛至全局最小值(最优解)
  3. 如果f是非凸的或什至不是平滑的,则该算法可能根本不会收敛。 示例:
    f(x,y)= | x + y | +3 | x−y |。如果以(x,y)=(-1,-1)开始,算法将不会移动。


假设算法在非平滑情况下位于拐角点;然后可以尝试两个方向,如红色箭头所示。但是,沿着这两个方向的每一步都会增加目标函数的值,因此即使两步之和使算法更接近最优值,算法也不会采取任何措施。对于右侧的平滑情况,我们看到了严格的收敛。
该框架可以被概括用于块更新,例如。您可以将决策变量拆分为多个块,然后可以循环更新每个块。这通常称为块坐标下降。在我们有两个拖曳块的情况下,块坐标下降只是减少到交替最小化。
为什么L1正则可以实现参数稀疏,而L2正则不可以?为什么L1很多系数可以被压缩为0,L2是被压缩至接近于0?

对于稀疏模型,我们考虑一个模型,其中许多权重为0。因此,让我们对L1正则化如何更有可能创建0权重进行推理。

考虑一个由权重(

L1和L2 复习问题相关推荐

  1. 深入理解L0,L1和L2正则化

    正则化技术是机器学习中常用的技术,一般是用来解决过拟合问题的.为什么范数可以作为机器学习的正则化项?为什么L1正则化可以用来进行特征选择的工作?为什么正则化可以解决过拟合问题?本篇博客从机器学习中为什 ...

  2. 机器学习中正则化项L1和L2的直观理解

    文章目录 正则化(Regularization) 稀疏模型与特征选择的关系 L1和L2正则化的直观理解 正则化和特征选择的关系 为什么梯度下降的等值线与正则化函数第一次交点是最优解? L2正则化和过拟 ...

  3. 机器学习中的L1与L2正则化图解!

    今日锦囊 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念, ...

  4. 比较全面的L1和L2正则化的解释

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|机器学习算法那些事 前言 前段时间写了一篇文章<深入 ...

  5. R语言构建xgboost模型:使用xgboost构建广义线性模型(GLM):使用gblinear算法拟合线性模型并配置L1和L2正则化

    R语言构建xgboost模型:使用xgboost构建广义线性模型(GLM):使用gblinear算法拟合线性模型并配置L1和L2正则化 目录

  6. 正则化方法:L1和L2 regularization、数据集扩增、dropout

    https://www.toutiao.com/a6704868049352131080/ 为什么要使用正则化 我们先回顾一下房价预测的例子.以下是使用多项式回归来拟合房价预测的数据: 正则化方法:防 ...

  7. ppct各代表什么_开关背面L、L1、L2各代表什么?火线,零线,地线怎样接?

    无论在什么时候,只要是与电相关的东西,字母"L"都代表火线,"N"都代表零线--地线是用一个长得很像WIFI信号的标志来表示示的▼ 开关插座在接线时也遵循这一原 ...

  8. 缓存大小_CPU中的L1,L2和L3缓存之间的区别:缓存是如何工作的?

    每个现代处理器都具有少量的高速缓存.在过去的几十年中,缓存体系结构变得越来越复杂:CPU缓存级别已增加到三个级别:L1,L2和L3,每个块的大小都已增加,并且缓存关联性也发生了一些变化. 但是,在我们 ...

  9. L1、L2正则化详解

    正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束.调整或缩小.也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险. 一. ...

最新文章

  1. typora高级设置字体_Mint(Linux)系统设置优化及其常用软件安装笔记
  2. mysql 列目录_Linux ls命令:查看目录下文件
  3. iOS--viewController
  4. Linux高性能服务器编程
  5. ethtool用法 linux_Linux命令之Ethtool用法详解
  6. 设备管理器android感叹号,设备管理器其他设备感叹号
  7. 推荐一款接口自动化测试数据提取神器 JSonPath
  8. java day35【Bootstrap】
  9. SQL Server 2014 安装与SQL语言学习笔记(一)
  10. 手机序列号和IMEI号的区别
  11. android opengl 坐标系,Android OpenGL ES从白痴到入门(五):妖艳的着色器
  12. 蓝桥杯 摔手机----耐摔指数
  13. ubuntu--ogv格式转mp4格式
  14. 22年上半年网络工程师考前知识集锦
  15. asp.net mvc 网站生成二维码
  16. Atcoder ARC101 Ribbons on Tree
  17. 基于单片机的计算器系统设计(#0404)
  18. 面试官都爱问的java模式之装饰模式!!!
  19. usb host 驱动 - device 拔插
  20. vue项目高德地图Mixed Content: The page at ‘https://****.com/cockpit/‘ was loaded over HTTPS, b

热门文章

  1. WSL无法访问网络的解决办法
  2. 基于python Flask搭建mockServer服务
  3. html表格美化模板,JavaScript + CSS 美化出的条纹表格样式
  4. 基于依存句法分析的开放式中文实体关系抽取
  5. 基于NSGA-II算法的研究和改进
  6. 线程同步与线程同步的必要性
  7. 爬虫中requests模块中session的实战应用
  8. Esxi5.5添加4T报错的问题
  9. 微信服务器接口配置程序
  10. SAP 检验批决策增强