L1和L2 复习问题

L1和L2

L2正则化，为什么L2正则化可以防止过拟合？L1正则化是啥？

https://editor.csdn.net/md/?articleId=106009362

“为什么所有这些都有助于减少过度拟合的问题？”

请考虑绝对值和平方函数的图，其中绝对值表示在L1期间执行的运算，而在L2正则化期间执行的运算平方。

L1和L2正则化
当我们用正则项Ω最小化损失函数时，每个权重都被“拉”为零。请考虑位于上述曲线之一上的每个权重参数，这些权重参数正比于正则化率α的“重力”。

在L1正则化过程中，权重值与其绝对值成正比地趋近于零-它们位于红色曲线上。
在L2正则化过程中，权重值将按其平方值-蓝色曲线成比例地拉向零。

起初，L2似乎更严重，但要注意的是，接近零时，会出现另一种情况：

在L2正则化的情况下，我们的权重参数会减小，但不一定变为零，因为曲线在零附近趋于平坦。另一方面，在L1正则化期间，权重始终始终被迫逼近零。

我们也可以对此采取不同的数学观点。

对于L2，您可以考虑求解一个方程，其中权重平方值的总和等于或小于值s。 s是存在于正则项α的每个可能值的常数。对于仅两个权重值W1和W2，该方程式如下所示：W1²+W2²≤s

另一方面，可以将L1正则化视为权重值的模和小于或等于值s的等式。它将类似于以下表达式：| W1 | + | W2 | ≤秒

基本上，为L1和L2正则化引入的方程是约束函数，我们可以将其可视化：

岭和lasso回归
左图显示了L1正则化的约束函数（绿色区域），右图显示了L2正则化的约束函数。红色椭圆是梯度下降过程中使用的损失函数的轮廓。在轮廓的中心有一组最佳权重，其损失函数具有全局最小值。

在L1和L2正则化的情况下，W1和W2的估计值由椭圆与绿色约束区域相交的第一点给出。

由于L2正则化具有圆形约束区域，因此通常不会在轴上发生交点，因此W1和W2的估算值将全部为非零值。

在L1的情况下，约束区域具有带角的菱形形状。因此，损失函数的轮廓通常会在轴上与约束区域相交。然后发生这种情况，估计之一（W1或W2）将为零。

在高维空间中，许多权重参数将同时等于零。
这说明了岭回归的一个明显缺点：模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0，但永不达到 0。也就是说，最终的模型会包含所有的预测因子。但是，在 Lasso 中，如果将调整因子 λ 调整得足够大，L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此，Lasso 可以进行变量选择，产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中，于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型；换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。

深度学习里面怎么防止过拟合？（data aug；dropout；multi-task learning）如何防止过拟合，我跟他列举了4中主要防止过拟合方法：Early Stopping、数据集扩充、正则化法以及dropout，还详细跟他说了每种方法原理及使用的场景，并解释我在哪些项目里具体用到了这些方法，

DropOut
神经网络正则化的另一种非常流行的方法是DropOut。这个想法实际上非常简单-我们神经网络的每个单元（属于输出层的单元除外）都具有在计算中被暂时忽略的概率p。超级参数p称为丢失率，通常将其默认值设置为0.5。然后，在每次迭代中，我们根据分配的概率随机选择掉落的神经元。结果，每次我们使用较小的神经网络时。下面的可视化图显示了遭受丢失的神经网络的示例。我们可以看到在每次迭代中如何停用第二层和第四层的随机神经元。

这种方法的有效性非常令人惊讶并且违反直觉。毕竟，在现实世界中，如果工厂的经理每天随机选择雇员并将其送回家，那么工厂的生产率就不会提高。让我们从单个神经元的角度来看这个问题。由于在每次迭代中都可以随机消除任何输入值，因此神经元会尝试平衡风险，而不偏爱任何功能。结果，权重矩阵中的值变得更均匀地分布。该模型希望避免提出的解决方案不再有意义的情况，因为该解决方案不再具有来自非活动功能的信息。

earlier stop

在实践中，每隔几次迭代对我们的模型进行抽样并检查其与验证集的配合情况。将保存比以前的所有模型性能更好的每个模型。我们还设置了一个限制，即没有记录进度的最大迭代次数。当超过该值时，学习停止。尽管尽早停止可以大大改善我们模型的性能，但实际上，它的应用使模型优化的过程大大复杂化。很难与其他常规技术结合使用。

机器学习中使用「正则化来防止过拟合」到底是一个什么原理？为什么正则化项就可以防止过拟合？https://www.zhihu.com/question/20700829

机器学习中常常提到的正则化到底是什么意思？https://www.zhihu.com/question/20924039

什么是正则项，L1范式，L2范式区别是什么，各自用在什么地方？L1 与 L2 的区别以及如何解决 L1 求导困难；

https://www.cnblogs.com/nxf-rabbit75/p/9954394.html#auto-id-20

L1正则为什么能让系数变为0？L1正则怎么处理0点不可导的情形？（近端梯度下降）
参见我的另一篇详细文章

L0，L1，L2正则化(如果能推导绝对是加分项，一般人最多能画个等高线，L0是NP问题)其实上面的这些问题基本都能在《李航：统计学习方法》《周志华：机器学习》里面找到，能翻个4，5遍基本就无压力了

避免过拟合策略、如何提高模型泛化能力、L1与L2正则区别，优缺点、

生成式，判别式模型、深度学习这块了解多少、

父亲有两个孩子，孩子A和孩子B。孩子A具有特殊的性格，但他可以深入学习所有东西。小孩子B具有特殊的性格，而他只能学习所见事物之间的差异。
晴天，父亲将两个孩子（孩子A和孩子B）带到动物园。这个动物园很小，只有狮子和大象两种动物。他们从动物园出来后，父亲给他们看了一只动物，问他们“这只动物是狮子还是大象？”
孩子A，孩子突然根据他在动物园内看到的东西，在纸上画了狮子和大象的图像。他将这两个图像与之前站立的动物进行了比较，并根据与图像和动物最接近的匹配进行了回答，他回答：“动物是狮子”。
根据所学的不同属性，孩子B仅知道差异，他回答：“动物是狮子”。
在这里，我们可以看到他们俩都在寻找动物，但是学习的方式和寻找答案的方式完全不同。在机器学习中，我们通常将孩子A称为生成模型，将孩子B称为判别模型。
通常，判别模型‌为类之间的决策边界建模。生成模型‌显式地模拟每个类的实际分布。最后，他们俩都在预测条件概率P（动物|特征）。但是，两种模型都学习不同的概率。
生成模型‌学习联合概率分布p（x，y）。它借助贝叶斯定理预测条件概率。判别模型学习条件概率分布p（y | x）。这两种模型通常用于有监督的学习问题中。

如何克服过拟合，欠拟合
之前文章写到过

https://editor.csdn.net/md/?articleId=105983507

L1正则为什么可以把系数压缩成0，坐标下降法的具体实现细节

https://www.coursera.org/lecture/ml-regression/coordinate-descent-uHBq7

首先确定目标：

f是凸且光滑的

当n大时，计算完整的梯度，这意味着梯度下降不一定总是有效的。观察到对于非约束问题，当且仅当∇f（x ∗）= 0，即∇if（x ∗）= 0，∀i= 1时，x ∗是最优解。。。，n。为了找到最佳解决方案，沿着每个坐标方向进行搜索是有意义的。如果在某个点上目标并非在每个坐标方向上都在减小，那么我们已经达到了最佳状态。这激发了所谓的坐标最小化算法，或者也称为坐标下降算法。
坐标下降算法是无导数优化方法。

坐标最小化坐标下降算法的总体思路如下所示

目标函数值不减：f（x（0））≥f（x（1））≥…
如果f是凸且光滑的，则算法收敛至全局最小值（最优解）
如果f是非凸的或什至不是平滑的，则该算法可能根本不会收敛。示例：
f（x，y）= | x + y | +3 | x−y |。如果以（x，y）=（-1，-1）开始，算法将不会移动。

假设算法在非平滑情况下位于拐角点；然后可以尝试两个方向，如红色箭头所示。但是，沿着这两个方向的每一步都会增加目标函数的值，因此即使两步之和使算法更接近最优值，算法也不会采取任何措施。对于右侧的平滑情况，我们看到了严格的收敛。
该框架可以被概括用于块更新，例如。您可以将决策变量拆分为多个块，然后可以循环更新每个块。这通常称为块坐标下降。在我们有两个拖曳块的情况下，块坐标下降只是减少到交替最小化。
为什么L1正则可以实现参数稀疏，而L2正则不可以？为什么L1很多系数可以被压缩为0，L2是被压缩至接近于0？

对于稀疏模型，我们考虑一个模型，其中许多权重为0。因此，让我们对L1正则化如何更有可能创建0权重进行推理。

考虑一个由权重（

L1和L2 复习问题相关推荐

深入理解L0，L1和L2正则化
正则化技术是机器学习中常用的技术,一般是用来解决过拟合问题的.为什么范数可以作为机器学习的正则化项?为什么L1正则化可以用来进行特征选择的工作?为什么正则化可以解决过拟合问题?本篇博客从机器学习中为什 ...
机器学习中正则化项L1和L2的直观理解
文章目录正则化(Regularization) 稀疏模型与特征选择的关系 L1和L2正则化的直观理解正则化和特征选择的关系为什么梯度下降的等值线与正则化函数第一次交点是最优解? L2正则化和过拟 ...
机器学习中的L1与L2正则化图解！
今日锦囊特征锦囊:今天一起搞懂机器学习里的L1与L2正则化今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念, ...
比较全面的L1和L2正则化的解释
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|机器学习算法那些事前言前段时间写了一篇文章<深入 ...
R语言构建xgboost模型：使用xgboost构建广义线性模型（GLM）：使用gblinear算法拟合线性模型并配置L1和L2正则化
R语言构建xgboost模型:使用xgboost构建广义线性模型(GLM):使用gblinear算法拟合线性模型并配置L1和L2正则化目录
正则化方法：L1和L2 regularization、数据集扩增、dropout
https://www.toutiao.com/a6704868049352131080/ 为什么要使用正则化我们先回顾一下房价预测的例子.以下是使用多项式回归来拟合房价预测的数据: 正则化方法:防 ...
ppct各代表什么_开关背面L、L1、L2各代表什么？火线，零线，地线怎样接？
无论在什么时候,只要是与电相关的东西,字母"L"都代表火线,"N"都代表零线--地线是用一个长得很像WIFI信号的标志来表示示的▼ 开关插座在接线时也遵循这一原 ...
缓存大小_CPU中的L1，L2和L3缓存之间的区别：缓存是如何工作的？
每个现代处理器都具有少量的高速缓存.在过去的几十年中,缓存体系结构变得越来越复杂:CPU缓存级别已增加到三个级别:L1,L2和L3,每个块的大小都已增加,并且缓存关联性也发生了一些变化. 但是,在我们 ...
L1、L2正则化详解
正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束.调整或缩小.也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险. 一. ...

L1和L2 复习问题

L1和L2 复习问题相关推荐

最新文章

热门文章