理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布
L1、L2正则化来源推导
L1L2的推导可以从两个角度:
- 带约束条件的优化求解(拉格朗日乘子法)
- 贝叶斯学派的:最大后验概率
1.1 基于约束条件的最优化
对于模型权重系数w的求解释通过最小化目标函数实现的,也就是求解:
首先,模型的复杂度可以用VC来衡量。通常情况下,模型VC维与系数w的个数成线性关系:即:
w数量越多,VC越大,模型越复杂
为了限制模型的复杂度,我们要降低VC,自然的思路就是降低w的数量,即:
让w向量中的一些元素为0或者说限制w中非零元素的个数。我们可以在原优化问题上加入一些优化条件:
其中约束条件中的||w||0是指L0范数,表示的是向量w中非零元素的个数,让非零元素的个数小于某一个C,就能有效地控制模型中的非零元素的个数,但是这是一个NP问题,不好解,于是我们需要做一定的“松弛”。为了达到我们想要的效果(权重向量w中尽可能少的非零项),我们不再严格要求某些权重w为0,而是要求权重w向量中某些维度的非零参数尽可能接近于0,尽可能的小,这里我们可以使用L1L2范数来代替L0范数,即:
注意哈:这里使用L2范数的时候,为了后续处理(其实就是为了优化),可以对进行平方,只需要调整C的取值即可。
然后我们利用拉式乘子法求解:
其中这里的是拉格朗日系数,>0,我们假设的最优解为,对拉格朗日函数求最小化等价于:
上面和
等价。所以我们这里得到对L1L2正则化的第一种理解:
L1正则化h 在原优化目标函数中增加约束条件
L2正则化在原优化目标函数中增加约束条件
1.2基于最大后验概率估计
在最大似然估计中,是假设权重w是未知的参数,从而求得对数似然函数(取了log):
从上式子可以看出:假设y^{i}的不同概率分布,就可以得到不同的模型。
若我们假设:
的高斯分布,我们就可以带入高斯分布的概率密度函数:
上面的C为常数项,常数项和系数不影响我们求解的解,所以我们可以令
我们就得到了Linear Regursion的代价函数。
在最大化后验概率估计中,我们将权重w看做随机变量,也具有某种分布,从而有:
同样取对数:
可以看出来后验概率函数为在似然函数的基础上增加了logP(w),P(w)的意义是对权重系数w的概率分布的先验假设,在收集到训练样本{X,y}后,则可根据w在{X,y}下的后验概率对w进行修正,从而做出对w的更好地估计。
若假设的先验分布为0均值的高斯分布,即
则有:
可以看到,在高斯分布下的效果等价于在代价函数中增加L2正则项。
若假设服从均值为0,参数为a的拉普拉斯分布,即:
则有:
可以看到,在拉普拉斯分布下logP(w)的效果等价在代价函数中增加L1正项。
故此,我们得到对于L1,L2正则化的第二种理解:
L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。
理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布相关推荐
- L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 L2 正则是机器学习常用的一种防止过拟合的方法(应该也是一道经常遇到的面试题).简单来说,它就是希望权重的 ...
- 理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇
L1.L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数 ...
- l2高斯分布_L1正则先验是Laplace分布,L2正则先验分布是高斯分布
Laplace分布 Laplace概率密度函数分布为: 一般μ的取值为0,所以形式如下: 分布的图像如下所示 可以看到Laplace分布集中在μ附近,而且b越小,数据的分布就越集中 L2正则先验分布是 ...
- L1正则和L2正则的比较分析
参考文献 1.L1正则和L2正则的比较分析详解 2.比较全面的L1和L2正则化的解释 3.正则化项L1和L2的区别 4.L1 相比于 L2 为什么容易获得稀疏解? 5.正则化L1和L2的区别 6.LR ...
- 逻辑回归L1与L2正则,L1稀疏,L2全局最优(凸函数梯度下降)
转载:https://chenrudan.github.io/blog/2016/01/09/logisticregression.html http://nanshu.wang/post/2015- ...
- 手推公式带你轻松理解L1/L2正则化
文章目录 前言 L1/L2正则化原理 从数学的角度理解L1/L2正则化 从几何的角度理解L1/L2正则化 L1/L2正则化使用情形 前言 L1/L2正则化的目的是为了解决过拟合,因此我们先要明白什么是 ...
- 大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则
第十四节过拟合解决手段L1和L2正则 第十三节中,我们讲解了过拟合的情 ...
- l2范数求导_理解L1,L2 范数在机器学习中应用
理解L1,L2 范数 L1,L2 范数即 L1-norm 和 L2-norm,自然,有L1.L2便也有L0.L3等等.因为在机器学习领域,L1 和 L2 范数应用比较多,比如作为正则项在回归中的使用 ...
- 理解L1,L2 范数
链接:https://www.zhihu.com/question/26485586/answer/616029832 理解L1,L2 范数 L1,L2 范数即 L1-norm 和 L2-norm,自 ...
最新文章
- SAP咨询顾问被客户投诉的几个原因
- LogisticRegression_demo
- jQuery中DOM操作
- 空间mysql升级_MySQL升级的3种方法
- [Hadoop]-YARN-伪分布式部署-hadoop-2.6.0-cdh5.7.0
- Type EnumTypeInfo<xxxxx> cannot be used as key. Contained UNSUPPORTED key types: EnumTypeInfo<xxxxx>
- Django(part21)--models字段
- Mysql日期函数使用大全
- 关于go指针在方法or函数中这件事
- 域控制器服务器的管理维护,域控制器管理 向备份要安全(图)
- C++ map中使用erase应该注意到的问题
- 邢台农业计算机学校,邢台农业学校
- QT中文乱码深度剖析
- kafka与mysql持久化_漫游Kafka设计篇之数据持久化
- typora最好用的主题_推荐一款超好用Markdown编辑器-Typora
- 海思 K3V2的前世今生
- Unity发布游戏在iOS设备上出现的字体问题
- 华为彩信显示尚未激活服务器,华为手机无法接收彩信提示要开通gprs
- 一位 19 年 Mac 用户的心声:“我真的很讨厌库克”
- Java 10年回顾:世界各地开发高手谈Java