L1、L2正则化来源推导

L1L2的推导可以从两个角度:

  • 带约束条件的优化求解(拉格朗日乘子法)
  • 贝叶斯学派的:最大后验概率

1.1 基于约束条件的最优化

对于模型权重系数w的求解释通过最小化目标函数实现的,也就是求解:

首先,模型的复杂度可以用VC来衡量。通常情况下,模型VC维与系数w的个数成线性关系:即:

w数量越多,VC越大,模型越复杂

为了限制模型的复杂度,我们要降低VC,自然的思路就是降低w的数量,即:

让w向量中的一些元素为0或者说限制w中非零元素的个数。我们可以在原优化问题上加入一些优化条件:

其中约束条件中的||w||0是指L0范数,表示的是向量w中非零元素的个数,让非零元素的个数小于某一个C,就能有效地控制模型中的非零元素的个数,但是这是一个NP问题,不好解,于是我们需要做一定的“松弛”。为了达到我们想要的效果(权重向量w中尽可能少的非零项),我们不再严格要求某些权重w为0,而是要求权重w向量中某些维度的非零参数尽可能接近于0,尽可能的小,这里我们可以使用L1L2范数来代替L0范数,即:

注意哈:这里使用L2范数的时候,为了后续处理(其实就是为了优化),可以对进行平方,只需要调整C的取值即可。

然后我们利用拉式乘子法求解:

其中这里的是拉格朗日系数,>0,我们假设的最优解为,对拉格朗日函数求最小化等价于:

上面和

等价。所以我们这里得到对L1L2正则化的第一种理解:

L1正则化h 在原优化目标函数中增加约束条件

L2正则化在原优化目标函数中增加约束条件

1.2基于最大后验概率估计

在最大似然估计中,是假设权重w是未知的参数,从而求得对数似然函数(取了log):

从上式子可以看出:假设y^{i}的不同概率分布,就可以得到不同的模型。

若我们假设:

的高斯分布,我们就可以带入高斯分布的概率密度函数:

上面的C为常数项,常数项和系数不影响我们求解的解,所以我们可以令

我们就得到了Linear Regursion的代价函数。

在最大化后验概率估计中,我们将权重w看做随机变量,也具有某种分布,从而有:

同样取对数:

可以看出来后验概率函数为在似然函数的基础上增加了logP(w)P(w)的意义是对权重系数w的概率分布的先验假设,在收集到训练样本{X,y}后,则可根据w在{X,y}下的后验概率对w进行修正,从而做出对w的更好地估计。

若假设的先验分布为0均值的高斯分布,即

则有:

可以看到,在高斯分布下的效果等价于在代价函数中增加L2正则项。

若假设服从均值为0,参数为a的拉普拉斯分布,即:

则有:

可以看到,在拉普拉斯分布下logP(w)的效果等价在代价函数中增加L1正项。

故此,我们得到对于L1,L2正则化的第二种理解:

L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。

L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。

理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布相关推荐

  1. L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 L2 正则是机器学习常用的一种防止过拟合的方法(应该也是一道经常遇到的面试题).简单来说,它就是希望权重的 ...

  2. 理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇

    L1.L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数 ...

  3. l2高斯分布_L1正则先验是Laplace分布,L2正则先验分布是高斯分布

    Laplace分布 Laplace概率密度函数分布为: 一般μ的取值为0,所以形式如下: 分布的图像如下所示 可以看到Laplace分布集中在μ附近,而且b越小,数据的分布就越集中 L2正则先验分布是 ...

  4. L1正则和L2正则的比较分析

    参考文献 1.L1正则和L2正则的比较分析详解 2.比较全面的L1和L2正则化的解释 3.正则化项L1和L2的区别 4.L1 相比于 L2 为什么容易获得稀疏解? 5.正则化L1和L2的区别 6.LR ...

  5. 逻辑回归L1与L2正则,L1稀疏,L2全局最优(凸函数梯度下降)

    转载:https://chenrudan.github.io/blog/2016/01/09/logisticregression.html http://nanshu.wang/post/2015- ...

  6. 手推公式带你轻松理解L1/L2正则化

    文章目录 前言 L1/L2正则化原理 从数学的角度理解L1/L2正则化 从几何的角度理解L1/L2正则化 L1/L2正则化使用情形 前言 L1/L2正则化的目的是为了解决过拟合,因此我们先要明白什么是 ...

  7. 大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则

                                                                     第十四节过拟合解决手段L1和L2正则 第十三节中,我们讲解了过拟合的情 ...

  8. l2范数求导_理解L1,L2 范数在机器学习中应用

    理解L1,L2 范数 L1,L2 范数即 L1-norm 和 L2-norm,自然,有L1.L2便也有L0.L3等等.因为在机器学习领域,L1 和 L2 范数应用比较多,比如作为正则项在回归中的使用 ...

  9. 理解L1,L2 范数

    链接:https://www.zhihu.com/question/26485586/answer/616029832 理解L1,L2 范数 L1,L2 范数即 L1-norm 和 L2-norm,自 ...

最新文章

  1. SAP咨询顾问被客户投诉的几个原因
  2. LogisticRegression_demo
  3. jQuery中DOM操作
  4. 空间mysql升级_MySQL升级的3种方法
  5. [Hadoop]-YARN-伪分布式部署-hadoop-2.6.0-cdh5.7.0
  6. Type EnumTypeInfo<xxxxx> cannot be used as key. Contained UNSUPPORTED key types: EnumTypeInfo<xxxxx>
  7. Django(part21)--models字段
  8. Mysql日期函数使用大全
  9. 关于go指针在方法or函数中这件事
  10. 域控制器服务器的管理维护,域控制器管理 向备份要安全(图)
  11. C++ map中使用erase应该注意到的问题
  12. 邢台农业计算机学校,邢台农业学校
  13. QT中文乱码深度剖析
  14. kafka与mysql持久化_漫游Kafka设计篇之数据持久化
  15. typora最好用的主题_推荐一款超好用Markdown编辑器-Typora
  16. 海思 K3V2的前世今生
  17. Unity发布游戏在iOS设备上出现的字体问题
  18. 华为彩信显示尚未激活服务器,华为手机无法接收彩信提示要开通gprs
  19. 一位 19 年 Mac 用户的心声:“我真的很讨厌库克”
  20. Java 10年回顾:世界各地开发高手谈Java

热门文章

  1. 浅谈WIN7系统Aero peek预览桌面功能失效原因及恢复方法
  2. 时间和日期函数 curdate 的作用
  3. 基于android studio的百度地图(放大缩小搜索功能)
  4. 关于JavaScript与MySQL学习小结
  5. H5游戏性能优化总结
  6. 小程序vantUI使用介绍
  7. Adaptec by PMC为高密度超大规模数据中心三倍提升存储连接能力
  8. ThinkPHP3.2.3 二级域名设置深入(包括一系列问题的解决方案)
  9. WPF PrismDialog PopupWindowAction使用MetroWindow
  10. TMS320C6748定时器32位模式