©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

L2 正则是机器学习常用的一种防止过拟合的方法(应该也是一道经常遇到的面试题)。简单来说,它就是希望权重的模长尽可能小一点,从而能抵御的扰动多一点,最终提高模型的泛化性能。但是读者可能也会发现,L2 正则的表现通常没有理论上说的那么好,很多时候加了可能还有负作用。

最近的一篇文章 Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations 从“权重尺度偏移”这个角度分析了 L2 正则的弊端,并提出了新的 WEISSI 正则项。整个分析过程颇有意思,在这里与大家分享一下。

论文标题:Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations

论文链接:https://arxiv.org/abs/2008.02965

相关内容

这一节中我们先简单回顾一下 L2 正则,然后介绍它与权重衰减的联系以及与之相关的 AdamW 优化器 [1] 。

1.1 L2正则的理解

为什么要添加 L2 正则?这个问题可能有多个答案。有从 Ridge 回归角度回答的,有从贝叶斯推断角度回答的,这里给出从扰动敏感性的角度的理解。

对于两个(列)向量 ,我们有柯西不等式 。根据这个结果,我们就可以证明:

这里的 等于矩阵 的所有元素的平方和。证明并不困难,有兴趣的读者自行完成。

这个结果告诉我们: 的变化量,可以被 和 控制住,因此如果我们希望 很小时 的变化量也尽可能小,那么我们可以降低 ,这时候就可以加入正则项 。

不难发现,这其实就是 L2 正则。这个角度的相关讨论还可以参考深度学习中的Lipschitz约束:泛化与生成模型(不过要注意两篇文章的记号略有不同)。

1.2 AdamW优化器

在使用 SGD 进行优化时,假设原来的迭代为 ,那么不难证明加入 L2 正则 后变成了:

由于 ,所以这会使得整个优化过程中参数 有“收缩”到 0 的倾向,这样的改动称为“权重衰减(Weight Decay)”。

不过,L2 正则与权重衰减的等价性仅仅是在 SGD 优化器下成立,如果用了自适应学习率优化器如 Adagrad、Adam 等,那么两者不等价。在自适应学习率优化器中,L2 正则的作用约等于往优化过程里边加入 而不是 。

也就是说每个元素的惩罚都很均匀,而不是绝对值更大的元素惩罚更大,这部分抵消了 L2 正则的作用。论文 Decoupled Weight Decay Regularization [1] 首次强调了这个问题,并且提出了改进的 AdamW 优化器。

新的正则

在这一节中,我们将指出常见的深度学习模型中往往存在“权重尺度偏移(Weight Scale Shif)”现象,这个现象可能会导致了 L2 正则的作用没那么明显。进一步地,我们可以构建一个新的正则项,它具有跟 L2 类似的作用,但是与权重尺度偏移现象更加协调,理论上来说会更加有效。

2.1 权重尺度偏移

我们知道深度学习模型的基本结构就是“线性变换+非线性激活函数”,而现在最常用的激活函数之一是 。有意思的是,这两者都满足“正齐次性”,也就是对于 ,我们有 恒成立。

对于其他的激活函数如 SoftPlus、GELU、Swish 等,其实它们都是 的光滑近似,因此可以认为它们是近似满足“正齐次性”。

“正齐次性”使得深度学习模型对于权重尺度偏移具有一定的不变性。具体来说,假设一个L层的模型:

假设每个参数引入偏移 ,那么根据正齐次性可得:

如果 ,那么参数为 就跟参数为 的模型完全等价了。

换句话说,模型对于 的权重尺度偏移具有不变性(WEIght-Scale-Shift-Invariance,WEISSI)。

2.2 与L2正则不协调

刚才我们说只要尺度偏移满足 ,那么两组参数对应的模型就等价了,但问题是它们对应的 L2 正则却不等价:

并且可以证明,如果固定 ,并且保持约束 ,那么 的最小值在:

事实上,这就体现了 L2 正则的低效性。试想一下,假如我们已经训练得到一组参数 ,这组参数泛化性能可能不大好,于是我们希望 L2 正则能帮助优化器找到一组更好参数(牺牲一点 ,降低一点 )。

但是,上述结果告诉我们,由于权重尺度偏移不变性的存在,模型完全可以找到一组新的参数 ,它跟原来参数的模型完全等价(没有提升泛化性能),但是 L2 正则还更小(L2 正则起作用了)。说白了,就是 L2 正则确实起作用了,但没有提升模型泛化性能,没有达到使用 L2 正则的初衷。

2.3 WEISSI正则

上述问题的根源在于,模型对权重尺度偏移具有不变性,但是 L2 正则对权重尺度偏移没有不变性。如果我们能找到一个新的正则项,它有类似的作用,同时还对权重尺度偏移不变,那么就能解决这个问题了。个人感觉原论文对这部分的讲解并不够清晰,下面的推导以笔者的个人理解为主。

我们考虑如下的一般形式的正则项:

对于 L2 正则来说,,只要 是关于 x 在 上的单调递增函数,那么就能保证优化但目标是缩小。要注意我们希望正则项具有尺度偏移不变性,并不需要 ,而只需要:

因为优化过程只需要用到它的梯度。可能有的读者都能直接看出它的一个解了,其实就是对数函数 。所以新提出来的正则项就是:

除此之外,原论文可能担心上述正则项惩罚力度还不够,还对参数方向加了个 L1 的惩罚,总的形式为:

2.4 实验效果简述

按惯例展示一下原论文的是实验结果,当然既然作者都整理成文了,显然说明是有正面结果的:

▲原论文对WEISSI正则的实验结果之一

对于我们来说,无非就是知道有这么个新的选择,炼丹的时候多一种尝试罢了。毕竟正则项这种东西,没有什么理论能保证它一定能起作用,还是用了才能知道结果,别人说得再漂亮也没用。

文章小结

本文介绍了神经网络模型中的权重尺度偏移不变性的现象,并指出它与 L2 正则的不协调性,继而提出了作用类似但能够解决不协调性的正则项。

参考文献

[1] https://arxiv.org/abs/1711.05101

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸相关推荐

  1. L1、L2正则VS L1、L2 loss

    1.L1.L2正则--参数空间 L1范数表达式为:, L2范数表达式: L1正则(上图左),使得某些特征量变为0,因此具有稀疏性,可用于特征选择: L2正则(上图右),整体压缩特征向量,使用较广. 2 ...

  2. 机器学习入门(浅谈L1和L2正则)

    L1和L2正则 1.正则化的作用 2. L1正则和L2正则 定义: L1正则(特征选择,稀疏矩阵) 推导: L1范数约束 L2正则与过拟合 推导 L2范数约束 总结 1.正则化的作用 在机器学习中,训 ...

  3. l2高斯分布_L1正则先验是Laplace分布,L2正则先验分布是高斯分布

    Laplace分布 Laplace概率密度函数分布为: 一般μ的取值为0,所以形式如下: 分布的图像如下所示 可以看到Laplace分布集中在μ附近,而且b越小,数据的分布就越集中 L2正则先验分布是 ...

  4. 曲线拟合问题与L2正则

    前言 我们在[1]中曾经谈到了在贝叶斯理论下指导的曲线拟合问题以及基于此的L2正则化解释,其实,对于L2正则化还可以从模型复杂度的角度进行解释,现在,我们针对非贝叶斯观点的曲线拟合问题和L2正则进行讨 ...

  5. 大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则

                                                                     第十四节过拟合解决手段L1和L2正则 第十三节中,我们讲解了过拟合的情 ...

  6. python中l2 什么意思_L1和L2正则知多少?

    正则化也是校招中常考的题目之一,在去年的校招中,被问到了多次: 1.过拟合的解决方式有哪些,l1和l2正则化都有哪些不同,各自有什么优缺点(爱奇艺)2.L1和L2正则化来避免过拟合是大家都知道的事情, ...

  7. L1正则和L2正则的比较分析

    参考文献 1.L1正则和L2正则的比较分析详解 2.比较全面的L1和L2正则化的解释 3.正则化项L1和L2的区别 4.L1 相比于 L2 为什么容易获得稀疏解? 5.正则化L1和L2的区别 6.LR ...

  8. 王权富贵:L1和L2正则

    L1正则,和L2正则是一种对优化函数参数进行约束的一种手段.如果优化的目标函数产生过拟合的时候,有高次项参数大,低此项参数低的特点.加入正则项可以迫使他们趋于平均,让低此项的部分也尽力去参与拟合. - ...

  9. LibLinear使用总结(L1,L2正则)

    liblinear实践初步 在相关推荐项目的改版中,对liblinear/fm/xgboost等主流成熟算法模型的训练效果进行了尝试和对比,并在一期改造中选择了liblinear实际上线使用.本文主要 ...

最新文章

  1. 自己动手,丰衣足食:从零开始写个 IDEA 插件,要啥功能就做啥!
  2. stm32控制舵机任意角度_如何对舵机建模仿真?
  3. jupyter notebook报错Failed to load module appmenu-gtk-module
  4. 在计算机附近用英语怎么说,附近用英语怎么说
  5. linux sed名宁,Linux shell利用sed批量更改文件名的方法
  6. linux-history历史命令-光标的移动操作-命令行上的字符删除操作
  7. 圣诞海报设计没有思路,素材技巧都来了!
  8. 强烈推荐一个在线caffe网络可视化工具!!
  9. 用python实现2048小游戏
  10. Simscape Mutibody Modeling学习--碰撞接触与反应(1)
  11. 论文解读(PairNorm)《PairNorm: Tackling Oversmoothing in GNNs》
  12. SEM数据分析之做好关键词报告
  13. 监听qq新邮件 linux,linux如何使用QQmail实现网络邮件报警?
  14. python字母频率统计
  15. 在uniapp里面使用阿里矢量图标(iconfont)
  16. iOS App 安装包瘦身指南
  17. JAVA课程设计——小学数学练习
  18. MFC-SaoChat(模仿QQ)聊天软件
  19. 调查数据分析的基本问题
  20. Python爬取《哆啦A梦-伴我同行2》影评,手把手带你绘制词云图!

热门文章

  1. TS对象类型 -- 接口(interface)
  2. 误删oracle数据库文件,误删Oracle数据文件导致数据库无法打开
  3. python发送文件给微信好友_Python定时自动给微信好友发送天气预报
  4. Fiori 出试(WEBIDE平台)day1
  5. 解决Ubuntu无法进行SSH连接的问题(以及如何使用SSH)
  6. tkinter中button按钮控件(三)
  7. PHP使用swoole来实现实时异步任务队列
  8. namespace mismatch错误处理方法
  9. Linux查看端口、进程情况及kill进程
  10. c++动态绑定和动态绑定