深入理解深度学习——正则化(Regularization):基础知识
分类目录:《深入理解深度学习》总目录
在《深入理解机器学习——过拟合(Overfitting)与欠拟合(Underfitting)》中,没有免费午餐定理暗示我们必须在特定任务上设计性能良好的机器学习算法。我们建立一组学习算法的偏好来达到这个要求。当这些偏好和我们希望算法解决的学习问题相吻合时,性能会更好。至此,我们具体讨论修改学习算法的方法只有,通过增加或减少学习算法可选假设空间的函数来增加或减少模型的表示容量。我们列举的一个具体示例是线性回归增加或减少多项式的次数。目前为止讨论的观点都是过度简化的。
算法的效果不仅很大程度上受影响于假设空间的函数数量,也取决于这些函数的具体形式。我们已经讨论的学习算法(线性回归)具有包含其输入的线性函数集的假设空间。对于输入和输出确实接近线性相关的问题,这些线性函数是很有用的。
对于完全非线性的问题它们不太有效。例如,我们用线性回归,从 x x x预测 sin ( x ) \sin(x) sin(x),效果不会好。因此我们可以通过两种方式控制算法的性能,一是允许使用的函数种类,二是这些函数的数量。在假设空间中,相比于某一个学习算法,我们可能更偏好另一个学习算法。这意味着两个函数都是符合条件的,但是我们更偏好其中一个。只有非偏好函数比偏好函数在训练数据集上效果明显好很多时,我们才会考虑非偏好函数。例如,我们可以加入权重衰减(Weight Decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化训练集上的均方误差和正则项的和 J ( w ) J(w) J(w),其偏好于平方 L 2 L_2 L2范数较小的权重。具体如下:
J ( w ) = MSE train + λ w T w J(w) = \text{MSE}_\text{train} + \lambda w^Tw J(w)=MSEtrain+λwTw
其中 λ \lambda λ是提前挑选的值,控制我们偏好小范数权重的程度。当 λ = 0 \lambda=0 λ=0,我们没有任何偏好。越大的 λ \lambda λ偏好范数越小的权重。最小化 J ( w ) J(w) J(w)可以看作是拟合训练数据和偏好小权重范数之间的权衡。这会使得解决方案的斜率较小,或是将权重放在较少的特征上。我们可以训练具有不同 λ \lambda λ值的高次多项式回归模型,来举例说明如何通过权重衰减控制模型欠拟合或过拟合的趋势。
更一般地,正则化一个学习函数 f ( x ; θ ) f(x;\theta) f(x;θ)的模型,我们可以给代价函数添加被称为正则化项(Regularizer)的惩罚。在权重衰减的例子中,正则化项是 Ω ( w ) = w T w \Omega(w) = w^Tw Ω(w)=wTw。表示对函数的偏好是比增减假设空间的成员函数更一般的控制模型容量的方法。我们可以将去掉假设空间中的某个函数看作是对不赞成这个函数的无限偏好。
参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
深入理解深度学习——正则化(Regularization):基础知识相关推荐
- 深度学习图像识别:基础知识与环境搭建
深度学习图像识别:基础知识与环境搭建 1. 深度学习的基本原理 什么是人工智能? 通过学习掌握了某中技能的机器,我们认为它具备了人工智能 什么是深度学习? 深度学习的概念源于人工神经网络的研究: 含多 ...
- kpu 处理器_深度学习及 KPU 基础知识
深度学习及 KPU 基础知识 1. 阅读完本章文档可以了解什么? 了解深度学习一些基础内容 了解 K210 内部 KPU 的特性 了解 KPU 使用过程中可能会遇到的问题,以及问题的解决方法 2. 概 ...
- 处理器_深度学习及 KPU 基础知识
kpu 处理器_深度学习及 KPU 基础知识_weixin_39909212的博客-CSDN博客深度学习及 KPU 基础知识1. 阅读完本章文档可以了解什么?了解深度学习一些基础内容了解 K210 内 ...
- 深度学习:神经网络基础知识总结
[神经网络基础知识总结]: 定义: 人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它 ...
- 机器学习处理信号分离_[学习笔记]使用机器学习和深度学习处理信号基础知识...
参考学习:Signal Generation and Preprocessing 本人只是为了了解信号处理的基础知识而做的学习笔记,涉及深度可能不够,有理解错误的地方请大胆指出,感激不尽 一.信号生成 ...
- 【深度学习系列】基础知识、模型学习
基础知识 原创 [深度学习]--训练过程 原创 [深度学习]--BN层(batch normalization) 原创 [深度学习]--激活函数(sigmoid.tanh.relu.softmax) ...
- 深度学习FPGA实现基础知识17(图像处理卷积运算 矩阵卷积)
需求说明:深度学习FPGA实现知识储备 内容:第一部分:矩阵的卷积运算详细过程 第二部分:图像处理之卷积理解 第三部分:矩阵卷积转换为矩阵相乘 整理来自:时间的 ...
- 深度学习几个基础知识
目录 一.目标检测一步法和两步法 二.锚框(Anchor) 三.深度学习检测器 四.深度学习在计算机图像领域的主要任务: 五.Bounding Box Regression的原理 六.卷积和池化操作各 ...
- 深度学习FPGA实现基础知识2(深度揭秘百度大脑AI专有芯片 缘何用FPGA而非GPU?)
需求说明:深度学习FPGA实现知识储备 来自:http://ee.ofweek.com/2015-12/ART-8110-2801-29035307.html 深度揭秘百度大脑AI专有芯片 缘何用FP ...
最新文章
- 第十周项目实践 哈夫曼树的建立哈夫曼编码
- 面试题----几种数组去重方式
- python字典内存分析_(一)Python入门-3序列:18字典-核心底层原理-内存分析-查找值对象过程...
- Python基础教程:嵌套函数、闭包
- WARNING: Max 1024 open files allowed, minimum of 40000 recommended. See the Neo4j manua
- 浙江大数据交易中心正式上线
- oracle表空间和用户的创建、修改、授权、查看等执行SQL
- php excel 单元格类型,设置20个单元格类型后,PhpExcel停止工作
- android签到功能模块,基于android的课堂签到系统.doc
- Docker使用-构建MySQL
- mysql调换数据_mysql互换表中两列数据方法
- TCP/UDP通信解疑
- Kyoto Cabinet 使用及原理
- 这一次,话筒给你:向自由软件之父 Richard M. Stallman 提问啦!
- 音视频开发系列(49)视频编码标准发展史
- 赚大钱,你需要多一些杠杆思维
- openpyxl,重写Worksheet
- node对接微信支付 sdk tenpay
- 巴伦变压器的选型和设计
- 计算机维修要学英文吗,学计算机编程需要英文吗?