【机器学习基础】一文说透正则项与模型复杂度

上文留下一个问题，正则项到底是如何控制模型复杂度的？权值越小模型复杂度越小？为什么权值越小模型复杂度越小？

1、模型与模型复杂度

在数据挖掘或机器学习领域我们常听到线性回归模型、逻辑回归模型、支持向量机、决策树、随机森林、XGBoost、LightGBM、神经网络等等，通常这么说是指模型结构不同的模型，这个时候所说的模型既可以是一个确定的模型，也可是一个不确定的模型，或者说是一个已训练好的模型，也可以是一个还未训练的模型。训练好的模型也就是模型参数已经确定了，可以用来预测了，这是一个确定的，具体的，可用的模型；未训练好的模型也就是模型参数还没确定，有待从模型假设空间中搜索（也就是训练）出一个具体的模型。

一个确定的模型没有复杂度的概念，一个权重为3，偏置为0的一元线性回归模型和一个权重为2，偏置为0的一元线性回归模型，二者的2范数分别是9和4，难道前者比后者更复杂？显然不是。

通常所说的模型复杂度是指不确定的模型的模型复杂度。不确定的模型就是模型参数还没确定，参数虽然没有确定，但是肯定有一个取值范围，这个取值范围对应了模型的假设空间，取值范围越大，假设空间越大，模型的表达能力就越强，也就是在假设空间搜索的时候更有可能搜索到一个过拟合训练集的确定模型。所以模型复杂度是指非确定模型的假设空间的大小，假设空间越大，模型越复杂。

2、正则项与模型复杂度

首先放上范数等值线图如下：

以右图中的2范数为例，通常所说正则项越小即指图中的圆的半径越小，半径越小模型越简单是指权值的取值范围在负半径长度到正半径长度之间，也就是说所有权值取值范围长度都为圆的直径，那么压缩这个圆的直径就是在压缩模型的假设空间，也就是所谓的模型变得更简单。

虽然直径减小可以压缩假设空间，但实际情况几乎不可能退化到一个点，这样模型很容易欠拟合，那么权值的取值为什么一定要在圆内？不可以在某个圆环内吗？

3、贝叶斯概率与正则项

很多资料都只是介绍在目标函数中添加正则项可以控制模型复杂度，防止过拟合，那第一个想到在目标函数中添加正则项的人是如何想到的？一个如此妙的项应该不是一拍脑门就直接加上去的，这后面一定有可以挖的东西。

果然挖到了与贝叶斯概率有关的最大后验估计与正则项的关系。在训练集D上求模型参数可以用最大化后验概率的方式来求解[1, 2]。

即：

取对数：

如果其中的先验概率服从标准正态分布，那么

也就是说最大化先验概率就是最小化权值向量的2范数，由于是标准正态分布所以正好是所有权值趋于0的时候概率最大，也就是说2范数的权值取值应该在圆内并且向圆心靠近。

如果其中的先验概率服从标准拉普拉斯分布，那么

也就是最大化先验概率就是最小化权值向量的1范数，由于是标准拉普拉斯分布，所以也是所有权值趋于0的时候概率最大，也就是说1范数的权值取值应该在菱形内并且向原点靠近。

参考文献

[1] https://zhuanlan.zhihu.com/p/55251269

[2] https://zhuanlan.zhihu.com/p/35356992

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券，复制链接直接打开：https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群：

【机器学习基础】一文说透正则项与模型复杂度相关推荐

机器学习基础（七）：概率图模型（HMM、MRF、CRF、话题模型、推断方法）
7.概率图模型概率模型probabilistic model:提供一种描述框架,将学习任务归结于计算变量的概率分布,核心是如何基于可观测变量推测出未知变量的条件分布 → ①生成式generative ...
机器学习 —— 基础整理（三）生成式模型的非参数方法： Parzen窗估计、k近邻估计；k近邻分类器...
本文简述了以下内容: (一)生成式模型的非参数方法 (二)Parzen窗估计 (三)k近邻估计 (四)k近邻分类器(k-nearest neighbor,kNN) (一)非参数方法(Non-param ...
机器学习基础（二）——词集模型（SOW）和词袋模型（BOW）
(1)词集模型:Set Of Words,单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个 (2)词袋模型:Bag Of Words,如果一个单词在文档中出现不止一次,并统计 ...
回归素材(part3)--机器学习基础从入门到求职
学习笔记,仅供参考,有错必纠文章目录机器学习基础从入门到求职线性回归模型模型建立策略确定算法求解线性回归模型流程线性回归的scikit-learn实现普通线性回归 Lasso回归岭 ...
机器学习基础与实践（二）----数据转换
------------------------------------本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!-------------- ...
【机器学习基础】说模型过拟合的时候，说的是什么?
前言机器学习中,模型的拟合效果意味着对新数据的预测能力的强弱(泛化能力).而程序员评价模型拟合效果时,常说"过拟合"及"欠拟合",那究竟什么是过/欠拟合呢?什 ...
【机器学习基础】深入讨论机器学习 8 大回归模型的基本原理以及差异！
作者 | 台运鹏几乎每个机器学习从业者都知道回归,其中一些人可能认为这没什么大不了的,只是从参数之间的切换罢了.本文将阐明每种回归算法的细节,以及确切的区别.包括 : OLS Weighted L ...
机器学习基础：模型评估（下）
目录 1. 引言 2. 进一步评估 3. 机器学习中的偏差和方差种类 3.1 过拟合 3.2 欠拟合 3.3 训练曲线观察泛化性 3.4 模型偏差和方差(bias and variance) 3.4. ...
airbnb机器学习模型_机器学习基础：预测Airbnb价格
airbnb机器学习模型 Machine learning is easily one of the biggest buzzwords in tech right now. Over the pas ...

【机器学习基础】一文说透正则项与模型复杂度

【机器学习基础】一文说透正则项与模型复杂度相关推荐

最新文章

热门文章