上文留下一个问题,正则项到底是如何控制模型复杂度的?权值越小模型复杂度越小?为什么权值越小模型复杂度越小?

1、模型与模型复杂度

在数据挖掘或机器学习领域我们常听到线性回归模型、逻辑回归模型、支持向量机、决策树、随机森林、XGBoost、LightGBM、神经网络等等,通常这么说是指模型结构不同的模型,这个时候所说的模型既可以是一个确定的模型,也可是一个不确定的模型,或者说是一个已训练好的模型,也可以是一个还未训练的模型。训练好的模型也就是模型参数已经确定了,可以用来预测了,这是一个确定的,具体的,可用的模型;未训练好的模型也就是模型参数还没确定,有待从模型假设空间中搜索(也就是训练)出一个具体的模型。

一个确定的模型没有复杂度的概念,一个权重为3,偏置为0的一元线性回归模型和一个权重为2,偏置为0的一元线性回归模型,二者的2范数分别是9和4,难道前者比后者更复杂?显然不是。

通常所说的模型复杂度是指不确定的模型的模型复杂度。不确定的模型就是模型参数还没确定,参数虽然没有确定,但是肯定有一个取值范围,这个取值范围对应了模型的假设空间,取值范围越大,假设空间越大,模型的表达能力就越强,也就是在假设空间搜索的时候更有可能搜索到一个过拟合训练集的确定模型。所以模型复杂度是指非确定模型的假设空间的大小,假设空间越大,模型越复杂。

2、正则项与模型复杂度

首先放上范数等值线图如下:

以右图中的2范数为例,通常所说正则项越小即指图中的圆的半径越小,半径越小模型越简单是指权值的取值范围在负半径长度到正半径长度之间,也就是说所有权值取值范围长度都为圆的直径,那么压缩这个圆的直径就是在压缩模型的假设空间,也就是所谓的模型变得更简单。

虽然直径减小可以压缩假设空间,但实际情况几乎不可能退化到一个点,这样模型很容易欠拟合,那么权值的取值为什么一定要在圆内?不可以在某个圆环内吗?

3、贝叶斯概率与正则项

很多资料都只是介绍在目标函数中添加正则项可以控制模型复杂度,防止过拟合,那第一个想到在目标函数中添加正则项的人是如何想到的?一个如此妙的项应该不是一拍脑门就直接加上去的,这后面一定有可以挖的东西。

果然挖到了与贝叶斯概率有关的最大后验估计与正则项的关系。在训练集D上求模型参数可以用最大化后验概率的方式来求解[1, 2]。

即:

取对数:

如果其中的先验概率服从标准正态分布,那么

也就是说最大化先验概率就是最小化权值向量的2范数,由于是标准正态分布所以正好是所有权值趋于0的时候概率最大,也就是说2范数的权值取值应该在圆内并且向圆心靠近。

如果其中的先验概率服从标准拉普拉斯分布,那么

也就是最大化先验概率就是最小化权值向量的1范数,由于是标准拉普拉斯分布,所以也是所有权值趋于0的时候概率最大,也就是说1范数的权值取值应该在菱形内并且向原点靠近。

参考文献

[1] https://zhuanlan.zhihu.com/p/55251269

[2] https://zhuanlan.zhihu.com/p/35356992

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群:

【机器学习基础】一文说透正则项与模型复杂度相关推荐

  1. 机器学习基础(七):概率图模型(HMM、MRF、CRF、话题模型、推断方法)

    7.概率图模型 概率模型probabilistic model:提供一种描述框架,将学习任务归结于计算变量的概率分布,核心是如何基于可观测变量推测出未知变量的条件分布 → ①生成式generative ...

  2. 机器学习 —— 基础整理(三)生成式模型的非参数方法: Parzen窗估计、k近邻估计;k近邻分类器...

    本文简述了以下内容: (一)生成式模型的非参数方法 (二)Parzen窗估计 (三)k近邻估计 (四)k近邻分类器(k-nearest neighbor,kNN) (一)非参数方法(Non-param ...

  3. 机器学习基础(二)——词集模型(SOW)和词袋模型(BOW)

    (1)词集模型:Set Of Words,单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个 (2)词袋模型:Bag Of Words,如果一个单词在文档中出现不止一次,并统计 ...

  4. 回归素材(part3)--机器学习基础从入门到求职

    学习笔记,仅供参考,有错必纠 文章目录 机器学习基础从入门到求职 线性回归模型 模型建立 策略确定 算法求解 线性回归模型流程 线性回归的scikit-learn实现 普通线性回归 Lasso回归 岭 ...

  5. 机器学习基础与实践(二)----数据转换

    ------------------------------------本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!-------------- ...

  6. 【机器学习基础】说模型过拟合的时候,说的是什么?

    前言 机器学习中,模型的拟合效果意味着对新数据的预测能力的强弱(泛化能力).而程序员评价模型拟合效果时,常说"过拟合"及"欠拟合",那究竟什么是过/欠拟合呢?什 ...

  7. 【机器学习基础】深入讨论机器学习 8 大回归模型的基本原理以及差异!

    作者 | 台运鹏 几乎每个机器学习从业者都知道回归,其中一些人可能认为这没什么大不了的,只是从参数之间的切 换罢了.本文将阐明每种回归算法的细节,以及确切的区别.包括 : OLS Weighted L ...

  8. 机器学习基础:模型评估(下)

    目录 1. 引言 2. 进一步评估 3. 机器学习中的偏差和方差种类 3.1 过拟合 3.2 欠拟合 3.3 训练曲线观察泛化性 3.4 模型偏差和方差(bias and variance) 3.4. ...

  9. airbnb机器学习模型_机器学习基础:预测Airbnb价格

    airbnb机器学习模型 Machine learning is easily one of the biggest buzzwords in tech right now. Over the pas ...

最新文章

  1. 游戏UI框架设计(三) : 窗体的层级管理
  2. WINVER和_WIN32_IE等宏的含义
  3. CodeForces - 372CWatching Fireworks is Fun+DP+单调队列优化
  4. matplotlib 横坐标少了一个点_收藏起来!比 matplotlib 效率高十倍的数据可视化神器!...
  5. html5的鼠标拖拽
  6. python电脑下载了怎么用-利用Python下载:You-Get的安装及使用方法
  7. CentOS_6配置163网络yum源
  8. 笔录软件在linux系统,weblogic的在redhat linux下使用笔录
  9. 如何使用ABBYY软件编辑PDF文本
  10. 手机H5-调用百度地图导航
  11. python游戏寻路_游戏服务端寻路的思路与实现
  12. 前端面试宝典React篇03 如何避免生命周期中的坑?
  13. MacBook Air安装Win7的经验总结(包括双系统,单系统WIN7)
  14. Minecraft Server 搭建手账
  15. PHP的OpenSSL加密扩展学习(三):证书操作
  16. 锐龙r75800h和酷睿i511400h差距多大 r7 5800h和i5 11400h核显
  17. Burp Suite工具详解
  18. IE及系统诸多问题的修复方法
  19. SQL Server 中WITH (NOLOCK)浅析 2014-08-30 11:58 by 潇湘隐者, 58264 阅读, 33 评论, 收藏, 编辑 概念介绍 开发人员喜欢在SQL脚本
  20. 互相关函数以及Matlab仿真

热门文章

  1. docker部署项目,对镜像,容器的操作
  2. IOS上微信在输入框弹出键盘后,页面不恢复,下方有留白,有弹窗弹出时页面内容感应区域错位...
  3. [LOJ#6068]. 「2017 山东一轮集训 Day4」棋盘[费用流]
  4. Elasticsearch入门之从零开始安装ik分词器
  5. 工资表 车辆工程 冯大昕
  6. javascript 模块化编程----模块的写法
  7. wmsys.WM_CONCAT
  8. python调用matlab环境配置、非常详细!!!_Python调用Matlab2014b引擎
  9. java ee 分页_【JavaEE】JavaEE分页实践
  10. ab plc软件_回收拆机拆厂二手机械设备回收PLC自动化物资回收【研发吧】