过拟合的原因:使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生bias很低,但variance很高的情形.

解决过拟合最常用的方法就是regularization, 常用的有:L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正则化.

从贝叶斯的角度来看, 正则化等价于对模型参数引入先验分布.(先验概率可理解为统计概率,后验概率可理解为条件概率)

一. Linear Regression

我们先看下最原始的Linear Regression:

此处以 http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6738597.html 为准

由最大似然估计,

取对数:

即:

这就导出了我们原始的 least-squares 损失函数,但这是在我们对参数 w 没有加入任何先验分布的情况下。在数据维度很高的情况下,我们的模型参数很多,模型复杂度高,容易发生过拟合。这个时候,我们可以对参数 w 引入先验分布,降低模型复杂度。

Ridge Regression

我们对参数w引入协方差为a的零均值高斯先验.(每一个分量都服从该分布)

左式有点问题,参数w的高斯先验项的系数少了个连乘符号

取对数:

等价于:

上式即Ridge Regression.对参数引入高斯先验等价于L2正则化

ridge regression 并不具有产生稀疏解的能力,也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2正则表现往往会优于 L1正则,但 L1正则会大大降低我们的计算量

拉普拉斯分布

重复之前的推导过程我们很容易得到:

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题,不具有解析解。它的优良性质是能产生稀疏性,导致 w 中许多项变成零。对参数引入拉普拉斯先验 等价于 L1正则化

总结:

正则化参数等价于对参数引入先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及 outliers 的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。

转自:

https://www.zhihu.com/question/23536142

转载于:https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6483560.html

正则化与数据先验分布的关系相关推荐

  1. python使用matplotlib可视化雷达图(polar函数可视化雷达图、极坐标图、通过径向方向来显示数据之间的关系)

    python使用matplotlib可视化雷达图(polar函数可视化雷达图.极坐标图.通过径向方向来显示数据之间的关系) 目录

  2. 蚂蚁金服付志嵩:数据膨胀?关系复杂?如何升级图数据库?

    来源:DataFunTalk 本文约3700字,建议阅读5分钟 本次分享主题为图数据库在金融领域的应用. 导读:本次分享主题为图数据库在金融领域的应用,主要介绍蚂蚁金服在金融科技领域的一些图技术应用探 ...

  3. 5.8 正则化和数据标准化

    5.8 正则化和数据标准化 方程 Ax=bA\mathbf{x}=\mathbf{b}Ax=b 矩阵 AAA 列满秩时才有最小二乘解.矩阵 AAA 列满秩,即矩阵列向量组是无关组,根据无关组性质,即不 ...

  4. 谈谈Java与大数据之间的关系你们都了解了清楚了吗?

    Java是计算机编程语言界的王者,大数据是当下IT领域中最新潮的技术,Java和大数据都是当下十分受企业欢迎的IT技术,也是企业核心竞争力的重要组成部分,都说学大数据要先学Java,那么Java和大数 ...

  5. 再问数据中台-数据中台和数据仓库,数据平台的关系是什么?

    早期,企业的数据是少量的,利用Excel等数据文件处理工具来进行统计和手工分析. 然后,企业希望能够更快的处理比较多的数据,就有了数据仓库的出现,也希望利用数据来支撑运营和分析.接下来不仅有了结构化数 ...

  6. Echarts数据可视化series-graph关系图,开发全解+完美注释

    全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...

  7. 论ICT技术与数据中心的关系

    论ICT技术与数据中心的关系 ICT是信息Information.通信Communication和技术Technology三个英文单词的词头组合,是信息与通信技术相融合而形成的一个新的概念和技术领域. ...

  8. Win 10操作系统与艾字节大数据的密切关系

    Win 10操作系统与艾字节大数据的密切关系 微软对外宣称:"视窗即服务"(Windows as a Service),向全球视窗用户提供在线服务,根据何在? 大家知道,美国国会图 ...

  9. python和大数据有什么关系

    自从2004年以后,python的使用率呈线性增长.2011年1月,它被TIOBE编程语言排行榜评为2010年度语言.由于Python语言的简洁性.易读性以及可扩展性,在国外用Python做科学计算的 ...

  10. 数据治理、共享交换、数据仓库、数据中心的关系

    数据中心不就是理解为搭建一套交换系统,将数据落地就OK了? 最近写投标文档,项目要建立大数据中心,就没怎么考虑还是按照10年前的想法,数据中心不就是理解为搭建一套交换系统,将数据落地就OK了,就没怎么 ...

最新文章

  1. 让FX1.1的NotifyIcon支持BalloonTip(1)
  2. [导入]IIS无法显示asp页面
  3. 【MongoDB】NoSQL Manager for MongoDB 教程(基础篇)
  4. 深度学习框架Caffe, MXNet, TensorFlow, Torch, CNTK性能测试报告
  5. yelee主题中的Busuanzi网站统计失效问题
  6. .NET开发过程中的全文索引使用技巧之Solr
  7. 【转】带你玩转Visual Studio——03.带你了解VC++各种类型的工程
  8. [原创] VPDN--PPTP Server
  9. oracle sql plus 常用命令
  10. 刷卡读取信息自动录入表格_人事自动化管理系统.xls
  11. SAP License:备选统驭科目问题
  12. c语言 屏幕亮度调节_好手机的屏幕有什么不同?我们为何需要一块好屏幕?
  13. 《物联网框架ServerSuperIO教程》-19.设备驱动和OPC Client支持mysql、oracle、sqlite、sqlserver的持久化。v3.6.4版本发布...
  14. 《统计学》第八版贾俊平第十一章一元线性回归知识点总结及课后习题答案
  15. Keil4打开单片机工程一片空白,cpu100%程序卡死的问题解决
  16. 如何构建自己的Java学习体系?
  17. win10系统盘分多大合适?
  18. oracle导出dmp文件报错904,EXP-00008: 遇到 ORACLE 错误 904 ORA-01003
  19. 点菜系统(适合Java基础练习)
  20. 外观模式——透过现象看本质

热门文章

  1. shell 第三次练习
  2. 2011蓝桥杯--神秘的三位数
  3. NYOJ--102--次方求模
  4. svnsync 服务器代码备份
  5. 浅谈:如何加快本本的开机时间
  6. VMware虚拟机下网络连接的三种模式
  7. linux文件编程(二)
  8. 腾讯云dts使用注意事项
  9. 服务端客户端均采用epoll模式,建立3万TCP连接对内存的影响。
  10. 小辣椒android密码怎样开,小辣椒手机忘记密码怎么恢复出厂设置