2.3 利用正规化解决过拟合问题-机器学习笔记-斯坦福吴恩达教授
利用正规化解决过拟合问题
在之前的文章中,我们认识了过拟合问题,通常,我们有如下策略来解决过拟合问题:
减少特征数,显然这只是权宜之计,因为特征意味着信息,放弃特征也就等同于丢弃信息,要知道,特征的获取往往也是艰苦卓绝的。
不放弃特征,而是拉伸曲线使之更加平滑以解决过拟合问题,为了拉伸曲线,也就要弱化一些高阶项(曲线曲折的罪魁祸首)。由于高阶项中的特征 xxx 无法更改,因此特征是无法弱化的,我们能弱化的只有高阶项中的系数 θiθ_iθi。我们把这种弱化称之为是对参数 θθθ 的惩罚(penalize)。Regularization(正规化) 正是完成这样一种惩罚的“侩子手”。
如下例所示,我们将 θ3θ_3θ3 及 θ4θ_4θ4 减小(惩罚)到趋近于 0 ,原本过拟合的曲线就变得更加平滑,趋近于一条二次曲线(在本例中,二次曲线显然更能反映住房面积和房价的关系),也就能够更好的根据住房面积来预测房价。要知道,预测才是我们的最终目的,而非拟合。
线性回归中的正规化
在线性回归中,我们的预测代价如下评估:
J(θ)=12m∑i=1m(hθ(x(i))−y(i))2J(θ)=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2J(θ)=2m1i=1∑m(hθ(x(i))−y(i))2
为了在最小化 J(θ)J(θ)J(θ) 的过程中,也能尽可能使 θθθ 变小,我们将上式更改为:
J(θ)=12m∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2J(θ)=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2+ λ∑_{j=1}^n θ_j^2J(θ)=2m1i=1∑m(hθ(x(i))−y(i))2+λj=1∑nθj2=12m(Xθ−y)T(Xθ−y)+λ∑j=1nθj2=\frac1{2m}(Xθ-y)^T(Xθ-y)+ λ∑_{j=1}^n θ_j^2=2m1(Xθ−y)T(Xθ−y)+λj=1∑nθj2
其中,参数 λλλ 主要是完成以下两个任务:
- 保证对数据的拟合良好
- 保证 θ 足够小,避免过拟合问题。
λλλ 越大,要使 J(θ)J(θ)J(θ) 变小,惩罚力度就要变大,这样 θθθ 会被惩罚得越惨(越小),即要避免过拟合,我们显然应当增大 λλλ 的值。
那么,梯度下降也发生相应变化:
其中,(1)式等价于:
θj=θj(1−αλm)−α1m∑i=1m[hθ(x(i))−y(i)]xj(i)θ_j=θ_j(1−α\frac λm)−α\frac 1m∑_{i=1}^m[h_θ(x^{(i)})−y^{(i)}]x^{(i)}_jθj=θj(1−αmλ)−αm1i=1∑m[hθ(x(i))−y(i)]xj(i)
由于 1−αλm<11−α\frac λm<11−αmλ<1 ,故而梯度下降中每次更新 θθθ ,同时也会去减小 θθθ 值,达到了 Regularization 的目的。
如果使用正规方程,则使 J(θ)J(θ)J(θ) 最小化的 θθθ 值为:
逻辑回归中的正规化
2.3 利用正规化解决过拟合问题-机器学习笔记-斯坦福吴恩达教授相关推荐
- 3.9 神经网络解决多分类问题-机器学习笔记-斯坦福吴恩达教授
神经网络解决多分类问题 假定我们需要将图像分为四类: 行人图像 车辆图像 摩托车图像 卡车图像 这是一个多分类问题,由于图像特征较多,因此我们可以考虑设计含有多个隐含层的神经网络来完成特征优化(扩展) ...
- 1.8 欠拟合和过拟合-机器学习笔记-斯坦福吴恩达教授
欠拟合和过拟合 问题 在上一节中,我们利用多项式回归获得更加准确的拟合曲线,实现了对训练数据更好的拟合.然而,我们也发现,过渡地对训练数据拟合也会丢失信息规律.首先,引出两个概念: 欠拟合(under ...
- 3.8 神经网络解决逻辑运算问题-机器学习笔记-斯坦福吴恩达教授
神经网络解决逻辑运算问题 神经网络通过不同的架构设置,来完成不同的任务,比如我们看到一半的逻辑与运算: x1ANDx2={1ifx1=1andx2=10otherwisex_1\ AND\ x_2=\ ...
- 1.5 为什么正则化有利于预防过拟合-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.4 正则化 回到目录 1.6 Dropout 正则化 为什么正则化有利于预防过拟合呢 (Why regularization reduces overfitting?) ...
- 3.5 将 Batch 拟合进神经网络-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.4 正则化网络的激活函数 回到目录 3.6 Batch Norm 为什么奏效 将 Batch 拟合进神经网络 (Fitting Batch Norm into a Neu ...
- c#怎么拟合函数得到参数_吴恩达老师课程笔记系列第32节 -正则化之代价函数(2)...
第32节 -正则化之代价函数(2) 参考视频: 7 - 2 - Cost Function (10 min).mkv 上面的回归问题中如果我们的模型是: 我们可以从之前的事例中看出,正是那些高次项导致 ...
- 吴恩达 NIPS 2016:利用深度学习开发人工智能应用的基本要点(含唯一的中文版PPT)...
雷锋网按:为了方便读者学习和收藏,雷锋网(公众号:雷锋网)特地把吴恩达教授在NIPS 2016大会中的PPT做为中文版,由三川和亚峰联合编译并制作. 今日,在第 30 届神经信息处理系统大会(NIPS ...
- 吴恩达机器学习(五)正则化(解决过拟合问题)
目录 0. 前言 1. 正则化(Regularization) 2. 线性回归中的正则化 3. 逻辑回归中的正则化 学习完吴恩达老师机器学习课程的正则化,简单的做个笔记.文中部分描述属于个人消化后的理 ...
- 吴恩达《机器学习》学习笔记六——过拟合与正则化
吴恩达<机器学习>学习笔记六--过拟合与正则化 一. 过拟合问题 1.线性回归过拟合问题 2.逻辑回归过拟合问题 3.过拟合的解决 二. 正则化后的代价函数 1.正则化思想 2.实际使用的 ...
最新文章
- ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT(附论文解读)...
- php 位运算与权限,PHP巧妙利用位运算实现网站权限管理的方法
- 关于不能够精确的对浮点数进行运算的问题
- cacti + nagios + npc 整合部署
- 前端如何让倒计时更准确
- 线程以及pthread库的使用
- 从零开始学Axure原型设计(高级篇)
- UI实用素材| 工作管理、日程日历 专辑,总有一款符合设计师风格
- linux查看ip访问日志文件,linux分析apache日志获取最多访问的前10个IP
- JAVA学习之旅番外篇
- Python 学习记录(1)对象命名导致的问题
- 实战Javascript:结合电商主界面实现轮播图和倒计时秒杀
- 一 集成电路与IP核技术
- 离散数学——主析取范式与主合取范式原理探究
- 分享一个简单唯美的404页
- 世界第一代电子计算机诞生在,1、世界上第一台电子计算机诞生于
- matlab 读取pts_matlab读取tiff卫星遥感图像和地理信息并转化为点云
- 微信小程序 全局数据共享 Mobx
- 美元指数V型反转 98关口保卫战打响
- 计算机中丢失repo,我的本地git repo有“未上演”的已删除文件,远程是文件,如何删除丢失的文件?...
热门文章
- (转)SSH批量分发管理非交互式expect
- CSDN 厦门大学线下编程比赛第一题:求和(同余定理)
- Web 前沿——HTML5 Form Data 对象的使用
- JIRA 6.3.6版本部署
- PHP中遍历stdclass object 及 json 总结[中国航天神舟十号以json形式向地面返回数据]...
- 如何解决:Android中 Error generating final archive: Debug Certificate expired on 的错误
- UA MATH571B 试验设计 2k析因设计理论上
- Bochs调试Linux内核初级入门2、bochs调试断点和单步指令、0x7c00、关中断和开中断指令
- SQL Server Profiler (SQL跟踪器)的简单使用
- VS2010插件编写学习总结