前言

改进机器学习算法模型的方法有很多例如:

  1. 获得更多的训练样本——通常是有效的,但代价较大,下面的方法也可能有效。
  2. 减少特征的数量
  3. 获得更多的特征
  4. 增加多项式特征
  5. 减少正则化程度
  6. 增加正则化程度

但是,我们不应该随机选择上面的某种方法来改进算法,而是运用一些机器学习诊断法来帮助了解上面哪些方法对我们的算法是有效的。

1 评估一个假设

通常认为选择参量使训练误差最小化,当得到一个非常小的训练误差,人们会认为是一件好事。实际中,对于一个模型来说,这并不是一件好事,也不能说明该模型已经非常不错了。我们知道过拟合的情况,模型在训练集种表现出了优秀的形态,但是在测试集中就不是很适用了。 现在摆在我们面前的问题是:

如何判断一个假设函数是过拟合的?
一般的做法是,将数据分成训练集和测试集,通常用70%的数据作为训练集,用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据,通常要对数据进行“洗牌”,然后再分成训练集和测试集。这也是经常在机器学习和深度学习中能够看到的操作。

测试集评估是指:将训练集学习得到的模型参数运用到测试集中,对于线性回归和逻辑回归有两种方式计算误差方式:

  1. 线性回归模型,利用测试集数据计算代价函数JJJ
  2. 逻辑回归模型,除了可以利用测试数据集来计算代价函数外:
    Jtest(θ)=−1mtest∑i=1mtestlog⁡hθ(xtest(i))+(1−ytest(i))log⁡hθ(xtest(i))J_{t e s t}(\theta)=-\frac{1}{m_{\text {test}}} \sum_{i=1}^{m_{\text {test}}} \log h_{\theta}\left(x_{\text {test}}^{(i)}\right)+\left(1-y_{\text {test}}^{(i)}\right) \log h_{\theta}\left(x_{\text {test}}^{(i)}\right)Jtest​(θ)=−mtest​1​i=1∑mtest​​loghθ​(xtest(i)​)+(1−ytest(i)​)loghθ​(xtest(i)​)
    由于逻辑回归是分类模型,还可以使用误分类的比率,对于每一个测试集样本,计算:
    err⁡(hθ(x),y)={1if h(x)≥0.5and y=0,or if h(x)<0.5and y=10Otherwise \operatorname{err}\left(h_{\theta}(x), y\right)=\left\{\begin{array}{ll} 1 \text { if } h(x) \geq 0.5 \text { and } y=0, \text { or if } h(x)<0.5 \text { and } y=1 \\ 0 \text { Otherwise } \end{array}\right.err(hθ​(x),y)={1 if h(x)≥0.5 and y=0, or if h(x)<0.5 and y=10 Otherwise ​
    然后对计算结果求平均。

2 模型选择和交叉验证集

在线性回归中,为了拟合数据,我们可能使用多项式线性回归,那么就会对于一个数据样本有多个模型,例如:

显然越高次数的多项式模型越能够适应训练数据集,但是适应训练数据集并不代表着能推广至一般情况,应该选择一个更能适应一般情况的模型。这时需要使用交叉验证集来帮助选择模型。 即:使用60%的数据作为训练集,使用 20%的数据作为交叉验证集,使用20%的数据作为测试集。

选择模型的步骤:

  1. 使用训练集训练出10个模型
  2. 用10个模型分别对交叉验证集数据进行计算,得出交叉验证误差(代价函数的值)
  3. 选取代价函数值最小的模型
  4. 用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

涉及到的公式:

Training error:
Jtrain(θ)=12m∑i=1m(hθ(x(i))−y(i))2J_{\text {train}}(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}Jtrain​(θ)=2m1​i=1∑m​(hθ​(x(i))−y(i))2
Cross Validation error:
Jcv(θ)=12mcv∑i=1m(hθ(xcv(i))−ycv(i))2J_{c v}(\theta)=\frac{1}{2 m_{c v}} \sum_{i=1}^{m}\left(h_{\theta}\left(x_{c v}^{(i)}\right)-y_{c v}^{(i)}\right)^{2}Jcv​(θ)=2mcv​1​i=1∑m​(hθ​(xcv(i)​)−ycv(i)​)2
Test error:
Jtest(θ)=12mtest∑i=1mtest(hθ(xcv(i))−ycv(i))2J_{t e s t}(\theta)=\frac{1}{2 m_{t e s t}} \sum_{i=1}^{m_{t e s t}}\left(h_{\theta}\left(x_{c v}^{(i)}\right)-y_{c v}^{(i)}\right)^{2}Jtest​(θ)=2mtest​1​i=1∑mtest​​(hθ​(xcv(i)​)−ycv(i)​)2

3 诊断偏差和方差

(偏差和误差内容也经常在机器学习相关工作的笔试题中遇见)
当运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况:要么是偏差比较大,要么是方差比较大。换句话说,出现的情况要么是欠拟合,要么是过拟合问题。
那么这两种情况,哪个和偏差有关,哪个和方差有关,或者是不是和两个都有关?

搞清楚这一点非常重要,因为能判断出现的情况是这两种情况中的哪一种,可以更好地改进改进模型算法。高偏差和高方差的问题基本上来说是欠拟合和过拟合的问题。

通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上的方式来辅助分析:


Bias(偏差)/variance(方差)
Training error:
Jtrain(θ)=12m∑i=1m(hθ(x(i))−y(i))2J_{\text {train}}(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}Jtrain​(θ)=2m1​i=1∑m​(hθ​(x(i))−y(i))2
Cross Validation error:
Jcv(θ)=12mcv∑i=1m(hθ(xcv(i))−ycv(i))2J_{c v}(\theta)=\frac{1}{2 m_{c v}} \sum_{i=1}^{m}\left(h_{\theta}\left(x_{c v}^{(i)}\right)-y_{c v}^{(i)}\right)^{2}Jcv​(θ)=2mcv​1​i=1∑m​(hθ​(xcv(i)​)−ycv(i)​)2
损失与多项式次数关系图绘制思路如下:

参数说明:ddd表示多项式最高次数。对于训练集,当 ddd较小时,模型拟合程度低,误差较大;随着ddd的增长,拟合程度提高,误差减小。 对于交叉验证集,当ddd较小时,模型拟合程度低,误差较大;但是随着ddd的增长,误差呈现先减小后增大的趋势,转折点是模型开始过拟合训练数据集的时候。 如果交叉验证集误差较大,我们如何判断是方差还是偏差呢? 根据上面分析有:


(明确:bias 和 variance 本质是欠拟合和过拟合之间的关系)
可得到的结论:

  • 训练集误差和交叉验证集误差近似时:偏差/欠拟合
  • 交叉验证集误差远大于训练集误差时:方差/过拟合

4 正则化和偏差/方差

我们知道,在训练模型的过程中,一般会使用一些正则化方法来防止过拟合。但是可能出现会正则化的程度太高或太小的情况,即在选择λ\lambdaλ的值时候也需要思考与刚才选择多项式模型次数类似的问题。选择不同λ\lambdaλ可能出现如下情形:

选择一系列的想要测试的 λ\lambdaλ值,通常是 0-10之间的呈现2倍关系的值(如:0,0.01,0.02,0.04,0.08,0.16,0.32,0.64,1.28,2.56,5.12,10共12个)。同样把数据分为训练集、交叉验证集和测试集。

选择λ\lambdaλ步骤:

  1. 使用训练集训练出12个不同程度正则化的模型
  2. 用12个模型分别对交叉验证集计算的出交叉验证误差
  3. 选择得出交叉验证误差最小的模型
  4. 运用步骤3中选出模型对测试集计算得出推广误差,也可以同时将训练集和交叉验证集模型的代价函数误差与λ\lambdaλ的值绘制在一张图表上:

    根据上图可以得到的结论是:
  • 当 λ\lambdaλ 较小时,训练集误差较小(过拟合)而交叉验证集误差较大
  • 随着 λ\lambdaλ 的增加,训练集误差不断增加(欠拟合),而交叉验证集误差则是先减小后增加

5 学习曲线

学习曲线就是一种很好的工具,可使用学习曲线来判断某一个学习算法是否处于偏差、方差问题。学习曲线是学习算法的一个很好的合理检验(sanity check),是将训练集误差和交叉验证集误差作为训练集样本数量(mmm)的函数绘制的图表。 也就是说,如果有100行数据,从第1行数据开始,逐渐学习更多行的数据,思想是:当训练较少行数据时,训练的模型将能够非常完美地适应较少的训练数据,但是训练出来的模型却不能很好地适应交叉验证集数据或测试集数据。


如何利用学习曲线识别高偏差/欠拟合
以线性回归为例,尝试用一条直线来适应下面的数据,可以看出,无论训练集有多么大误差都不会有太大改观:

也就是说在高偏差/欠拟合的情况下,增加数据到训练集不一定能有帮助(模型本身的问题)。

如何利用学习曲线识别高方差/过拟合
假设使用一个非常高次的多项式模型,并且正则化非常小,可以看出,当交叉验证集误差远大于训练集误差时(过拟合),往训练集增加更多数据可以提高模型的效果。

也就是说在高方差/过拟合的情况下,增加更多数据到训练集可能可以提高算法效果。

6 如何优化模型

我们已经知道了怎样评价一个学习算法,模型选择问题,偏差和方差的问题。那么这些诊断法则怎样辅助我们判断,哪些方法可能有助于改进学习算法的效果,而哪些可能是徒劳的呢?在第一节中提出了六种方法,这六种方法该如何选择呢?

获得更多的训练样本——解决高方差(过拟合)
尝试减少特征的数量——解决高方差(过拟合)
尝试获得更多的特征——解决高偏差(欠拟合)
尝试增加多项式特征——解决高偏差(欠拟合)
尝试减少正则化程度λ\lambdaλ——解决高偏差(欠拟合)
尝试增加正则化程度λ\lambdaλ——解决高方差 (过拟合)

神经网络的方差和偏差

使用较小的神经网络,类似于特征参数较少的情况,容易导致高偏差和欠拟合,但计算代价较小。
使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算代价比较大,但是可以通过正则化手段来调整来适应数据。
通常选择较大的神经网络并采用正则化处理会比采用较小的神经网络效果要好。 对于神经网络中的隐藏层的层数的选择,通常从一层开始逐渐增加层数,为了更好地作选择,可以把数据分为训练集、交叉验证集和测试集,针对不同隐藏层层数的神经网络训练神经网络, 然后选择交叉验证集代价最小的神经网络。

总结

有了这么思考和结论,在以后的模型构建和优化中,多往这些方面思考一下,省去无意义的时间。

【机器学习】模型优化改进建议相关推荐

  1. 吴恩达《机器学习》学习笔记十四——应用机器学习的建议实现一个机器学习模型的改进

    吴恩达<机器学习>学习笔记十四--应用机器学习的建议实现一个机器学习模型的改进 一.任务介绍 二.代码实现 1.准备数据 2.代价函数 3.梯度计算 4.带有正则化的代价函数和梯度计算 5 ...

  2. 性能翻倍!斯坦福Matei团队推出机器学习模型优化新方法

    机器学习模型正在被越来越多地部署在任务关键型系统中,比如自动驾驶汽车.然而,这些模型可能会因为各种复杂的原因失效,应用程序开发人员必须找到调试这些模型的方法.我们建议在ML模型调试任务中使用软件断言. ...

  3. 机器学习模型 非线性模型_调试机器学习模型的终极指南

    机器学习模型 非线性模型 You've divided your data into a training, development and test set, with the correct pe ...

  4. 模型优化之模型融合|集成学习

    目录 模型融合 Bagging 随机森林RF Boosting Adaboost GBDT Xgboost Stacking Blending 结合策略 平均法 投票法 学习法 在机器学习训练完模型之 ...

  5. 模型效果差?我建议你掌握这些机器学习模型的超参数优化方法

    模型优化是机器学习算法实现中最困难的挑战之一.机器学习和深度学习理论的所有分支都致力于模型的优化. 机器学习中的超参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的超参数.超参数与一般模型参 ...

  6. 机器学习在高德搜索建议中的应用优化实践

    来自:高德技术 导读:高德的愿景是:连接真实世界,让出行更美好.为了实现愿景,我们要处理好LBS大数据和用户之间的智能链接.信息检索是其中的关键技术,而搜索建议又是检索服务不可或缺的组成部分. 本文将 ...

  7. 5分钟掌握手动优化机器学习模型超参数

    机器学习算法具有超参数,可让这些算法针对特定的数据集进行量身定制. 尽管通常可以理解超参数的影响,但是可能不知道它们对数据集的特定影响以及它们在学习期间的交互作用.因此,作为机器学习项目的一部分,调整 ...

  8. 机器学习模型评估与改进:网格化调参(grid search)

    文章目录 简单网格化搜索 参数过拟合的风险 网格搜索与交叉验证 模型调参接口: GridSearchCV函数 整体流程 GridSearchCV( )函数 对交叉验证进一步分析 不同核方法的情况 网格 ...

  9. 机器学习模型评估  过拟合与欠拟合的改进方案

    在模型评估与调整的过程中, 我们往往会遇到"过拟合"或"欠拟合"的情况. 如何有效地识别"过拟合"和"欠拟合"现象, 并 ...

  10. 机器学习模型应用以及模型优化的一些思路

    机器学习模型应用以及模型优化的一些思路 1 概述 本文会介绍如何应用机器学习模型来构建一个智能化应用的通用的过程以及过程中每个环节一些实践性的思路. 2 搭建基于机器学习模型的智能化应用的通用流程 下 ...

最新文章

  1. Zookeeper集群部署和使用
  2. Java课程主观题作业_JAVA课程作业01
  3. [概述] SAP增强基本含义及分类
  4. mysql docker自动化_docker自动化部署
  5. Java格式化日期和时间模式占位符
  6. java 读 xml_Java读写XML代码示例
  7. php实现斐波那契数列
  8. Vue—相关工具—webpack
  9. tomcat配置加密的连接器https
  10. c语言中prime的作用,C语言判断素数prime
  11. linux上听FM程序,安装和使用Odio在Linux上收听FM收音机的方法
  12. 政治经济学第一-三章脉络图
  13. 各层电子数排布规则_核外电子的排布规律
  14. VS2017 离线安装vsix插件
  15. 关于MSN群 创建MSN群 使用MSN群
  16. AcWing 143. 最大异或对 —— 神奇的二进制
  17. 代码整洁之道——如何写出整洁高效的代码
  18. 根据ip查经纬度软件_根据地址查询经纬度IP(百度地图)
  19. Cacti监控华为交换机不显示端口解决办法
  20. Ubuntu下安装Remix OS双系统

热门文章

  1. Java集合框架基础介绍
  2. c语言起点到目的地方法数,最短路径动态规划问题及C语言实现探讨
  3. 韩顺平图解Java设计模式
  4. linux 0891端口,凯立德导航专用版本号及分辨率、端口、波特率
  5. 基于C语言的基础学习Java
  6. 黑马程序员_毕向东_Java基础视频教程第01天
  7. (传播智客)刘意Java基础班精华版
  8. C语言课设物业费管理系统(大作业)
  9. Python 实例教程
  10. 16.1 调色板的使用