文章目录

  • 0. 前言
  • 1. 偏差方差的解决方法
  • 2. 高偏差高方差的学习曲线
  • 3. 调试模型技巧

如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

0. 前言

泛化误差可分解为偏差、方差、噪声之和。

  • 偏差:度量了学习算法的期望预测与真实结果的偏离程度
  • 方差:度量了同样大小的数据集的变动所导致的学习性能的变化
  • 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差下界
  • 泛化性能:由学习算法的能力、数据的充分性、学习任务本身难度所共同决定的

与偏差方差所对应的是欠拟合和过拟合。

  • 欠拟合:偏差主导了泛化错误率,学习器的拟合能力不够强,不能学习到数据的普遍特性
  • 过拟合:方差主导了泛化错误率,学习器的拟合能力过于强,甚至学习了一些数据的个性

泛化误差与偏差、方差的关系如下图所示(图源:机器学习):

1. 偏差方差的解决方法

偏差,是指模型不能很好的学习到数据的普遍特性,所谓欠拟合

  1. 使用更好的优化算法
  2. 增加特征数量
  3. 搜索更好的超参数
  4. 使用不同的算法架构

方差,是指模型过于好的学习了数据,甚至学习了一些数据的个性,所谓过拟合

  1. 更多的训练数据
  2. 使用正则化
  3. 减少特征数量
  4. 搜索更好的超参数
  5. 使用不同的算法架构

贝叶斯最佳误差和训练集误差的差距,等效为偏差。

训练集误差和开发集误差的差距,等效为方差。

2. 高偏差高方差的学习曲线

横坐标为训练集大小,纵坐标为错误分类率或者代价函数。

在高偏差的情况下如下图所示(图源:吴恩达机器学习):

在高偏差的情况下如下图所示(图源:吴恩达机器学习):

3. 调试模型技巧

  1. 降低训练集上的代价函数,如果不能有效的降低,考虑是偏差原因
  2. 降低开发集上的代价函数,如果不能有效的降低,考虑是方差原因
  3. 降低测试集上的代价函数,如果不能有效的降低,考虑可能是开发集太小和测试集不匹配,使用更大的开发集
  4. 使其在真实世界中表现良好,如果不能有效的表现,考虑可能是开发集或测试集设置选择的不正确,或者代价函数不能有效的评估误差

对于特征不同的维度取值相差很远,可以采用特征缩放,即归一化,有助于训练。


如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

西瓜书+实战+吴恩达机器学习(二)机器学习基础(偏差、方差、调试模型技巧)相关推荐

  1. 西瓜书+实战+吴恩达机器学习(二二)概率图模型之马尔可夫随机场

    文章目录 0. 前言 1. 马尔可夫随机场结构 2. 近似推断 2.1. Metropolis-Hastings 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 ...

  2. 西瓜书+实战+吴恩达机器学习(二一)概率图模型之贝叶斯网络

    文章目录 0. 前言 1. 贝叶斯网络结构 2. 近似推断 2.1. 吉布斯采样 3. 隐马尔可夫模型HMM 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 概率 ...

  3. 西瓜书+实战+吴恩达机器学习(十二)监督学习之AdaBoost

    文章目录 0. 前言 1. AdaBoost算法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 Boosting:先训练一个基学习器,然后根据学习器的表现对样本 ...

  4. 西瓜书+实战+吴恩达机器学习(二十)随机算法(拉斯维加斯方法、蒙特卡罗方法)

    文章目录 0. 前言 1. 拉斯维加斯方法 2. 蒙特卡罗方法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 随机算法主要分为两种类型: 拉斯维加斯方法:采样次 ...

  5. 西瓜书+实战+吴恩达机器学习(十五)无监督学习之关联分析(Apriori, FP-growth)

    文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集 如果这篇文章对你有一点小小的 ...

  6. 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)

    文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...

  7. 西瓜书+实战+吴恩达机器学习(三)机器学习基础(多分类、类别不平衡)

    文章目录 0. 前言 1. 多分类学习 2. 类别不平衡 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 本篇介绍机器学习中的多分类和类别不平衡问题. 1. 多分 ...

  8. 西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)

    文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...

  9. 西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)

    文章目录 0. 前言 1. 主成分分析PCA 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 维数灾难:在高维情形下出现的数据样本稀疏.距离计算困难等问题. 缓解 ...

最新文章

  1. Servlet 服务器端小程序
  2. 第4周小组作业:WordCount优化
  3. 事务里面捕获异常_三问Spring事务:解决什么问题?如何解决?存在什么问题?...
  4. MySQL Cookbook 学习笔记-04
  5. 8.霍夫变换:线条——动手编码、霍夫演示_4
  6. pyqt5 qscrollarea到达_PyQt5如何用QPainter在QScrollArea上画线?
  7. python 分类变量xgboost_XGBoost 原理 及 常见面试题
  8. 多线程面试体系列(13):多线程同步内功心法——PV操作下
  9. jsp servlet mysql 乱码_关于jsp和servlet中的乱码问题
  10. MyBatis中foreach的用法
  11. (CVPR-2021)动态区域感知卷积
  12. AI人工智能算法解析落地实践专栏列表
  13. 为什么不建议你使用Mybatis-plus
  14. MongoDB 数据库(一):MongoDB的介绍与安装
  15. python 基础词汇及其应用1
  16. android显示加密图片,求高手android怎样实现加密比如说文件加密图片加密等???...
  17. Git原理及实践(Fork模式)
  18. 对不起!你的程序员同事抛弃你时,可没空和你说再见。
  19. t检验自由度的意义_T检验和F检验 自由度(转)
  20. 如何使用Docx4J合并docx及pptx文档

热门文章

  1. struts2第一个程序 Helloworld
  2. Summary - 2017
  3. CodeForces 214B Hometask
  4. class DELPHICLASS TObject
  5. 多路I/O转接之select模型
  6. The word is not correctly spelled问题解决
  7. hdu_1285_确定比赛名次_201312081335
  8. document.execCommand() 解析
  9. 世界摩天大楼2009年排名
  10. 转载:Prototype.js的中文使用手册