西瓜书+实战+吴恩达机器学习(二)机器学习基础(偏差、方差、调试模型技巧)
文章目录
- 0. 前言
- 1. 偏差方差的解决方法
- 2. 高偏差高方差的学习曲线
- 3. 调试模型技巧
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
泛化误差可分解为偏差、方差、噪声之和。
- 偏差:度量了学习算法的期望预测与真实结果的偏离程度
- 方差:度量了同样大小的数据集的变动所导致的学习性能的变化
- 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差下界
- 泛化性能:由学习算法的能力、数据的充分性、学习任务本身难度所共同决定的
与偏差方差所对应的是欠拟合和过拟合。
- 欠拟合:偏差主导了泛化错误率,学习器的拟合能力不够强,不能学习到数据的普遍特性
- 过拟合:方差主导了泛化错误率,学习器的拟合能力过于强,甚至学习了一些数据的个性
泛化误差与偏差、方差的关系如下图所示(图源:机器学习):
1. 偏差方差的解决方法
偏差,是指模型不能很好的学习到数据的普遍特性,所谓欠拟合:
- 使用更好的优化算法
- 增加特征数量
- 搜索更好的超参数
- 使用不同的算法架构
方差,是指模型过于好的学习了数据,甚至学习了一些数据的个性,所谓过拟合:
- 更多的训练数据
- 使用正则化
- 减少特征数量
- 搜索更好的超参数
- 使用不同的算法架构
贝叶斯最佳误差和训练集误差的差距,等效为偏差。
训练集误差和开发集误差的差距,等效为方差。
2. 高偏差高方差的学习曲线
横坐标为训练集大小,纵坐标为错误分类率或者代价函数。
在高偏差的情况下如下图所示(图源:吴恩达机器学习):
在高偏差的情况下如下图所示(图源:吴恩达机器学习):
3. 调试模型技巧
- 降低训练集上的代价函数,如果不能有效的降低,考虑是偏差原因
- 降低开发集上的代价函数,如果不能有效的降低,考虑是方差原因
- 降低测试集上的代价函数,如果不能有效的降低,考虑可能是开发集太小和测试集不匹配,使用更大的开发集
- 使其在真实世界中表现良好,如果不能有效的表现,考虑可能是开发集或测试集设置选择的不正确,或者代价函数不能有效的评估误差
对于特征不同的维度取值相差很远,可以采用特征缩放,即归一化,有助于训练。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
西瓜书+实战+吴恩达机器学习(二)机器学习基础(偏差、方差、调试模型技巧)相关推荐
- 西瓜书+实战+吴恩达机器学习(二二)概率图模型之马尔可夫随机场
文章目录 0. 前言 1. 马尔可夫随机场结构 2. 近似推断 2.1. Metropolis-Hastings 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 ...
- 西瓜书+实战+吴恩达机器学习(二一)概率图模型之贝叶斯网络
文章目录 0. 前言 1. 贝叶斯网络结构 2. 近似推断 2.1. 吉布斯采样 3. 隐马尔可夫模型HMM 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 概率 ...
- 西瓜书+实战+吴恩达机器学习(十二)监督学习之AdaBoost
文章目录 0. 前言 1. AdaBoost算法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 Boosting:先训练一个基学习器,然后根据学习器的表现对样本 ...
- 西瓜书+实战+吴恩达机器学习(二十)随机算法(拉斯维加斯方法、蒙特卡罗方法)
文章目录 0. 前言 1. 拉斯维加斯方法 2. 蒙特卡罗方法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 随机算法主要分为两种类型: 拉斯维加斯方法:采样次 ...
- 西瓜书+实战+吴恩达机器学习(十五)无监督学习之关联分析(Apriori, FP-growth)
文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集 如果这篇文章对你有一点小小的 ...
- 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)
文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...
- 西瓜书+实战+吴恩达机器学习(三)机器学习基础(多分类、类别不平衡)
文章目录 0. 前言 1. 多分类学习 2. 类别不平衡 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 本篇介绍机器学习中的多分类和类别不平衡问题. 1. 多分 ...
- 西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)
文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...
- 西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)
文章目录 0. 前言 1. 主成分分析PCA 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 维数灾难:在高维情形下出现的数据样本稀疏.距离计算困难等问题. 缓解 ...
最新文章
- Servlet 服务器端小程序
- 第4周小组作业:WordCount优化
- 事务里面捕获异常_三问Spring事务:解决什么问题?如何解决?存在什么问题?...
- MySQL Cookbook 学习笔记-04
- 8.霍夫变换:线条——动手编码、霍夫演示_4
- pyqt5 qscrollarea到达_PyQt5如何用QPainter在QScrollArea上画线?
- python 分类变量xgboost_XGBoost 原理 及 常见面试题
- 多线程面试体系列(13):多线程同步内功心法——PV操作下
- jsp servlet mysql 乱码_关于jsp和servlet中的乱码问题
- MyBatis中foreach的用法
- (CVPR-2021)动态区域感知卷积
- AI人工智能算法解析落地实践专栏列表
- 为什么不建议你使用Mybatis-plus
- MongoDB 数据库(一):MongoDB的介绍与安装
- python 基础词汇及其应用1
- android显示加密图片,求高手android怎样实现加密比如说文件加密图片加密等???...
- Git原理及实践(Fork模式)
- 对不起!你的程序员同事抛弃你时,可没空和你说再见。
- t检验自由度的意义_T检验和F检验 自由度(转)
- 如何使用Docx4J合并docx及pptx文档