通常会把整个训练集分成两个部分:拿数据的约 60-80 % 放入我们的训练集,用来生成模型;然后拿剩下的数据放入一个测试集,在模型生成后,立即用其来测试我们模型的准确性。

那么这个额外的步骤为什么在此模型中如此重要呢?这个问题就是所谓的过拟合:如果我们提供过多 数据用于模型创建,我们的模型虽然会被完美创建,但只针对的是该数据。请记住:我们想使用此模型来预测未来的未知数;我们不是想使用此模型来准确地预测我们已经知道的值。这就是为什么我们要创建一个测试集。在创建了模型后,我们要进行检查以确保我们所创建模型的准确性不会在测试集降低。这就保证了我们的模型会准确地预测出未来的未知值。

修剪。修剪 正如其名字所指,意思是删减分类树的枝条。那么为什么有人会想要将信息从分类树中删除呢?还是因为过拟合的缘故。随着数据集的增大以及属性数量的增长,我们所创建的树就会越来越复杂。理论上讲,一个树可以具有 leaves = (rows * attributes)。但那又有何益处呢?就预测未来的未知数而言,它根本帮不到我们,因它只适于我们现有的训练数据。因此我们需要的是一种平衡。我们想要我们的树尽量简单,节点和枝叶尽量少。同时我们还想要它尽量地准确。

假正指的是这样的一个数据实例:我们创建的这个模型预测它应该是正的,但事实相反,实际值却是负的。同样地,假负指的是这样一个数据实例:我们创建的这个模型预测它应该是负的,但事实相反,实际值却是正的。

这些错误表明在我们的模型中出了问题,我们的模型正在错误地分类某些数据。虽然可能会出现不正确的分类,但可接受的错误百分比由模型创建者决定。比如,如果是在医院里测试心脏监视器,很显然,将需要极低的错误百分比。而如果您只是在有关数据挖掘的文章中挖掘一些虚构的数据,那么错误率可以更高一些。为了使之更进一步,还需要决定可以接受的假负与假正的百分比率是多少。我立即想到的一个例子就是垃圾邮件模型:一个假正(一个真邮件被标记为了垃圾邮件)要比假负(一个垃圾消息未被标记为垃圾邮件)更具破坏性。在像这样的例子中,就可以判断假负:假正的比率最低为 100:1 才是可以接受的。

转载于:https://www.cnblogs.com/springMVC/archive/2011/10/06/2204753.html

【转】基本概念:过拟合、修剪、假正、假负相关推荐

  1. ROC/AUC、精准率、召回率、真正率,假正率等指标含义,学习笔记

    1. 混淆矩阵 对于二分类模型,预测值与真实值的组合情况,行成了混淆矩阵. 第一个字母表示是否预测正确(T/F),第二个表示预测为 P/1 还是 N/0. 2. 准确率 预测正确的结果占总样本的百分比 ...

  2. 分类问题结果统计指标的解释:真正类率TPR与假正类率FPR、查全率与查准率、感受性与特异性

    分类问题结果统计指标的解释:真正类率TPR与假正类率FPR.查全率与查准率.感受性与特异性 预测及结果概念定义:TP.FN.FP.TN 对于一个模型接受输入后的预测结果,可由下表表示.表中1代表正样本 ...

  3. 准确率,精准率,召回率,真正率,假正率,ROC/AUC

      最近在看到这些词得时候老是混淆,看了之后还很容易遗忘,于是查了些资料把他们记录下来. 我们在设计深度学习网络模型的时候经常要对其进行评估,评估就要用到这些东西,在接介绍这个率,那个率之前,我先来介 ...

  4. 机器学习基础概念——过拟合和欠拟合

    欢迎关注,敬请点赞! 机器学习基础概念--过拟合和欠拟合 1. 基本概念 1.1 偏差和方差 2. 欠拟合和过拟合 2.1 学习曲线 2.2 复杂程度曲线 2.3 支持向量机的过拟合和欠拟合 2.4 ...

  5. 模型评估——ROC曲线与AUC计算(真正率假正率)

    评估方法: 在学习得到的模型投放使用之前,通常需要对其进行性能 评估.为此, 需使用一个"测试集"(testing set)来测试 模型对新样本的泛化能力,然后以测试集上的&quo ...

  6. 人工智能基础——为什么逻辑学中“假推真”、“假推假”永远是真命题?

    实际上这章讲的是逻辑学,什么合取范式.析取范式啥的,但是哪些形式化的东西我懒得去写,我们不如考虑其中一个最令人感到费解的问题,为什么"假推真"."假推假"是真命 ...

  7. python使用生成器生成浮点数列表、使用生成器生成(正)负的浮点数列表

    python使用生成器生成浮点数列表.使用生成器生成(正)负的浮点数列表 目录 pyth

  8. c语言学习-判断一个数的正、负,输出相应信息

    判断一个数的正.负,输出相应信息 程序流程图: 代码: #include<stdio.h> void main() {float a; printf("输入一个数:\n" ...

  9. C语言 输入一个数值,分析是正还是负,并打印出此数

    C语言  输入一个数值,分析是正还是负,并打印出此数 #include <stdio.h>int main(void) {int x;printf("张宝田\n");s ...

最新文章

  1. 这家公司耕耘超算20年,连续3年世界第一,现在加速中国AI
  2. LeetCode Search a 2D Matrix II
  3. centos7定制linux镜像,自定制Centos7.3系统镜像(ISO)
  4. python快递分拣小程序_利用Python开发的ATM小程序
  5. 【Excel-2010】VLOOKUP函数
  6. 用Appscan 作代理,录制APP页面的限制条件
  7. 卸载win10预装软件和小娜
  8. 安装imageai,tensorflow
  9. 如何安装.ipa文件
  10. GIMP:图层蒙版应用小例
  11. 用matlab做一个有刻度的网格,MATLAB已知坐标如何画网格图
  12. html解压zip文件怎么打开方式,zip文件是什么文件,如何打开zip格式的文件?
  13. W ndows7蓝屏0x00000024,Win7开机蓝屏报错0x00000024如何解决?
  14. mac笔记本怎么外接显示屏_苹果MAC笔记本怎么外接显示器
  15. redis实现坐标附近查询
  16. win10恢复经典开始菜单_厌倦了默认的Win10开始菜单外观?这是自定义的方法
  17. 15分钟看完:悉尼科技大学入选 CVPR 2021 的 9 篇论文,都研究什么?
  18. 什么是MySQL索引
  19. 基于相邻交叉口相似性的交通控制子区域方法动态划分
  20. 信号处理学习笔记6——自适应滤波器4-递归最小二乘(RLS)自适应滤波器

热门文章

  1. 如何通过网站优化的方式提升网站转化率?
  2. 优质网站策划从四个方面进行判断
  3. java 找不到工程文件_类加载器找不到文件求帮助
  4. mysql error manager,MYSQL Starting MySQL. ERROR! Manager of pid-file quit without updating file
  5. vant图标怎么显示不出来_U盘插进电脑但不显示怎么解决
  6. vrp车辆路径问题 php,蚁群算法在车辆路径问题(VRP)中的应用.ppt
  7. oracle 日期改字符格式_oracle怎么把数值型日期转换成日期字符型
  8. 关于Android加载的优化
  9. 网络安全中机器学习大合集 Awesome
  10. IJ pom包的自动导入设置