统计学习方法中说:k值越小,学习的近似误差(approximation error)越小,估计误差(estimation error)越大,反之则相反

http://blog.csdn.net/weixin_37895339/article/details/78794190


近似误差:可以理解为对现有训练集的训练误差。 估计误差:可以理解为对测试集的测试误差。*

近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。

https://www.zhihu.com/question/60793482

近似误差其实可以理解为模型估计值与实际值之间的差距。 估计误差其实可以理解为模型的估计系数与实际系数之间的差距。

在这个k临近法中其实设定的k值越小,得出的模型是越复杂的,因为k值越小会导致特征空间被划分成更多的子空间(可以理解为模型的项越多)。而k值越大得到的模型其实是越简单的 - -
所以当k值越小,对于训练集的预测更加精确,近似误差会越小(因为你选择了更加复杂的模型去预测训练集)。当k值越大,对于训练集的预测则不会那么准确,所以近似误差会越大(因为你选择了更加简单的模型去预测)。
而另一方面,由于设定了比较小的k值,模型比较复杂就会产生过度拟合(overfitting)的问题。

近似误差,更关注于“训练”。

最小化近似误差,即为使估计值尽量接近真实值,但是这个接近只是对训练样本(当前问题)而言,模型本身并不是最接近真实分布。换一组样本,可能就不近似了。这种只管眼前不顾未来预测的行为,即为过拟合。

估计误差,更关注于“测试”、“泛化”。

最小化估计误差,即为使估计系数尽量接近真实系数,但是此时对训练样本(当前问题)得到的估计值不一定是最接近真实值的估计值;但是对模型本身来说,它能适应更多的问题(测试样本)

近似误差 与 估计误差相关推荐

  1. 基础知识 | 近似误差 估计误差

    模型假设空间 F \mathcal{F} F的最优解 f ~ = a r g m i n f ∈ F R ( f ) \tilde{f}=\underset{f\in \mathcal{F}}{arg ...

  2. 统计学习方法 pdf_李航统计学习方法(第三章)

    第3章 k 近邻法 k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题).它的特点是对特征空间进行搜索.除了k近邻法,本章还对以下几个问题进行较深入的讨论: ...

  3. 特征选择和特征生成问题初探

    1. 为什么要进行特征选择? 0x1:有哪些因素会影响模型利用先验知识? 我们知道,一个算法学习可以成功预测,一个很重要的关键是目标问题隐含了特定模式的先验假设(先验知识),而算法要做的唯一的事情,就 ...

  4. 【机器学习】KNN算法代码练习

    本课程是中国大学慕课<机器学习>的"KNN"章节的课后代码. 课程地址: https://www.icourse163.org/course/WZU-146409617 ...

  5. 复现经典:《统计学习方法》第 3 章 k 近邻法

    本文是李航老师的<统计学习方法>[1]一书的代码复现. 作者:黄海广[2] 备注:代码都可以在github[3]中下载. 我将陆续将代码发布在公众号"机器学习初学者", ...

  6. 机器学习理论《统计学习方法》学习笔记:第三章 k近邻法

    机器学习理论<统计学习方法>学习笔记:第三章 k近邻法 3 k近邻法 3.1 K近邻算法 3.2 K近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 K值的选择 3.2.4 分 ...

  7. Knn原理及Python实现、数据展示

    KNN原理及优缺点 KNN的python实现 KNN的python代码中的数据格式 KNN原理及优缺点 KNN算法又称为k近邻分类(k-nearest neighbor classification) ...

  8. 统计学习方法笔记(李航)———第三章(k近邻法)

    k 近邻法 (k-NN) 是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化 问题).它的特点是对特征空间进行搜索.除了k近邻法,本章还对以下几个问题进行较深入的讨 论: 切比雪夫距 ...

  9. 统计学习方法 李航 读书笔记

    ************************************************************ 李航教授<统计学习方法> 统计学教材总结 主要介绍监督学习方法 * ...

最新文章

  1. 在tomcat中用jndi配置数据源启动java web程序
  2. 水星记(Mercury Records)
  3. 中国固件更新软件被指盗取用户数据 遭美手机厂商替换
  4. 物联网平台 源码_国内首个智慧交通物联网平台发布
  5. python 获取主机名 根据端口杀死进程
  6. 如何判断ios设备中是否安装了某款应用
  7. 使用Maven运行Java main的方法(转)
  8. 部署shiro官方源码时,执行maven命令出错
  9. 使用JavaConfig的SpringMVC4 + Spring Data JPA + SpringSecurity配置
  10. [导入]使用SqlCommand对象执行存储过程
  11. python清洗文本数据_02.数据预处理之清洗文本信息
  12. SQL转换全角和半角函数
  13. Django的url别名功能的使用
  14. [Android] Android 任务栈 【转载】
  15. Matlab多光谱kmeans聚类分割
  16. kmeans算法c语言代码,ML算法与代码实现——Kmeans(案例)
  17. 天涯明月刀开发_天涯明月刀手游公测上线,斗鱼暗地操作,打造第二个PDD
  18. mysql查询排名名次
  19. 服务器控件与客户端控件
  20. IIS之web服务器部署

热门文章

  1. Hadoop3.2.1 【 YARN 】源码分析 : NodeStatusUpdaterImpl概述
  2. 0x80073712_Win10更新提示0x80073712错误代码解决方法
  3. 哈工大计算机系统lab7——微壳
  4. linux 内存溢出排查_linux下valgrind内存问题排查
  5. 基于SSM的物流信息管理系统(附论文)
  6. 【linux】md5sum 命令详解
  7. 数字工厂管理系统的应用领域有哪些
  8. 墨珩科技超衡联盟链通过中国赛宝实验室测试
  9. 两个例子讲清Thread的setDaemon的作用
  10. Python标准库文件基本操作以及中文路径问题