近似误差 与 估计误差
统计学习方法中说:k值越小,学习的近似误差(approximation error)越小,估计误差(estimation error)越大,反之则相反
http://blog.csdn.net/weixin_37895339/article/details/78794190
近似误差:可以理解为对现有训练集的训练误差。 估计误差:可以理解为对测试集的测试误差。*
近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。
https://www.zhihu.com/question/60793482
近似误差其实可以理解为模型估计值与实际值之间的差距。 估计误差其实可以理解为模型的估计系数与实际系数之间的差距。
在这个k临近法中其实设定的k值越小,得出的模型是越复杂的,因为k值越小会导致特征空间被划分成更多的子空间(可以理解为模型的项越多)。而k值越大得到的模型其实是越简单的 - -
所以当k值越小,对于训练集的预测更加精确,近似误差会越小(因为你选择了更加复杂的模型去预测训练集)。当k值越大,对于训练集的预测则不会那么准确,所以近似误差会越大(因为你选择了更加简单的模型去预测)。
而另一方面,由于设定了比较小的k值,模型比较复杂就会产生过度拟合(overfitting)的问题。
近似误差,更关注于“训练”。
最小化近似误差,即为使估计值尽量接近真实值,但是这个接近只是对训练样本(当前问题)而言,模型本身并不是最接近真实分布。换一组样本,可能就不近似了。这种只管眼前不顾未来预测的行为,即为过拟合。
估计误差,更关注于“测试”、“泛化”。
最小化估计误差,即为使估计系数尽量接近真实系数,但是此时对训练样本(当前问题)得到的估计值不一定是最接近真实值的估计值;但是对模型本身来说,它能适应更多的问题(测试样本)
近似误差 与 估计误差相关推荐
- 基础知识 | 近似误差 估计误差
模型假设空间 F \mathcal{F} F的最优解 f ~ = a r g m i n f ∈ F R ( f ) \tilde{f}=\underset{f\in \mathcal{F}}{arg ...
- 统计学习方法 pdf_李航统计学习方法(第三章)
第3章 k 近邻法 k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题).它的特点是对特征空间进行搜索.除了k近邻法,本章还对以下几个问题进行较深入的讨论: ...
- 特征选择和特征生成问题初探
1. 为什么要进行特征选择? 0x1:有哪些因素会影响模型利用先验知识? 我们知道,一个算法学习可以成功预测,一个很重要的关键是目标问题隐含了特定模式的先验假设(先验知识),而算法要做的唯一的事情,就 ...
- 【机器学习】KNN算法代码练习
本课程是中国大学慕课<机器学习>的"KNN"章节的课后代码. 课程地址: https://www.icourse163.org/course/WZU-146409617 ...
- 复现经典:《统计学习方法》第 3 章 k 近邻法
本文是李航老师的<统计学习方法>[1]一书的代码复现. 作者:黄海广[2] 备注:代码都可以在github[3]中下载. 我将陆续将代码发布在公众号"机器学习初学者", ...
- 机器学习理论《统计学习方法》学习笔记:第三章 k近邻法
机器学习理论<统计学习方法>学习笔记:第三章 k近邻法 3 k近邻法 3.1 K近邻算法 3.2 K近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 K值的选择 3.2.4 分 ...
- Knn原理及Python实现、数据展示
KNN原理及优缺点 KNN的python实现 KNN的python代码中的数据格式 KNN原理及优缺点 KNN算法又称为k近邻分类(k-nearest neighbor classification) ...
- 统计学习方法笔记(李航)———第三章(k近邻法)
k 近邻法 (k-NN) 是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化 问题).它的特点是对特征空间进行搜索.除了k近邻法,本章还对以下几个问题进行较深入的讨 论: 切比雪夫距 ...
- 统计学习方法 李航 读书笔记
************************************************************ 李航教授<统计学习方法> 统计学教材总结 主要介绍监督学习方法 * ...
最新文章
- 在tomcat中用jndi配置数据源启动java web程序
- 水星记(Mercury Records)
- 中国固件更新软件被指盗取用户数据 遭美手机厂商替换
- 物联网平台 源码_国内首个智慧交通物联网平台发布
- python 获取主机名 根据端口杀死进程
- 如何判断ios设备中是否安装了某款应用
- 使用Maven运行Java main的方法(转)
- 部署shiro官方源码时,执行maven命令出错
- 使用JavaConfig的SpringMVC4 + Spring Data JPA + SpringSecurity配置
- [导入]使用SqlCommand对象执行存储过程
- python清洗文本数据_02.数据预处理之清洗文本信息
- SQL转换全角和半角函数
- Django的url别名功能的使用
- [Android] Android 任务栈 【转载】
- Matlab多光谱kmeans聚类分割
- kmeans算法c语言代码,ML算法与代码实现——Kmeans(案例)
- 天涯明月刀开发_天涯明月刀手游公测上线,斗鱼暗地操作,打造第二个PDD
- mysql查询排名名次
- 服务器控件与客户端控件
- IIS之web服务器部署
热门文章
- Hadoop3.2.1 【 YARN 】源码分析 : NodeStatusUpdaterImpl概述
- 0x80073712_Win10更新提示0x80073712错误代码解决方法
- 哈工大计算机系统lab7——微壳
- linux 内存溢出排查_linux下valgrind内存问题排查
- 基于SSM的物流信息管理系统(附论文)
- 【linux】md5sum 命令详解
- 数字工厂管理系统的应用领域有哪些
- 墨珩科技超衡联盟链通过中国赛宝实验室测试
- 两个例子讲清Thread的setDaemon的作用
- Python标准库文件基本操作以及中文路径问题