统计基础(十)特征选择
model selection
- 1.F检验
- 1.1 ANOVA table
- 1.2 整体F检验Overall F test
- 1.3 部分F测试Partial F test
- 2. 特征选择
- 2.1 逆向消除法 Backward Elimination
- 2.2 前向选择变量法 forward variable selection
- 2.3 逐步选择变量法 stepwise variable selection
1.F检验
F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验。
F检验有两种类型:
- 整体F检验——检验模型的有用性
- 部分F检验——检验线性约束
1.1 ANOVA table
方差分析用于两个及两个以上样本均数差别的显著性检验
RegSS + RSS = TSS
(p – 1) + (n – p) = (n – 1)
RegMS + MSE ≠ Sy^2
1.2 整体F检验Overall F test
——检验模型的有效性
拒绝H0表明回归高度显著;即,至少一个预测变量为因变量的预测提供了重要信息。
1.3 部分F测试Partial F test
——检验线性约束
2. 特征选择
常见的选择算法有正向选择算法、反向选择算法和逐步选择算法。
奶酪品尝数据案例
数据来源于维多利亚拉筹伯山谷的切达干酪生产。最终产品的味道与奶酪中几种化学物质的浓度有关。
因变量:taste Tasters’ ratings
自变量:Acetic Acetic acid in cheese;H2S Hydrogen sulphide in cheese ;Lactic Lactic acid in the cheese.
2.1 逆向消除法 Backward Elimination
首先包含了所有的特征,然后每个特征都尝试去删除,测试删除的哪个特征对模型准确性有最大的提升,最终删掉对模型提升最高的一个特征。如此类推,直到删除特征并不能提升模型为止。
一般来说,去掉p值大于0.05的特征
第一次约简算法:
- H2S和lactic不能被降低,否则比整个模型的契合度差很多(p值分别为0.004和0.031)。
- 然而,acetic的缺失几乎没有影响(例如在5%征时)。在模型拟合方面(部分p值为0.942),愚者省略此变量。
- 如果有一个以上的变量p值大于0.05,那么我们就去掉了对应的p值最大的协变量。
第二遍约简算法:
- 协变量H2S和lactic都不能从模型中去除而不造成重要的拟合损失。
- 因此,数据的“最佳”模型(根据显著性水平为5%的逆向选择)为 E[taste] = - 27.59 + 3.95 · H2S + 19.89 · Lactic.
2.2 前向选择变量法 forward variable selection
- 从不包含特征的模型开始,即m =∅。
- 对每个变量依次考察从当前模型中添加变量的效果。
- 添加信息最丰富/重要的变量,除非该变量不提供有关响应的重要信息。
- 转到步骤2。只有当不包括的变量都不重要时才停止
2.3 逐步选择变量法 stepwise variable selection
- 从一些模型开始,通常是空模型(没有解释变量)或完整模型(有所有变量)。
- 对于当前模型中的每个变量,研究去除它的效果。
- 删除信息最少的变量,除非该变量仍然提供有关响应的重要信息。
统计基础(十)特征选择相关推荐
- 系统规划与管理备考整理
@ 一.信息系统综合知识 1.1 信息的定义和属性 1.信息是客观事物状态和运动特征的一种普遍相识,客观世界中大量存在.产生和传递着以这些方式表示出各种各样的信息 (1)信息的定性描述 控制论的创始人 ...
- 文本特征选择 java代码_文本分类入门(十)特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...
- 文本分类入门(十)特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...
- python分类预测降低准确率_十分钟掌握python机器学习特征选择
十分钟掌握python机器学习特征选择-1.jpg (33.2 KB, 下载次数: 0) 2018-6-26 23:01 上传 在机器学习中,特征选择是实践中的一步, 帮你在所有特征中选择对结果贡献最 ...
- (笔记)斯坦福机器学习第十讲--特征选择
本讲内容 1. VC dimension (Vapnik-Chervonenkis 维) 2. Model selection(模型选择) --cross validation(交叉验证) --fe ...
- 【Python学习系列十九】基于scikit-learn库进行特征选择
场景:特征选择在模型训练前是非常有意义的,实际上就是先期对特征相关性进行分析. 参考:http://blog.csdn.net/fjssharpsword/article/details/735503 ...
- 西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)
文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...
- 深度学习核心技术精讲100篇(六十四)-特征选择原理及应用实战案例
前言 据<福布斯>报道,每天大约会有 250 万字节的数据被产生.然后,可以使用数据科学和机器学习技术对这些数据进行分析,以便提供分析和作出预测.尽管在大多数情况下,在开始任何统计分析之前 ...
- 【机器学习入门】(12) 特征工程:特征选择、数据降维、PCA
各位同学好,今天我和大家分享一下python机器学习中的特征选择和数据降维.内容有: (1)过滤选择:(2)数据降维PCA:(3)sklearn实现 那我们开始吧. 一个数据集中可能会有以下问题: ( ...
- 腾讯Angel升级:加入图算法,支持十亿节点、千亿边规模!中国首个毕业于Linux AI基金会的开源项目...
出品 | AI科技大本营(ID:rgznai100) [导语]Angel 是腾讯的首个AI开源项目,于 2016 年底推出.2017年开源.近日,快速发展的 Angel 完成了从 2.0 版本到 3 ...
最新文章
- SQL中的CASE WHEN语句
- androidstuido_schooltest_6_media_service
- leetcode 142. 环形链表 II(set/快慢指针)
- JQuery.lazyload 图片延迟加载
- oracle 9i从入门到精通读书笔记2
- 手动创建两个文本文件text1.txt和text2.txt,按要求创建text3.txt
- Eclipse插件开发中对于外部Jar包和类文件引用的处理(彻底解决插件开发中的NoClassDefFoundError问题)...
- CSS3 弹性布局盒模型 Flex布局
- MSSQLServer基础07(事务,存储过程,分页的存储过程,触发器)
- SpringBoot使用数据库
- Python 基础 —— from __future__ import
- 接不住了,能撒手吗?
- matlab模式识别大作业_史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(二)...
- kibana如何使用linux命令,Kibana 用户指南(安装Kibana)
- 厨神之路三--自制饮品
- 华为云对象存储连接测试
- 索尼相机摄像机断电MP4视频无XML文件数据恢复修复方法
- Excel VBA保护工作表
- 靶机16 GROTESQUE: 2
- 小猫爪:S32K3学习笔记09-S32K3之Safety简介