model selection

  • 1.F检验
    • 1.1 ANOVA table
    • 1.2 整体F检验Overall F test
    • 1.3 部分F测试Partial F test
  • 2. 特征选择
    • 2.1 逆向消除法 Backward Elimination
    • 2.2 前向选择变量法 forward variable selection
    • 2.3 逐步选择变量法 stepwise variable selection

1.F检验

F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验。

F检验有两种类型:

  • 整体F检验——检验模型的有用性
  • 部分F检验——检验线性约束

1.1 ANOVA table

方差分析用于两个及两个以上样本均数差别的显著性检验
RegSS + RSS = TSS
(p – 1) + (n – p) = (n – 1)
RegMS + MSE ≠ Sy^2

1.2 整体F检验Overall F test

——检验模型的有效性
拒绝H0表明回归高度显著;即,至少一个预测变量为因变量的预测提供了重要信息。

1.3 部分F测试Partial F test

——检验线性约束

2. 特征选择

常见的选择算法有正向选择算法、反向选择算法和逐步选择算法。

奶酪品尝数据案例
数据来源于维多利亚拉筹伯山谷的切达干酪生产。最终产品的味道与奶酪中几种化学物质的浓度有关。
因变量:taste Tasters’ ratings
自变量:Acetic Acetic acid in cheese;H2S Hydrogen sulphide in cheese ;Lactic Lactic acid in the cheese.

2.1 逆向消除法 Backward Elimination

首先包含了所有的特征,然后每个特征都尝试去删除,测试删除的哪个特征对模型准确性有最大的提升,最终删掉对模型提升最高的一个特征。如此类推,直到删除特征并不能提升模型为止。
一般来说,去掉p值大于0.05的特征

第一次约简算法:

  • H2S和lactic不能被降低,否则比整个模型的契合度差很多(p值分别为0.004和0.031)。
  • 然而,acetic的缺失几乎没有影响(例如在5%征时)。在模型拟合方面(部分p值为0.942),愚者省略此变量。
  • 如果有一个以上的变量p值大于0.05,那么我们就去掉了对应的p值最大的协变量。

第二遍约简算法:

  • 协变量H2S和lactic都不能从模型中去除而不造成重要的拟合损失。
  • 因此,数据的“最佳”模型(根据显著性水平为5%的逆向选择)为 E[taste] = - 27.59 + 3.95 · H2S + 19.89 · Lactic.

2.2 前向选择变量法 forward variable selection

  1. 从不包含特征的模型开始,即m =∅。
  2. 对每个变量依次考察从当前模型中添加变量的效果。
  3. 添加信息最丰富/重要的变量,除非该变量不提供有关响应的重要信息。
  4. 转到步骤2。只有当不包括的变量都不重要时才停止

2.3 逐步选择变量法 stepwise variable selection

  1. 从一些模型开始,通常是空模型(没有解释变量)或完整模型(有所有变量)。
  2. 对于当前模型中的每个变量,研究去除它的效果。
  3. 删除信息最少的变量,除非该变量仍然提供有关响应的重要信息。

统计基础(十)特征选择相关推荐

  1. 系统规划与管理备考整理

    @ 一.信息系统综合知识 1.1 信息的定义和属性 1.信息是客观事物状态和运动特征的一种普遍相识,客观世界中大量存在.产生和传递着以这些方式表示出各种各样的信息 (1)信息的定性描述 控制论的创始人 ...

  2. 文本特征选择 java代码_文本分类入门(十)特征选择算法之开方检验

    前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...

  3. 文本分类入门(十)特征选择算法之开方检验

    前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...

  4. python分类预测降低准确率_十分钟掌握python机器学习特征选择

    十分钟掌握python机器学习特征选择-1.jpg (33.2 KB, 下载次数: 0) 2018-6-26 23:01 上传 在机器学习中,特征选择是实践中的一步, 帮你在所有特征中选择对结果贡献最 ...

  5. (笔记)斯坦福机器学习第十讲--特征选择

    本讲内容 1. VC dimension (Vapnik-Chervonenkis 维) 2. Model selection(模型选择)  --cross validation(交叉验证) --fe ...

  6. 【Python学习系列十九】基于scikit-learn库进行特征选择

    场景:特征选择在模型训练前是非常有意义的,实际上就是先期对特征相关性进行分析. 参考:http://blog.csdn.net/fjssharpsword/article/details/735503 ...

  7. 西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)

    文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...

  8. 深度学习核心技术精讲100篇(六十四)-特征选择原理及应用实战案例

    前言 据<福布斯>报道,每天大约会有 250 万字节的数据被产生.然后,可以使用数据科学和机器学习技术对这些数据进行分析,以便提供分析和作出预测.尽管在大多数情况下,在开始任何统计分析之前 ...

  9. 【机器学习入门】(12) 特征工程:特征选择、数据降维、PCA

    各位同学好,今天我和大家分享一下python机器学习中的特征选择和数据降维.内容有: (1)过滤选择:(2)数据降维PCA:(3)sklearn实现 那我们开始吧. 一个数据集中可能会有以下问题: ( ...

  10. 腾讯Angel升级:加入图算法,支持十亿节点、千亿边规模!中国首个毕业于Linux AI基金会的开源项目...

    出品 | AI科技大本营(ID:rgznai100) [导语]Angel 是腾讯的首个AI开源项目,于 2016 年底推出.2017年开源.近日,快速发展的 Angel 完成了从  2.0 版本到 3 ...

最新文章

  1. SQL中的CASE WHEN语句
  2. androidstuido_schooltest_6_media_service
  3. leetcode 142. 环形链表 II(set/快慢指针)
  4. JQuery.lazyload 图片延迟加载
  5. oracle 9i从入门到精通读书笔记2
  6. 手动创建两个文本文件text1.txt和text2.txt,按要求创建text3.txt
  7. Eclipse插件开发中对于外部Jar包和类文件引用的处理(彻底解决插件开发中的NoClassDefFoundError问题)...
  8. CSS3 弹性布局盒模型 Flex布局
  9. MSSQLServer基础07(事务,存储过程,分页的存储过程,触发器)
  10. SpringBoot使用数据库
  11. Python 基础 —— from __future__ import
  12. 接不住了,能撒手吗?
  13. matlab模式识别大作业_史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(二)...
  14. kibana如何使用linux命令,Kibana 用户指南(安装Kibana)
  15. 厨神之路三--自制饮品
  16. 华为云对象存储连接测试
  17. 索尼相机摄像机断电MP4视频无XML文件数据恢复修复方法
  18. Excel VBA保护工作表
  19. 靶机16 GROTESQUE: 2
  20. 小猫爪:S32K3学习笔记09-S32K3之Safety简介

热门文章

  1. easyBCD修改系统启动项
  2. linpack学习记录
  3. 老师一天表情大全,也太搞笑了!
  4. android 自定义 对号,超简单实现Android自定义Toast
  5. 简明 s3cmd 安装与使用手册
  6. Sue Shallow
  7. 数据中台到底是什么?
  8. 解决方案 | 解决Adobe Acrobat 2020安装报错的一些问题,如无法打开键
  9. win10专业版和企业版的区别
  10. Jquery通过append新元素之后事件绑定问题的解决方案