最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识。在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。但是笔者今天想介绍一下通过T检验做机器学习中的特征工程,希望能够让大家初步了解到各种假设检验是如何在机器学习项目的特征工程发挥作用。

假设检验简介

统计学中,常见的假设检验有:T检验(Student's t Test),F检验(方差齐性检验),卡方验证等。无论任何假设检验,它们都遵循如下图所示的流程:

  • 做两个假设:一般如果假设对象是两组样本的话,都会假设这两组样本均值相等(T检验的假设),方差满足齐次性(F检验的假设)等。而另一个假设其实就是两组样本均值不相等(T检验的假设),方差不满足齐次性(F检验的假设)等,其实这两个假设就是一对非此即彼的选项。这两个假设在教科书上就叫做原假设 ,和备择假设 。
  • 设置一个显著性值:通俗点理解,就是如果真实的情况偏离原假设的程度。
    1.如果真实情况和原假设差异不大(P值高于显著性值),那证明原假设是对的,接受原假设。
    2.如果真实情况和原假设差异太大(P值低于显著性值),那证明原假设错了,我们得拒绝原假设,接受备择假设。
    显著性值的选择是个经验值

双样本T检验——机器学习特征工程相关性分析实战相关推荐

  1. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  2. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  3. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  4. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  5. 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)

    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...

  6. 机器学习——特征工程之分类变量

    机器学习--特征工程之分类变量 前言 分类变量的编码 1.one-hot 编码 2.虚拟编码 3.效果编码 处理大型分类变量 1.特征散列化 2.分箱计数 总结 前言 关于特征工程,已经对空值.数值型 ...

  7. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  8. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  9. 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

    机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...

最新文章

  1. 基于SSM实现二手交易系统
  2. [置顶]Java Web学习总结(25)——MyEclipse+Tomcat+MAVEN+SVN项目完整环境搭建...
  3. 【Microsoft Word】Aurora插入公式点击Refresh,提示Problems running LaTex解决方法
  4. [分享]极富挑战性的大公司面试的智力题
  5. shell编程中特殊字符的问题总结
  6. django mysql connector,MySQL Connector / python在Django中不起作用
  7. @RequiresPermissions 注解说明
  8. 深入理解java虚拟机_深入理解Java类加载
  9. Java Web学习总结(26)——Servlet不同版本之间的区别
  10. MATLAB与STK互联23:卫星对象操作(14)—仿真分析案例1,建立8个地面站,分析对卫星的可见性
  11. 笔记本出现此windows无线服务器,笔记本Windows7提示Windows无法配置此无线连接如何解决?...
  12. 大数据开发都需要什么技术?
  13. CentOS 安装 Xware 迅雷远程下载程序
  14. excel中区分移动联通电信号码
  15. 【20200422】编译原理课程课业打卡十七之求解文法FirstVTLastVT构造文法算符优先关系表
  16. V853 替换开机启动LOGO
  17. 前端间隔查询的两种方法:Debounce和Throttle
  18. 错误码400原因总结
  19. 数据结构之稀疏数组队列
  20. HTTP协议中 POST和GET的区别

热门文章

  1. Jboss7.1.1配置SSL
  2. oracle表空间操作详解
  3. CSP认证201412-1 门禁系统[C++题解]:哈希表
  4. 计蒜客/51Nod题目
  5. android分享到新浪微博客户端吗,Android调用手机新浪微博客户端分享
  6. mysql 实现ztree_简单Ztree的实现————不连接数据库版
  7. 安卓项目打开有时候manifests不见了_【必看】暴力0鲁项目详细操作及玩法如何跳过广告,不分享群等...
  8. java的输出的例子_Java例子:万年历的输出
  9. oracle rac 图形化界面,oracle 10g rac配置vipca进不了图形界面,请高手帮忙分析下
  10. 登录功能和公聊功能的实现