高中生都能看懂的卡方检验
卡方检验
卡方检验,不了解的人乍一听,心想这是啥?怎么这么唬人啊。嘿嘿,不用担心和害怕,我会尝试白话介绍卡方检验,让你搞明白不费力!
下面,我将从:什么是卡方检验,卡方检验在机器学习中能干什么的,以及卡方检验的实际应用三方面来逐步递进的介绍。
1、什么是卡方检验
1.1、简介
卡方检验,出自于统计学,是统计学中的一种方法,在机器学习中也有应用到。卡方检验是用来检验两个变量之间有没有关系。
下面,用一个简单例子来说明它的大致逻辑原理:
投硬币
那我们先从一个最简单的例子说起。
1) 根据投硬币观察到的正面,反面次数,判断这个硬币是均衡的还是不均衡。
现在有一个正常的硬币,我给你投50次,你觉得会出现几个正面,几个反面?
按照你的经验你会这么思考,最好的情况肯定是25个正面,25个反面,
但是肯定不可能这么正正好好的,嗯,差不多28个正面,22个反面吧;
23个正面,27个反面也可能的,
但是10个正面,40个反面肯定不可能的,除非我运气真的那么碰巧。
你上面的这个思维方式,就是拿已经知道的结果(硬币是均衡的,没有人做过手脚),推测出会出现的不同现象的次数。
而卡方检验是拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。
继续上面这个例子,
如果我不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,
其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?
这里要引出卡方检验的公式:
这个公式可以帮我们求出卡方检验的值,我们用
- 1 这个公式求得的值
- 2 自由度(degree of freedom,不熟悉的可以去看我在简书的用可视化思维解读统计自由度)
- 3 置信度
其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。
这三个数值计算方法如下:
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。
这里还涉及到假设检验中,拒绝H0还是不拒接H0,这篇文章就不详细展开了。
核心思想:用于衡量实际值与理论值的差异程度。
1.2、实现步骤
(1)求卡方值
(2)求自由度
(3)置信度(按照自己意愿挑选,一般挑90%或者95%)
(4)拿到这3个信息,去查卡方表(卡方分布临界值),得P值和结论。
1.3、卡方值公式
求卡方值的公式:
卡方检验反应的是理论值与实际值之间的差异性。卡方值越大,表示理论与实际的差异越大。若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。
1.4、缺点
卡方检验对于出现次数较少的特征更容易给出高分。
2、卡方检验在机器学习中能干什么
上面介绍过了,卡方检验是统计学的一种方法,可以检验两个变量之间有没有关系的。那么在机器学习当中卡方检验能干什么呢?
既然卡方检验可以检验两个变量之间的关系,那么在机器学习中可以用来做
(1)特征的选取,把无关的特征剔除掉,减少特征数量,来提高训练速度。
(2)一些噪音特征会导致模型出现错误的泛化,通过卡方检验也可以去掉那些无关的噪声。
3、卡方检验的实际应用
3.1、在电商当中的案例应用
我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。
通过卡方检验,得出结论:不同的性别和在线上买生鲜食品是有关系的。切女性居多。
那么,就可以在生鲜页面,引入女士包包、衣服一类的广告,可以帮助引流,更大化的扩大利益。
指标在生活中无处不在,非常重要,而且可以帮助我们从多角度来更好的理解和量化各种问题。
3.2、在医学领域的应用
在医学研究中,常需要对两组、多组率或构成比进行比较:如两种治疗方法的有效率、不同地区某种疾病的发病率、人群构成是否相同等。
例如,某名村民得了大骨节,他就想是不是自己喝的河水饮用水有关呢。于是,问题实际上变成了,某无序分类变量各水平在两组或多组间的分布是否一致。如果这个村的河水引用区的检出率和另外一个泉水引用区的检出率一样,就说明无关,反之就相关。这就可以用卡方检验来做科学支持。
3.3、在工业生成领域的应用
例如:某工厂想提高自己的产品合格率,想看看控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。可以通过卡方检验来做科学支持,找出相关的原材料类别,完成精准打击,提升企业竞争力。
参考:
https://blog.csdn.net/snowdroptulip/article/details/78770088
https://www.jianshu.com/p/807b2c2bfd9b
https://blog.csdn.net/yihucha166/article/details/50646615
高中生都能看懂的卡方检验相关推荐
- 一篇高中生都能看懂的MySQL入门博客(长文)
写在前面: 本篇博客共一万五千字左右,是我自己对MySQL进行重新学习时写的,是一些偏基础的东西. 如果你对MySQL足够的了解,本篇博客最多只能起一个查漏补缺的作用. 博客的主要面向对象为:想学习了 ...
- 这是一份高中生都能看懂的线性代数简介(史上最详细)
线性代数的概念对于理解机器学习背后的原理非常重要,尤其是在深度学习领域中.它可以帮助我们更好地理解算法内部到底是怎么运行的,借此,我们就能够更好的做出决策.所以,如果你真的希望了解机器学习具体算法,就 ...
- Win10/win11安装tensorflow,不用anaconda(高中生都能看懂版)/CUDA、cuDNN安装教程
最近在kaggel上弄一个推介算法的比赛,虽然之前可以用谷歌colab跑一些机器学习的程序,但由于内存限制以及输出数据等极度不方便的问题,还是决定在自己的电脑上安装环境.现在来记录自己踩过的坑. 我的 ...
- 人人都能看懂的EM算法推导
作者丨August@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/36331115 编辑丨极市平台 估计有很多入门机器学习的同学在看到EM算法的时候会有种种疑惑:EM ...
- 《小学生都能看懂的快速沃尔什变换从入门到升天教程》(FWT / FMT / FMI)(最最严谨清晰的证明!零基础也能得学会!)
整理的算法模板合集: ACM模板 点我看算法全家桶系列!!! 实际上是一个全新的精炼模板整合计划 目录 0x00 卷积 0x01 多项式 0x02 卷积的定义 0x03 卷积的基本性质 0x04 位运 ...
- 兄弟,用大白话给你讲小白都能看懂的分布式系统容错架构
点击上方"蓝字", 右上角选择"设为星标" 周一至周五早11点半!精品文章准时送上! 本文来自石杉的架构笔记 目录 (1)TB级数据放在一台机器上:难啊! (2 ...
- 春节充电 | 文科生都能看懂的机器学习教程:梯度下降、线性回归、逻辑回归(附动图解释)...
来源:新智元 本文约4200字,建议阅读10+分钟. 本文浅显易懂的方式讲解机器学习,力求让没有理科背景的读者都能看懂. [ 导读 ]虽然在Coursera.MIT.UC伯克利上有很多机器学习的课程, ...
- 文科生都能看懂的机器学习教程:梯度下降、线性回归、逻辑回归
来源:新智元 本文约4200字,建议阅读10+分钟. 本文浅显易懂的方式讲解机器学习,力求让没有理科背景的读者都能看懂. [ 导读 ]虽然在Coursera.MIT.UC伯克利上有很多机器学习的课程, ...
- 人人都能看懂LSTM
这是在看了台大李宏毅教授的深度学习视频之后的一点总结和感想.看完介绍的第一部分RNN尤其LSTM的介绍之后,整个人醍醐灌顶.本篇博客就是对视频的一些记录加上了一些个人的思考. 0. 从RNN说起 循环 ...
- 小学生都能看懂的FFT!!!
小学生都能看懂的FFT!!! 前言 在创新实践中心偷偷看了一天FFT资料后,我终于看懂了一点.为了给大家提供一份简单易懂的学习资料,同时也方便自己以后复习,我决定动手写这份学习笔记. 食用指南: 本篇 ...
最新文章
- 编译器 llvm clang 源码转换示例
- queue 常见方法
- 【转】Win7+Ubuntu12.04.1硬盘安装错误及解决方案----不错
- C 语言编程 — GCC 工具链
- Java怎么在if输出中进行运算_磕代码:c/c++/java:输入三个整数,输出运算结果;if条件句的使...
- linux命令界面下载kettle,kettle在linux环境中打开图形界面-Go语言中文社区
- Java 7 中 NIO.2 的使用——第四节 文件和目录
- SpringBoot2.x Flowable 6.4.2 开源项目
- mysql主库清理数据,从库保留
- android listview边框颜色,Android实现带有边框的ListView和item的方法
- 自己写的Point类
- 洛谷OJ P3865 【模板】ST表
- 偷梁换柱:谨防“Synaptics”蠕虫病毒
- 可能是最全的Kotlin协程讲解
- 网站建设项目管理——8个步骤教你管理网站建设项目
- Sharepoint安装必备组件下载地址
- 可以刻录在cd中的linux,在Linux下刻录CD/DVD
- 什么是web app
- CSS3 画皮卡丘
- 处理 Exception 的几种实践,被很多团队采纳!