有关卡方检验(chi-square test )
1. 什么是卡方检验
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。
通俗来讲:卡方检验就是检验两个变量之间有没有关系
举两个例子:
- 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
- 不同城市级别的消费者对买SUV车有没有什么区别;不同城市级别的消费者对买SUV车有没有什么区别;
2. 卡方检验基本原理
- 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。
- 实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意: 卡方检验针对分类变量。
3. 卡方检验实例
问题1: 投硬币 不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?
通过卡方检验来拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。
引入公式:
这个公式可以帮我们求出卡方检验的值,我们用
- 这个公式求得的值
- 自由度
- 置信度
其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。
问题2: 电商中消费者的性别和购买生鲜(独立性检验)
我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。
我们得出观察到数据,并且形成表格后,我们需要计算理论的数据,在上面的例子我们发现,我们发现有66%的人不在线上买生鲜(599除以907),34%的人会在线上买。 那如果,男的有733个人,女的有174个人,根据这些比例,我们可以得出的理论值是什么呢?
根据理论和实际值,我们可以算出卡方值,自由度,并且结合我们定义的置信度,查表得到性别和线上买生鲜是显著相关的。
问题 3: 两组大白鼠在不同致癌剂(甲乙两组)作用下的发癌率如下表,问两组发癌率有无差别?
其中(52 19 39 3)这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。
从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。
这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为:
式中A为实际数,以上四格表的四个数据就是实际数。
T为理论数,是根据检验假设推断出来的;
即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。
这里可将两组合计发癌率作为理论上的发癌率,即91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以上表资料为例检验如下。
检验步骤:
1.建立检验假设:
H0:π1=π2;H1:π1≠π2;α=0.05
2.计算理论数(TRC),计算公式为:
式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。
第1行1列: 71×91/113=57.18
第1行2列: 71×22/113=13.82
第2行1列: 42×91/113=33.82
第2行2列: 42×22/113=8.18
以推算结果,可与原四项实际数并列成下表:
因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。
3.计算卡方值按公式代入
4.查卡方值表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到 x 0.05 2 ( 1 ) = 3.84 x^2_{0.05}(1)=3.84 x0.052(1)=3.84,而本题卡方=6.48,即卡方> x 0.05 2 ( 1 ) = 3.84 x^2_{0.05}(1)=3.84 x0.052(1)=3.84,P<0.05,差异有显著统计学意义,按 α = 0.05 \alpha=0.05 α=0.05水准,拒绝H0,可以认为两组发癌率有差别。
4. 总结
通过实例计算,读者对卡方的基本公式有如下理解:
- 若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。
- 又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。
有关卡方检验(chi-square test )相关推荐
- 寻根究底,探讨 chi -square特征词选择方法后面的数学支持
寻根究底,探讨 chi -square特征词选择方法后面的数学支持 最近研究特征词选择算法,主要在研究chi方统计量的方法. Christopher D Manning的书<信息检索导论> ...
- 卡方检验(Chi square statistic)
卡方检验是一种检验两个变量独立性的方法.本文将介绍其理论并给出其应用在LBP特征匹配中的例子. 卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否.具体做的时候常常先假设两个变量 ...
- 电子系统健康管理预测学习笔记
文章目录 电子系统健康管理与预测 第一章 健康管理的概念和方法 保险丝和金丝雀 故障前兆的监测和推理 监测环境和使用载荷,建立基于pof的应力和损伤模型 PHM 在复杂系统中的实现 第二章 PHM传感 ...
- 统计学概览与统计检验总结
统计学的数据类型 常用统计描述 统计学的五大内容:数据描述与可视化,参数估计,假设检验,相关分析,回归分析. 数据描述:即统计描述,描述数据的主要特点. 参数估计:由采集的数据集估计某个参数. 假设检 ...
- Chi-squared 卡方检验
卡方检验筛选特征 利用χ2\chi^2χ2筛选特征时,我们计算每个特征和类标之间的χ2\chi^2χ2统计量,最后选择χ2\chi^2χ2分数最高的k个特征. χ2\chi^2χ2检验 χ2\chi^ ...
- 【文本分类】混合CHI和MI的改进文本特征选择方法
摘要:改进CHI算法.改进MI算法,结合改进CHI+改进MI,应用于文本的特征选择,提高了精度. 参考文献:[1]王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018 ...
- 【文本分类】基于改进CHI和PCA的文本特征选择
摘要:改进CHI算法后,结合PCA算法,应用于文本的特征选择,提高了精度. 参考文献:[1]文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43( ...
- 假设检验怎么做?这次把方法+Python代码一并教给你
(图片付费下载于视觉中国) 作者 | Jose Garcia 译者 | 张睿毅 校对 | 张一豪.林亦霖 编辑 | 于腾凯 来源 | 数据派THU(ID:DatapiTHU) [导读]本文中,作者给出 ...
- python实现卡方(Chi-Squared Test)相关性检验
python实现卡方(Chi-Squared Test)相关性检验 独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料 ...
- R语言 lightgbm 算法优化:不平衡二分类问题(附代码)
来源:大数据文摘本文约10000字,建议阅读10分钟本文以kaggle比赛的数据为例,为你讲解不平衡二分类问题的解决方法. 本案例使用的数据为kaggle中"Santander Custom ...
最新文章
- win7实用技巧之十——卷影副本
- 计算机视觉领域最全汇总(第1部分)
- python控制鼠标点击标准模块_Python直接控制鼠标键盘模块 pyautogui
- 【机器学习】孤立森林-一个通过瞎胡乱分进行异常检测的算法
- 太阳花浏览器_一道浏览器面试题,就能看出你的前端功底
- TCP对应的应用层协议之FTP /SMTP / HTTP
- IDEA JRebel热部署插件免费使用方法
- 使用apache的HttpClient进行http通讯,隐藏的HTTP请求头部字段是如何自动被添加的
- setInterval只执行一次的原因
- PHP流式上传和表单上传(美图秀秀)
- 京东发布双11首份战报:手机品类18秒销量突破万台
- ZOJ 1242 Carbon Dating
- 【图像增强】基于matlab PSO寻优ACE算法图像增强【含Matlab源码 088期】
- Spring Boot拦截器配置拦截登陆
- 小学听课计算机笔记范文,小学数学听课笔记 小学数学听课记录范文
- 洛谷 P4218 [CTSC2010]珠宝商 后缀自动机+点分治
- 诚诚富众资讯1.02亿人次补偿式出游
- 前端架构--从入门到微前端
- ICC---data setup
- 浙江小学python教材_PPT、H5、Python、大数据……浙江中小学新教材9月投用!