1、适用场景

当自变量和因变量均为分类特征时,可以通过统计频次或者频率计算用特征X分组后不同组间差别是否具有统计学意义,以判断特征X的重要性,这种检验成为卡方检验。卡方检验也是非参数检验方法,对数据集的分布没有特殊要求,尤其适用于数据量小的情况。

2、卡方检验实现流程

适用Statsmodels统计工具中的anes96数据集,其中每个样本的 ‘edcu’分为七类,结果 ‘vote’分为两类。考虑样本的教育程度是否与投票结果相关。

2.1将样本规范化

适用pandas的crosstab方法对该数据做列联表统计,表中有R行C列也叫RC表。呈现结果如下:

contingency = pd.crosstab(data['vote'],[data['educ']])

2.2 对规范化数据进行卡方检验

result = stats.chi2_contingency(contingency)

2.3 返回值介绍

# result返回值
#(11.27698522484865, 0.08018392803605061, 6, array([[  7.58792373, ..][...]])

参数一:统计量
参数二:p-value
参数三:自由度
参数四:预期频率,列连表的期望值

卡方值计算公式:
X2=∑(f0−fe)2feX^2 = \sum\frac{(f_0-f_e)^2}{f_e} X2=∑fe​(f0​−fe​)2​

f0f_0f0​为实际观察频次,fef_efe​为理论频次

3、代码实现

import pandas as pd
from scipy import stats
from statsmodels.datasets import anes96
data = anes96.load_pandas().data
contingency = pd.crosstab(data['vote'],[data['educ']])
result = stats.chi2_contingency(contingency)
print(result)

(8)数据分析-卡方检验相关推荐

  1. python数据分析----卡方检验,T检验,F检验,K-S检验

    卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法.它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析.其根本思想就是在于比较理论频数和实际频数的吻合 ...

  2. #数据分析 卡方检验、Z检验、T检验

    定义: T检验适合小样本统计分析,通过比较数据的均值,研究两组数据是否存在差异 Z检验 面向总体数据和大样本数据的均值对比的假设检验 (一般很难做到所以t检验使用的更多) F检验 (方差分析),检验方 ...

  3. 20应用统计考研复试要点(part4)--统计学

    学习笔记,仅供参考,有错必纠 具体原理:分类数据分析 贾俊平统计学 分类数据分析 卡方检验 卡方检验是对分类数据的频数进行分析的统计方法. 卡方统计量 χ 2 = ∑ ( f 0 − f e ) 2

  4. 淘系高级技术专家的十年 | 既往不恋,纵情向前!

    作者|黄泰成(斯肯) 出品|阿里巴巴新零售淘系技术部 作者简介:黄泰成(花名:斯肯),是一位来自台湾的程序员,加入阿里巴巴大约 5 年多,目前在阿里巴巴淘系前端团队负责互动方向,过去从设计跨到客户端. ...

  5. 问卷与量表数据分析(SPSS+AMOS)学习笔记(七) : 多选题的频率、交叉分析及卡方检验

    课程链接:<问卷与量表数据分析(SPSS+AMOS)> 笔记中的数据皆来自课程自带资料. 目录 1. 多选题的两种定义方法 1.1 定义多重响应集的步骤--二分类 1.2  定义多重响应集 ...

  6. Python探索性数据分析——异常数据的检测与处理、数据的描述(集中、分散、分布、相关关系、波动)、数据的推断(正态性检验、卡方检验、t检验)

    目录 一.异常数据的检测与处理 1.异常数据检测与处理-基于箱线图 2.异常数据检测与处理-基于正态分布特征 二.数据的描述 1.数据的集中趋势 1.1.数据的集中趋势-平均值 1.1.1.算数平均值 ...

  7. SPSS数据分析之列联分析与卡方检验、方差分析与LSD方法【操作详解】

    文章目录 1.列联分析与卡方检验 2.方差分析 1.列联分析与卡方检验 (1)依次打开选项卡中的<分析>,<描述统计>,<交叉表> (2)然后依次选择列联表的行与列 ...

  8. 你还在做描述性数据分析吗?卡方检验案例实操

    关注"金科应用研院",回复"CSDN" 领取风控资料合集 在风险管理中,对于所获得数据的深度挖掘至关重要.因为如果只是从数据的面相上得出结论,往往容易被数据欺骗 ...

  9. 2×3卡方检验prism_【SPSS数据分析】方差分析之多因素方差分析(3)Graphpad Prism绘制简单效应折线图...

    在上一期中我们详细的讲解了多因素方差分析中简单效应的SPSS操作方法,以及数据分析结果的解读.今天我们进一步讲解如何对简单效应的成对比较进行统计图形的绘制. 用到的是统计绘图软件GraphPad Pr ...

  10. 数据分析进阶 - 相关分析(卡方检验)

    前言 上一篇博客是相关分析中的皮尔逊相关系数,具体可见链接:https://blog.csdn.net/Totoro1745/article/details/114748542?spm=1001.20 ...

最新文章

  1. R Learnilng 十八讲7-12
  2. Android 框架炼成 教你怎样写组件间通信框架EventBus
  3. opencv python 图像去噪
  4. 虚拟化方案应用场景及优劣
  5. 计算机管理没有打印机列队,在Windows清除打印队列如果打印机被卡住,也没有打印输出...
  6. 下拉选择_在管理Excel中实现联动下拉选择
  7. 华硕台式机重装系统教程方法
  8. 血的教训--如何正确使用线程池submit和execute方法
  9. 诗与远方:无题(三十七)- 凿壁偷光
  10. html显示docx,网页中显示PDF的HTML代码.docx
  11. opencv 骨架提取_抗爆墙方盛提取车间抗爆墙记录@温州贴吧
  12. Linux kernel路由机制分析(下)
  13. 后缀–ize_以ize结尾的英语单词
  14. 许奔创新社-第29问:什么是创新者的王者匠心?
  15. Groovy的规则脚本引擎实战
  16. 水星路由器wan口ip显示0_路由器wan口ip地址显示0.0.0.0怎么办(2)
  17. 四川大学计算机专业调剂,2020年四川大学计算机学院(软件学院)考研调剂信息...
  18. 我用scratch做了个二分查找
  19. 九联UNT403G/UNT413G_国科GK6323芯片_5621ds无线wifi_免拆卡刷固件
  20. SAP 数据字典常用数据类型

热门文章

  1. DotNET的GNU版开源实现DotGNU
  2. 09 Softmax回归+损失函数
  3. NATS--NATS Streaming持久化
  4. 高通“扶”大唐 狙击低端芯片玩家
  5. android4.0 禁止横竖屏切换使用 android:configChanges=orientation|keyboardHidden无效
  6. win8下IE10停止工作解决办法
  7. VDI成长之路:Windows桌面优化配置(持续更新-20120227)
  8. 完全卸载mysql步骤
  9. 【学习笔记:计算几何基础3】 Convex Hull
  10. Oracle SQL优化原则