非参数统计的Python实现——卡方独立性检验
概念
研究变量与变量之间是否有关联的检验方法,H0 :两变量独立。
案例 & 代码
为研究血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(对照组)调查不同血型的得病情况,如下表所示,问血型与肝病之前是否存在关联?显著性水平为0.05。
血型 | 肝炎 | 肝硬化 | 对照 |
---|---|---|---|
O | 98 | 38 | 289 |
A | 67 | 41 | 262 |
B | 13 | 8 | 57 |
AB | 18 | 12 | 30 |
解答:
import pandas as pd
import numpy as np
import scipy.stats as stats
df_t=pd.DataFrame(index=['O','A','B','AB'],columns=['肝炎','肝硬化','对照'])
df_t['肝炎']=[98,67,13,18]
df_t['肝硬化']=[38,41,8,12]
df_t['对照']=[289,262,57,30]
def chi2_test(df):s,r=len(df.columns),len(df.index)x=[]for i in range(r):for j in range(s):nij=df.loc[df.index[i],df.columns[j]]mij=sum(df.loc[df.index[i]])*sum(df[df.columns[j]])/df.sum().sum()x.append((nij-mij)**2/mij)p=stats.chi2.sf(sum(x),(r-1)*(s-1))return {'统计值':sum(x),'自由度':(r-1)*(s-1),'p值':p}
chi2_test(df_t)
结果如下:
{‘统计值’: 15.073415745389083, ‘自由度’: 6, ‘p值’: 0.019693327305544923}
由于p值小于0.05,故可以认为血型与肝病有一定关联。
另外,还可以通过 stats.chi2_contingency(df_t)
来检验独立性,结果与上述一致。
非参数统计的Python实现——卡方独立性检验相关推荐
- python实现卡方(Chi-Squared Test)相关性检验
python实现卡方(Chi-Squared Test)相关性检验 独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料 ...
- R卡方独立性检验(Chi-Square Test of Independence)
R卡方独立性检验(Chi-Square Test of Independence) 目录 R卡方独立性检验(Chi-Square Test of Independence) R卡方独立性检验 数据创建
- 2×3卡方检验prism_卡方独立性检验原理
这篇文章主要讲了两个部分,一个是卡方检验的推导,一个是卡方检验应该取多少样本量. 卡方独立性检验是为了检验两个变量是否独立,我们先来回顾一下卡方独立性检验的流程: 1.统计列联表,计算观察值: 表一 ...
- 卡方分布的期望和方差_卡方独立性检验原理
这篇文章主要讲了两个部分,一个是卡方检验的推导,一个是卡方检验应该取多少样本量. 卡方独立性检验是为了检验两个变量是否独立,我们先来回顾一下卡方独立性检验的流程: 1.统计列联表,计算观察值: 表一 ...
- 7. R语言【独立性检验】:卡方独立性检验、Fisher精确检验 、Cochran-Mantel-Haenszel检验
文章目录 1. 卡方检验 2. 费希尔精确检验(Fisher Exact Test) 3. Cochran-Mantel-Haenszel检验 独立性检验:用来判断变量之间相关性的方法,如果两个变量彼 ...
- 卡方独立性检验chisq.test()
先引用一段R IN ACTION 的话:R提供了多种检验类别型变量独立性的方法.本节中描述的三种检验分别为卡方独立性检验.Fisher精确检验和Cochran-Mantel–Haenszel检验. 你 ...
- python 特征选择卡方_特征选择
2020-01-10 皮尔逊相关系数 image.png 衡量线性相关性,检查数据集里目标和数值特征之间皮尔逊相关系数的绝对值.根据这个准则保留前n个特征.def cor_selector(X, y, ...
- 卡方分布和卡方验证的关系理解,以及Python实现
卡方分布 定义:设 X1-Xn是服从标准正态分布的随机变量,则称统计量 服从自由度为n的卡方分布,自由度为n时,他的期望是n,方差为2n 他是标准正态分布变量的平方和,网上找了一张概率密度图: 然后我 ...
- 卡方 python_卡方优度检测 (Python 实现) --基于jupyter
卡方独立性检验 import numpy as np from scipy.stats import chi2_contingency # 列联表分析 from scipy.stats import ...
- 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)
特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...
最新文章
- leetcode 1143. 最长公共子序列
- MYSQL 深入浅出索引(下)
- oracle hr样本模式,Oracle 样本模式 HR
- CloudPaster日志
- levedb 导入 mysql_[LevelDB] 数据库3:循序渐进 —— 操作接口
- 鸿蒙硬件HI3861-MQTT-连接华为云
- Dalvik和Java运行环境的区别
- C++中 explicit的用法
- 低轨卫星通信系统发展综述
- 中国地图json 文件下载
- JavaScript练字游戏
- 2022,共赴一场微小的,具象的英雄主义
- 6.(cesium之家)cesium点编辑点修改
- 机房布线的最高境界 | 最后的暗黑系,真是亮瞎眼
- Justinmind6.X软件及汉化包下载地址
- 老板喜欢的高绩效哪里来?
- 2019在职跨考南大计算机非全日制专硕-初试364经验帖
- Java核心编程(22)
- 地理模块化施工的优点_2019年高考地理微专题09秒解分析影响意义题
- H7-TOOL高速DAPLINK仿真器功能已发布,支持WinUSB和HID方式二合一,含常见问题FAQ(2020-12-07)