卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验的用途：

1、检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布，均匀分布，Poisson分布
2、检验某个分类变量的各类的概率是否等于指定概率
3、检验某两个分类变量是否相互独立
4、检测两种方法的检测结果是否一致
5、检测控制某种或某几种的变量后，另外两个分类变量是否相互独立。

数据类型

连续

正太分布的检验

基本假设H0是：观察频数与期望频数没有差别。

norm_quantiles = [0,.05,0.1,1-0.1,1-0.05,1]
X1 = stats.norm(0.1, 1) # 标准差一样
X1_sample = X1.rvs(n) # 生成第 1 组数据
crit = stats.norm.ppf(norm_quantiles,0.1,1)#对应的x轴的值
frequent = np.histogram(X1_sample,bins=crit)#区间统计频率
plt.hist(X1_sample,bins=crit)
nprob = np.diff(norm_quantiles) #区间占比率
#生成数据的频率与实际的理论频率进行卡方检验
stats.chisquare(frequent[0],nprob*X1_sample.size)
Power_divergenceResult(statistic=3.3112499999999847, pvalue=0.5071517715019188)

离散型卡方检验使用的条件（检验某两个分类变量是否相互独立）：

四格表卡方检验用于进行两个率或两个构成比的比较。
要求样本含量应大于40且每个格子中的理论频数不应小于5。
当样本含量大于40但理论频数有小于5的情况时卡方值需要校正，当样本含量小于40时只能用确切概率法计算概率。
(1)所有的理论数T≥5并且总样本量n≥40，用Pearson卡方进行检验。
(2)如果理论数T＜5但T≥1，并且总样本量n≥40，用连续性校正的卡方进行检验。
(3)如果有理论数T＜1或n＜40，则用Fisher’s检验。

想对两个或两个以上因子彼此之间是否相互独立做检验时，就要用到卡方检验
独立性检验中，H0:AB无关（没有差别），H1:AB有关系

testarray = np.array([[10,10,20],[20,20,20]])
ss.chi2_contingency(testarray) ## chi2_contingency(矩阵）
(2.7777777777777777, 0.24935220877729622, 2, array([[12., 12., 16.],
[18., 18., 24.]]))
p=0.2>0.05不能拒绝原假设，两者无关

T分布

1 一是正态性、二是方差齐性。
2 单一T检验：数据的均值与一个数据有误差异。
3配对T检验：一组数据在处理前后有误差异。（有米有服药前后的差异性）
4独立样本t检验：用来看两组数据的平均值有无差异性。
a = list(range(10))
b = list(range(10))
ss.ttest_ind(a,b)
Ttest_indResult(statistic=0.0, pvalue=1.0)
由于p=1，那么不能拒绝原假设，二者数据无显著的差异。

F检验

F检验又叫方差齐性检验。在两样本t检验中要用到F检验。
F检验法是英国统计学家Fisher提出的，主要通过比较两组数据的方差 S^2，以确定他们的精密度是否有显著性差异。至于两组数据之间是否存在系统误差，则在进行F检验并确定它们的精密度没有显著性差异之后，再进行t 检验。

agr1 = list(range(10))
agr2 = list(range(10))
agr3 = list(range(10))
ss.f_oneway(agr1,agr2,agr3)
F_onewayResult(statistic=0.0, pvalue=1.0)pvalue=0.0003294409907454654)
p>0.05:不能拒绝原假设，方差具有齐次性。

python数据分析----卡方检验，T检验，F检验，K-S检验相关推荐

Python数据分析笔记：聚类算法之K均值
我们之前接触的所有机器学习算法都有一个共同特点,那就是分类器会接受2个向量:一个是训练样本的特征向量X,一个是样本实际所属的类型向量Y.由于训练数据必须指定其真实分类结果,因此这种机器学习统称为有监督 ...
假设检验/T检验/F检验/Z检验/卡方检验
****显著性水平: 一个概率值,原假设为真时,拒绝原假设的概率,表示为 alpha 常用取值为0.01, 0.05, 0.10 ****什么是P值? p值是当原假设为真时样本观察结果及更极端结果出现 ...
卡方检验计算公式-医学统计助手★卡方检验,t检验,F检验,秩和检验,方差分析
卡方检验应用于两个率或两个构成比比较:多个率或多个构成比比较以及分类资料的相关分析等. 分类为独立样本卡方检验和配对样本卡方检验,独立样本卡方检验包括四格表卡方检验和行乘列卡方检验, 配对样本卡方检验 ...
#数据分析卡方检验、Z检验、T检验
定义: T检验适合小样本统计分析,通过比较数据的均值,研究两组数据是否存在差异 Z检验面向总体数据和大样本数据的均值对比的假设检验 (一般很难做到所以t检验使用的更多) F检验 (方差分析),检验方 ...
卡方检验、T检验+F检验、方差分析、Z检验
卡方检验.T检验+F检验.方差分析.Z检验
python实现卡方（Chi-Squared Test）相关性检验
python实现卡方(Chi-Squared Test)相关性检验独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料 ...
python配对t检验_置信度计算——t检验（配对样本t检验，AB实验置信度）,T
为什么计算置信度? 在推荐场景下,我们会研发一些策略,来提升业务指标,在做AB实验的时候,实验组跟base组的指标对标,并非稳定的胜利或者稳定的失败,观察7天或者14天的指标数据,会有正有负,那么怎么 ...
t检验自由度的意义_T检验和F检验\自由度_f检验和t检验的区别
T检验和F检验\自由度_f检验和t检验的区别 1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. ...
【Python计量】独立混合横截面数据与邹氏检验
文章目录一.获取数据二.分组回归三.联合显著性F检验四.邹氏检验五.全套代码六.拓展独立混合横截面数据:在不同时点,从一个大总体里进行随机抽样. 面板数据:区别于独立混合横截面,面板数据 ...

python数据分析----卡方检验，T检验，F检验，K-S检验

卡方检验

卡方检验的用途：

数据类型

正太分布的检验

T分布

F检验

python数据分析----卡方检验，T检验，F检验，K-S检验相关推荐

最新文章

热门文章