假设检验3- 卡方分布
前言:
目录
一 卡方分布
二 双边假设检验
三 单边假设检验
四 例子
一 卡方分布
n 个随机变量均符合标准正态分布,则其平方和符合自由度为n的卡方分布
重要性质
二 双边检验
2.1 假设
2.2 统计量
2.3 拒绝域
k1 =chi2.ppf(alpha/2) k2=chi2.ppf(1-alpha/2)
其中: k1 可以通过
P值法
由于是双边检验
P_= 2*min(p,1-p)
三 单边检验
小写的s是样本方差
1: 左边检验
1.1 假设
1.2 统计量
1.3 拒绝域
这里分位数代表下分位数,如果是上分位数写法为
1.4 P值法
2: 右边检验
2.1 假设
2.2 统计量
2.3 拒绝域
这里分位数代表下分位数,如果是上分位数写法为
2.4 P值法
四 例子:
4.1
解:
这是左边检验
step1
step2 :统计量
统计量 14.57
step3: 在置信度为0.05,自由度为 24 情况下
分位数 13.848
step4
原假设成立
# -*- coding: utf-8 -*-
"""
Created on Sat Jul 31 10:26:06 2021@author: chengxf2
"""
import numpy as np
from scipy.stats import chi2
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler'''
统计量
argsdf: 自由度s: 样本方差sigma: 方差
'''
def GetZ(df,s,sigma):z = df*s/sigmareturn zdef GetQ(alpha, df):q = chi2.ppf(alpha,df)# -*- coding: utf-8 -*-
"""
Created on Sat Jul 31 10:26:06 2021@author: chengxf2
"""
import numpy as np
from scipy.stats import chi2
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler'''
统计量
argsdf: 自由度s: 样本方差sigma: 方差
'''
def GetZ(df,s,sigma):z = df*s/sigmareturn zdef GetQ(alpha, df):q = chi2.ppf(alpha,df)return q
if __name__=="__main__":n= 25s= 4.25df = n-1sigma = 7alpha = 0.05z = GetZ(df,s,sigma)q =GetQ(alpha, df)print("\n 统计量 %5.2f"%z,"\t 分位数 %5.3f "%q)if z>q:print("\n 原假设成立 ")else:print("\n 拒绝原假设")return q
if __name__=="__main__":n= 25s= 4.25df = n-1sigma = 7alpha = 0.05z = GetZ(df,s,sigma)q =GetQ(alpha, df)print("\n 统计量 %5.2f"%z,"\t 分位数 %5.3f "%q)if z>q:print("\n 原假设成立 ")else:print("\n 拒绝原假设")
4.2 鸢尾花 数据集种,每个维度归一化后,其平方和可以假设符合卡方分布
检验临界值法和P值法效果是否一样,找出分布异常的点。
解:
通过代码 ,其效果完全一致。
# -*- coding: utf-8 -*-
"""
Created on Fri Jul 30 16:39:08 2021@author: chengxf2
"""import numpy as np
from scipy.stats import chi2
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler'''
检验:
argsx_std: 每一列的数据都是标准的正太分布
'''def check(x_std, alpha=0.01):if alpha > 0.5:print("\n ========error=========")returnm, n = np.shape(x_std)df = n # 自由度low = chi2.ppf(alpha/2, df) # 左边拒绝域up = chi2.ppf(1-alpha/2, df) # 右边拒绝域for i in range(m):x = x_std[i] # 样本a = np.power(x, 2) # 样本平方b = np.sum(a) # 随机变量的平方和符合卡方分布# p = 2*chi2.sf(b,df) #1-CDF 累计积分 ,双边分布的p值法p = chi2.cdf(b, df)p_ = 2 * min(p, 1.0-p)bReject_p = FalsebReject_N = Falseif p_ < alpha:bReject_p = Trueif b < low or b > up:bReject_N = Trueif bReject_p != bReject_N:print("\n P值法 %4.3f i: %d " % (p, i))'''
标准化
Argsdata: 数据集returnx_std: 样本标准化后的情况u: 每个维度的均值std: 每个维度的无偏标准差ddof = 0(n无偏);1(n-1)
'''def standardization(data):#x_std = StandardScaler().fit_transform(data)scaler = StandardScaler().fit(data)x_std = scaler.transform(data)print("\n data ", np.shape(x_std))u = scaler.mean_sig = scaler.scale_#print("\n 维度均值: ", u, "\t 维度方差 ", sig)'''m, n = np.shape(data)for i in range(n):x = data[:, i]u = np.mean(x)sigma = np.std(x,ddof=0)print("\n i %d u: %5.2f sigma %5.3f" % (i, u, sigma))'''return x_std, u, sig'''均值方差归一化 Standardization加载数据集
ArgsNoneiris: ['target_names', 'data', 'target', 'DESCR', 'feature_names']
return'''def LoadData():data = load_iris()feature = data['data']m, n = np.shape(feature)return featureif __name__ == "__main__":data = LoadData()x_std = standardization(data)check(x_std[0], 0.01)
假设检验3- 卡方分布相关推荐
- python 多项式回归 假设检验_Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- 代码逻辑分析_入行数据分析师不得不看的10本书
随着市场上数据分析师岗位需求越来越多,入行数据分析师的人日益增多,而入行数据分析的门槛也越来越高.今天就来盘点入行数据分析师必看的10本书. 能否顺利入行数据分析师,主要看技能是否达标以及分析思维是否 ...
- Python数据分析入门书籍推荐!!!强烈推荐,新手必看
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- python统计分析书籍_Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- 如何才能成为顶级的数据分析师?
以下文章来源于与数据同行 ,作者傅一平 每个行业都有好的数据分析师,但如何定义顶尖呢? 顶级的数据分析师一定会在数据变现最牛逼的行业里存在,比如金融风控或者数字广告行业,这些业务是真正的数据驱动,因为 ...
- Python数据分析入门书籍推荐!
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- python数据挖掘算法的书籍_机器学习和数据挖掘推荐书单
有了这些书,再也不愁下了班没妹纸该咋办了.慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧! <机器学习实战> 本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍 ...
- 外星人入侵pythonppt_入行数据分析师不得不看的10本书
随着市场上数据分析师岗位需求越来越多,入行数据分析师的人日益增多,而入行数据分析的门槛也越来越高.今天就来盘点入行数据分析师必看的10本书. 能否顺利入行数据分析师,主要看技能是否达标以及分析思维是否 ...
- Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- 推荐6本入门Python数据分析公认的必看经典教材
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
最新文章
- 欧盟如何运用AI之力推动社会创新
- 回收站功能在 Linux 中的实现
- 用Python开始机器学习(3:数据拟合与广义线性回归)
- linux用户带密码迁移 LDAP
- .NET开发Windows服务
- python基础语法-对文件的操作
- SAP Spartacus routing parameter mapping介绍
- WKViewManager iOS 弹窗架构
- 使用CoreProfiler/NanoProfiler实现跨平台amp;应用的整合性能调试
- oracle查询sql记录数,oracle查询所有表的记录数SQL
- L1-051 打折-PAT团体程序设计天梯赛GPLT
- 【ArcGIS】数据属性重新赋值
- oracle 触发器代码,Oracle触发器实例代码
- Oracle数据库资料收藏
- 残差网络—ResNet
- 图片服务器的架构演进
- 参加2022 年第四届齐鲁工业大学(山东省科学院)与山东师范大学ICPC 大学生程序设计竞赛的总结
- 记录自己关于Linux的学习和RHCSA、RHCE认证相关
- CSS3中steps()动画的详解
- vue模仿网易云客户端