DatawhaleGit-Model:假设检验3-分类数据的检验
作业
一个淘宝网购商家搜集了一年中每天的订单数XXX,除去春节期间及双十一前后外,按330天记,数据如下
请用卡方分布验证订单数是否泊松分布。已知:通过极大似然估计得知泊松分布参数λ=5.3\lambda=5.3λ=5.3
通过对问题进行分析:该任务为 分布的拟合优度检验
同时数据的样本来自离散分布
使用卡方分布进行拟合优度检验的步骤为:
1.分类。根据实际频数确定类别,若某个变量取值下样本的个数大于5,则直接将该取值作为一个单独的类;若小于5,则与相邻的取值合并为一个类。
2.计算理论分布在该分类规则下,每个分类中的理论频数。
3.进行卡方检验。
import numpy as np
import pandas as pd
from scipy import stats# 原始数据
# 原始数据
data = {'counts': list(range(15)),'observe':[3, 6, 21, 46, 48, 61, 52, 42, 27, 11, 6, 4, 1, 1, 1]}df = pd.DataFrame(data)
df
counts | observe | |
---|---|---|
0 | 0 | 3 |
1 | 1 | 6 |
2 | 2 | 21 |
3 | 3 | 46 |
4 | 4 | 48 |
5 | 5 | 61 |
6 | 6 | 52 |
7 | 7 | 42 |
8 | 8 | 27 |
9 | 9 | 11 |
10 | 10 | 6 |
11 | 11 | 4 |
12 | 12 | 1 |
13 | 13 | 1 |
14 | 14 | 1 |
# 将实际频数小于5的类别合并# 其中:
# 订单数为 0、1 的合并为一类
df.loc[1, 'observe'] = 3+6# 订单数 11、12、13、15 合并为一类
df.loc[11, 'observe'] = 4+1+1+1df=df[1:12]
df
counts | observe | |
---|---|---|
1 | 1 | 9 |
2 | 2 | 21 |
3 | 3 | 46 |
4 | 4 | 48 |
5 | 5 | 61 |
6 | 6 | 52 |
7 | 7 | 42 |
8 | 8 | 27 |
9 | 9 | 11 |
10 | 10 | 6 |
11 | 11 | 7 |
拒绝域示意图如下,具体可以看 参考链接的 假设检验1-方法论与一元数值检验 章节介绍!
# 根据自变量count的值计算每个自变量对应的理论频率
# 泊松分布参数为 5.3
Poiss=stats.poisson(mu=5.3)df['prop']=Poiss.pmf(df['counts']) # pmf函数可以根据输入的自变量,输出对应的概率(也就是理论频率)# 上述“注意”的修正
# 修正:由于数据框中counts=11实际上是大于等于11,因此在这里修正counts大于11对应的概率
df.loc[11, 'prop']= 1 - Poiss.cdf(10)
# cdf函数为左侧累积概率函数# 修正:由于数据框中counts=1实际上是小于等于1,因此在这里修正counts小于1对应的概率
df.loc[1, 'prop']= 1 - Poiss.sf(1)
# sf函数为右侧累积概率函数# 用理论频率乘样本数 330 天,就可以得到理论频数
df['T_counts']=330*df['prop']
df
counts | observe | prop | T_counts | |
---|---|---|---|---|
1 | 1 | 9 | 0.031447 | 10.377524 |
2 | 2 | 21 | 0.070107 | 23.135289 |
3 | 3 | 46 | 0.123856 | 40.872344 |
4 | 4 | 48 | 0.164109 | 54.155856 |
5 | 5 | 61 | 0.173955 | 57.405207 |
6 | 6 | 52 | 0.153660 | 50.707933 |
7 | 7 | 42 | 0.116343 | 38.393149 |
8 | 8 | 27 | 0.077077 | 25.435461 |
9 | 9 | 11 | 0.045390 | 14.978661 |
10 | 10 | 6 | 0.024057 | 7.938690 |
11 | 11 | 7 | 0.020000 | 6.599886 |
# 用卡方检验,比较实际频数与理论频数的差别,就可以检验出数据是否服从泊松分布
chi=stats.chisquare(df['observe'], df['T_counts'], ddof=1) # 若理论频数不是“期望值”,则需要输入我们自己定义的理论频数
chi
Power_divergenceResult(statistic=3.9705897417232943, pvalue=0.91333754228589)
p值约为0.91,不能拒绝原假设,因此我们可以认为样本的总体服从泊松分布。
参考链接
- GitModel, GitModel统计分析
DatawhaleGit-Model:假设检验3-分类数据的检验相关推荐
- TASK03|GitModel 假设检验3|分类数据检验
目录 分类数据的检验 4.1 分类数据的常用检验 4.1.1 卡方检验和Fisher检验 卡方检验的适用范围(注意绝对频数与理论频数是否**过低**) Fisher检验的适用范围(2x2) 4.2 单 ...
- 量化金融-分类数据的检验
量化金融–假设检验3-分类数据的检验 分类型数据的常用检验方法 量化金融--假设检验3-分类数据的检验 分类型数据的介绍 常用的检验方法 卡方检验.Fisher检验方法的分析 原理介绍 卡方检验 Fi ...
- R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性
R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性 目录 R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性
- R语言使用epiDisplay包的tableStack函数基于分组变量生成统计分析表(包含描述性统计分析、假设检验、不同数据使用不同的统计量和假设检验方法)、自定义指定Bartlett检验的p值水平
R语言使用epiDisplay包的tableStack函数基于分组变量生成统计分析表(包含描述性统计分析.假设检验.不同数据使用不同的统计量和假设检验方法).自定义设置assumption.p.val ...
- 【非参数统计05】分类数据的关联分析:列联表、卡方独立性齐性、Fisher精确性、Mantel-Haenszel检验、关联规则、Ridit检验法、对数线性模型
目录导引 5 分类数据的关联分析 5.1 分类变量独立性检验 5.1.1 r×sr\times sr×s列联表 5.1.2 χ2\chi^2χ2独立性检验 5.1.3 χ2\chi^2χ2齐性检验 5 ...
- 医学图像~脑分类数据fMRI, voxel
目录 1. fMRI 1.1 fMRI应用:whole-brain fMRI classification 2. voxel, 体素 3. 张量tensor 医学图像相关的脑分类数据:fMRI, vo ...
- 分类数据的分析-卡方检验运用
概念 分类数据 观测值只能被分为几个类别中的某一类,如某个公民的国籍,也称定性数据. 多项试验 当分类数据只涉及到两个响应结果(是或不是,成功或失败等等),就是一个二项分布.如果分类数据涉及到两个以上 ...
- ML.NET Cookbook:(17)如何在分类数据上训练模型?
一般来说,所有的ML.NET学习器都希望这些特征是一个浮点向量.因此,如果您的一些数据不是一个float,您需要将其转换为float. 如果我们的数据包含"分类"特征(比如&quo ...
- 神经网络分类数据表格图,神经网络分类数据表格
1.怎么用spss神经网络来分类数据 用spss神经网络分类数据方法如下: 神经网络算法能够通过大量的历史数据,逐步建立和完善输入变量到输出结果之间的发展路径,也就是神经网络,在这个神经网络中,每条神 ...
- tp6中无限极分类里面的获取多级分类数据
作者:陈业贵 华为云享专家 51cto(专家博主 明日之星 TOP红人) 文章目录 前言 一.什么是多级分类数据? 二.使用步骤 sql 代码 2.效果图 总结 前言 和大家共同完成获取多级分类数据 ...
最新文章
- SDK安装报错HTTP Status 416
- java基础-数据类型
- Transformer结构详解(有图,有细节)
- spring mvc接收数组
- 依赖注入_set方法注入_构造器注入
- Linux Shell函数返回值
- SAP 电商云 Spartacus UI 同 SAP Customer Data Cloud 的集成
- tps 数据库写并发衡量_硬核干货!抗住百万高并发的 6 个关键技术!
- IAR for AVR delay函数
- 理解K8S的编排和网络
- Combobox绑定数据源DataSet
- 蛋白质组学数据分析在生物医学领域的应用
- python学习的读书路线
- CodeForces1144 C - Two Shuffled Sequences
- sofa-bolt是什么?
- 基于html篮球网页游戏,基于html5和jquery的篮球跳动游戏
- Android AccountManager帐号管理(一)
- 光和储能结合模型(Matlab代码实现)
- cumt12月双月赛部分RE
- 爱思服务器显示磁盘空间不足,iPhone 11 有储存空间,但仍会提示“空间不足”怎么办?...
热门文章
- NASA Earthdata Search批量下载modis数据
- 2022年乡村医生考试冲刺试题及答案
- 招商基金数字化转型下的研发管理|发布会精彩回顾
- 追求不舒适的地方,直到整个世界都是我的家
- 面向接口编程实施模块化/组件化解耦,以友盟、极光等统计分析为例
- GNN-CS224W: 16 Position-aware and Identity-aware GNNs and Robustness of GNN
- 发现了问题解决不了--转:【win XP SP3 不能安装HD声卡驱动的解决办法】
- 《Adobe Photoshop CS6中文版经典教程(彩色版)》—第2课2.12节保存用于四色印刷的图像...
- Postman 使用方法详解
- java编程思想企业版Enterprise Thingking in java