作业

一个淘宝网购商家搜集了一年中每天的订单数XXX,除去春节期间及双十一前后外,按330天记,数据如下

请用卡方分布验证订单数是否泊松分布。已知:通过极大似然估计得知泊松分布参数λ=5.3\lambda=5.3λ=5.3

通过对问题进行分析:该任务为 分布的拟合优度检验
同时数据的样本来自离散分布

使用卡方分布进行拟合优度检验的步骤为:
1.分类。根据实际频数确定类别,若某个变量取值下样本的个数大于5,则直接将该取值作为一个单独的类;若小于5,则与相邻的取值合并为一个类。
2.计算理论分布在该分类规则下,每个分类中的理论频数。
3.进行卡方检验。

import numpy as np
import pandas as pd
from scipy import stats# 原始数据
# 原始数据
data = {'counts': list(range(15)),'observe':[3, 6, 21, 46, 48, 61, 52, 42, 27, 11, 6, 4, 1, 1, 1]}df = pd.DataFrame(data)
df
counts observe
0 0 3
1 1 6
2 2 21
3 3 46
4 4 48
5 5 61
6 6 52
7 7 42
8 8 27
9 9 11
10 10 6
11 11 4
12 12 1
13 13 1
14 14 1
# 将实际频数小于5的类别合并# 其中:
# 订单数为 0、1 的合并为一类
df.loc[1, 'observe'] = 3+6# 订单数 11、12、13、15 合并为一类
df.loc[11, 'observe'] = 4+1+1+1df=df[1:12]
df
counts observe
1 1 9
2 2 21
3 3 46
4 4 48
5 5 61
6 6 52
7 7 42
8 8 27
9 9 11
10 10 6
11 11 7

拒绝域示意图如下,具体可以看 参考链接的 假设检验1-方法论与一元数值检验 章节介绍!

# 根据自变量count的值计算每个自变量对应的理论频率
# 泊松分布参数为 5.3
Poiss=stats.poisson(mu=5.3)df['prop']=Poiss.pmf(df['counts']) # pmf函数可以根据输入的自变量,输出对应的概率(也就是理论频率)# 上述“注意”的修正
# 修正:由于数据框中counts=11实际上是大于等于11,因此在这里修正counts大于11对应的概率
df.loc[11, 'prop']= 1 - Poiss.cdf(10)
# cdf函数为左侧累积概率函数# 修正:由于数据框中counts=1实际上是小于等于1,因此在这里修正counts小于1对应的概率
df.loc[1, 'prop']= 1 -  Poiss.sf(1)
# sf函数为右侧累积概率函数# 用理论频率乘样本数 330 天,就可以得到理论频数
df['T_counts']=330*df['prop']
df
counts observe prop T_counts
1 1 9 0.031447 10.377524
2 2 21 0.070107 23.135289
3 3 46 0.123856 40.872344
4 4 48 0.164109 54.155856
5 5 61 0.173955 57.405207
6 6 52 0.153660 50.707933
7 7 42 0.116343 38.393149
8 8 27 0.077077 25.435461
9 9 11 0.045390 14.978661
10 10 6 0.024057 7.938690
11 11 7 0.020000 6.599886
# 用卡方检验,比较实际频数与理论频数的差别,就可以检验出数据是否服从泊松分布
chi=stats.chisquare(df['observe'], df['T_counts'], ddof=1) # 若理论频数不是“期望值”,则需要输入我们自己定义的理论频数
chi
Power_divergenceResult(statistic=3.9705897417232943, pvalue=0.91333754228589)

p值约为0.91,不能拒绝原假设,因此我们可以认为样本的总体服从泊松分布。

参考链接

  • GitModel, GitModel统计分析

DatawhaleGit-Model:假设检验3-分类数据的检验相关推荐

  1. TASK03|GitModel 假设检验3|分类数据检验

    目录 分类数据的检验 4.1 分类数据的常用检验 4.1.1 卡方检验和Fisher检验 卡方检验的适用范围(注意绝对频数与理论频数是否**过低**) Fisher检验的适用范围(2x2) 4.2 单 ...

  2. 量化金融-分类数据的检验

    量化金融–假设检验3-分类数据的检验 分类型数据的常用检验方法 量化金融--假设检验3-分类数据的检验 分类型数据的介绍 常用的检验方法 卡方检验.Fisher检验方法的分析 原理介绍 卡方检验 Fi ...

  3. R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性

    R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性 目录 R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性

  4. R语言使用epiDisplay包的tableStack函数基于分组变量生成统计分析表(包含描述性统计分析、假设检验、不同数据使用不同的统计量和假设检验方法)、自定义指定Bartlett检验的p值水平

    R语言使用epiDisplay包的tableStack函数基于分组变量生成统计分析表(包含描述性统计分析.假设检验.不同数据使用不同的统计量和假设检验方法).自定义设置assumption.p.val ...

  5. 【非参数统计05】分类数据的关联分析:列联表、卡方独立性齐性、Fisher精确性、Mantel-Haenszel检验、关联规则、Ridit检验法、对数线性模型

    目录导引 5 分类数据的关联分析 5.1 分类变量独立性检验 5.1.1 r×sr\times sr×s列联表 5.1.2 χ2\chi^2χ2独立性检验 5.1.3 χ2\chi^2χ2齐性检验 5 ...

  6. 医学图像~脑分类数据fMRI, voxel

    目录 1. fMRI 1.1 fMRI应用:whole-brain fMRI classification 2. voxel, 体素 3. 张量tensor 医学图像相关的脑分类数据:fMRI, vo ...

  7. 分类数据的分析-卡方检验运用

    概念 分类数据 观测值只能被分为几个类别中的某一类,如某个公民的国籍,也称定性数据. 多项试验 当分类数据只涉及到两个响应结果(是或不是,成功或失败等等),就是一个二项分布.如果分类数据涉及到两个以上 ...

  8. ML.NET Cookbook:(17)如何在分类数据上训练模型?

    一般来说,所有的ML.NET学习器都希望这些特征是一个浮点向量.因此,如果您的一些数据不是一个float,您需要将其转换为float. 如果我们的数据包含"分类"特征(比如&quo ...

  9. 神经网络分类数据表格图,神经网络分类数据表格

    1.怎么用spss神经网络来分类数据 用spss神经网络分类数据方法如下: 神经网络算法能够通过大量的历史数据,逐步建立和完善输入变量到输出结果之间的发展路径,也就是神经网络,在这个神经网络中,每条神 ...

  10. tp6中无限极分类里面的获取多级分类数据

    作者:陈业贵 华为云享专家 51cto(专家博主 明日之星 TOP红人) 文章目录 前言 一.什么是多级分类数据? 二.使用步骤 sql 代码 2.效果图 总结 前言 和大家共同完成获取多级分类数据 ...

最新文章

  1. SDK安装报错HTTP Status 416
  2. java基础-数据类型
  3. Transformer结构详解(有图,有细节)
  4. spring mvc接收数组
  5. 依赖注入_set方法注入_构造器注入
  6. Linux Shell函数返回值
  7. SAP 电商云 Spartacus UI 同 SAP Customer Data Cloud 的集成
  8. tps 数据库写并发衡量_硬核干货!抗住百万高并发的 6 个关键技术!
  9. IAR for AVR delay函数
  10. 理解K8S的编排和网络
  11. Combobox绑定数据源DataSet
  12. 蛋白质组学数据分析在生物医学领域的应用
  13. python学习的读书路线
  14. CodeForces1144 C - Two Shuffled Sequences
  15. sofa-bolt是什么?
  16. 基于html篮球网页游戏,基于html5和jquery的篮球跳动游戏
  17. Android AccountManager帐号管理(一)
  18. 光和储能结合模型(Matlab代码实现)
  19. cumt12月双月赛部分RE
  20. 爱思服务器显示磁盘空间不足,iPhone 11 有储存空间,但仍会提示“空间不足”怎么办?...

热门文章

  1. NASA Earthdata Search批量下载modis数据
  2. 2022年乡村医生考试冲刺试题及答案
  3. 招商基金数字化转型下的研发管理|发布会精彩回顾
  4. 追求不舒适的地方,直到整个世界都是我的家
  5. 面向接口编程实施模块化/组件化解耦,以友盟、极光等统计分析为例
  6. GNN-CS224W: 16 Position-aware and Identity-aware GNNs and Robustness of GNN
  7. 发现了问题解决不了--转:【win XP SP3 不能安装HD声卡驱动的解决办法】
  8. 《Adobe Photoshop CS6中文版经典教程(彩色版)》—第2课2.12节保存用于四色印刷的图像...
  9. Postman 使用方法详解
  10. java编程思想企业版Enterprise Thingking in java