数据分析之 假设检验

  • 1. 检验总体的均值是否可靠——Z检验
    • 1.1 背景
    • 1.2 流程
      • 1.2.1 解决方法之 假设检验
      • 1.2.2 解决方法之 反证法
      • 1.2.3 悖论
      • 1.2.4 P-value与显著性水平
    • 1.3 假设检验 步骤 总结
    • 1.4 验证——Z检验
      • 1.4.1 代码
    • 1.5 单边拒绝域
      • 1.5.1 代码
  • 2. 单样本t检验
    • 2.1 背景
    • 2.2 步骤
    • 2.3 代码
    • 2.4 自由度
  • 3. 成对数据的t检验
    • 3.1 背景
    • 3.2 步骤
    • 3.3 代码
  • 4. 比率检验
    • 4.1 背景
    • 4.2 步骤
    • 4.3 代码
  • 5. A/B测试

1. 检验总体的均值是否可靠——Z检验

1.1 背景


这里小张只是抽样一小部分数据,不能因为样本均值不等于理论上总体均值,而做出判断

1.2 流程

1.2.1 解决方法之 假设检验

  • 假设检验,也称为显著性检验,是通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。即我们对总体参数进行一定的假设 ,然后通过收集到的样本数据,来验证我们之前作出的假设(总体参数)是否合理。

  • 在假设检验中,我们会建立两个完全对立的假设,分别为:

    • 原假设(零假设) Ho.
    • 备择假设(对立假设) H.
  • 然后根据样本信息进行分析判断,是选择接受(维持)原假设还是拒绝原假设(接受备择假设)

1.2.2 解决方法之 反证法

  • 假设检验基于“反证法”。首先,我们会假设原假设为,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。

1.2.3 悖论

  • 在假设检验中,违反逻辑与常规的结论,就是小概率事件(也可称为悖论)。我们认为,小概率事件在一-次试验中是不会发生的。一旦小概率事件发生,则我们就有理由拒绝原假设。

  • 简单来说,就是看样本的统计量总体参数之间的差异度,当差异度达到一定程度时,小概率事件就发生了

  • 中心极限定理的定义如下:

    • 如果总体(分布不重要)均值为μ ,方差为o2 ,我们进行随机抽样,样本容量为n,当n增大时,则样本均值逐渐超近服从正态分布: x ~ N(μ, o2 /n)
  • 根据中心极限定理与正态分布的性质,从总体中抽取样本,样本均值( x )仅有5%的概率会距离总体均值( μ)超过2倍的标准误差,因此,我们就可以将这5%视为小概率事件

1.2.4 P-value与显著性水平

  • 为了便于量化,我们可以计算一个概率值 (P-Value ) , 该概率值可以认为就是支持原假设的概率(这个假设发生的概率)。因为在假设检验中,通常原假设为等值假设,因此, P-Value也就表示样本统计量与总体参数无差异的概率。
  • 我们预先设定一个阈值 ,这个阈值就是显著性水平(使用a表示) ,通常a的取值为0.05(1 - a为置信度) .当P-Value的值大于a时,支持原假设,否则,拒绝原假设。

1.3 假设检验 步骤 总结

  1. 设置原假设备择假设
  2. 设置显著性水平a(小概率事件发生的概率),通常为0.05
  3. 根据问题选择假设检验的方式
  4. 计算统计量,并通过统计量获取P值(此事件发生的概率,即面积)
  5. 根据p值和a值,决定接受原假设(此事件发生的概率 >= 小概率发生的概率)还是备择假设

1.4 验证——Z检验

注意:z检验需要知道总体的标准差

1.4.1 代码

import numpy as py
from scipy import statsa = np.array([-0.547,-0.532,-0.548,-0.531,-0.535])
mean, std = -0.545,0.008
sample_mean = a.mean()
se = std/np.sqrt(len(a))
# 偏移的倍数
Z = (sample_mean-mean)/se
# 发生的可能性 面积之和 落在[Z,2]和[-2,-Z]的面积 sf右边的面积
P =  2*stats.norm.sf(abs(Z))print("p-Value:",P)
#p-Value: 0.07363827012030438
# 可能性比5%大,认为是正确的

1.5 单边拒绝域

实际上我们关注的是A公司的牛奶冰点温度是否高于标准冰点温度,是否低于标准冰点不考虑,所以拒绝域应该在正态分布曲线的右侧,而不是两端。

1.5.1 代码

import numpy as py
from scipy import statsa = np.array([-0.547,-0.532,-0.548,-0.531,-0.535])
mean, std = -0.545,0.008
sample_mean = a.mean()
se = std/np.sqrt(len(a))
# 偏移的倍数
Z = (sample_mean-mean)/se
# 发生的可能性 面积 落在[Z,2]和[-2,-Z]的面积 sf右边的面积
P = stats.norm.sf(abs(Z))print("p-Value:",P)
# p-Value: 0.03681913506015219
# 由于P < a,因此原假设不正确

2. 单样本t检验

2.1 背景

2.2 步骤

注意Z检验需要知道样本的标准差,t检验用样本均值的标准差


2.3 代码

a = np.array([50,48,50,47,46,48,51])
n = len(a)
# 计算的是样本标准差 在numpy中需要设置ddof=1,除以个数减1
# 详见:https://blog.csdn.net/qq_30031221/article/details/109358542
mean, std = a.mean(), a.std(ddof=1)
se = std / np.sqrt(n)
t = (mean - 50)/se
# 计算左边 注意
P = stats.t.cdf(t,df = n-1)
print("p-Value:",P)
# p-Value: 0.041074075305325815
# 由于P < a,因此原假设不正确

2.4 自由度

抽样越多,自由度越大,t分布越趋于标准正态分布

3. 成对数据的t检验

3.1 背景

注意:成对数据的t检验,是同一组受试者产生两组数据,然后验证两队数据是否存在显著性差异的方式

3.2 步骤

3.3 代码

train_before = np. array([98.8,92.0,94.9,101.2,99.3,85.1,94.8,89.2,89.5,92.1])
train_after = np. array([88.4,92.4,90.3,88.4,89.3,89.0,92.5,87.4,88.9,85.4])
D = train_before - train_after
n = len(D)
bar_D,std_D = D.mean(),D.std(ddof=1)
t = bar_D/(std_D/np.sqrt (n))
# 注意求面积的方向
P = stats.t.sf(t, df=n-1)
print("p-Value:",P)
# p-Value: 0.013499094468973202
# 这家减肥公司有效果

4. 比率检验

4.1 背景

4.2 步骤

注意:样本容量>=30, 且np>=5, n(1-p)>=5 p为样本比例

4.3 代码

p = 45/500
pi_0 = 0.1
n = 500
Z = (p-pi_0)/np.sqrt(pi_0*(1-pi_0)/ n)
P = stats.norm.cdf(Z)
print("p-Value:",P)
# p-Value: 0.22802827012512783
# 维持原假设

5. A/B测试

  • AB测试是一种很常用的在线评测算法的实验方法

    • 它通过一定的规则将用户随机分成几组
    • 并对不同组用户采取不同的算法
    • 然后通过统计不同组用户的各种不同的评测指标比较不同算法的好坏
  • 切分流量是AB测试中的关键,不同的层以及控制这些层的团队需要从一个统一的地方获得自己AB测试的流量,而不同层之间的流量应该是正交的。

  • 注意:每组用户的分布类似

数据分析之 假设检验相关推荐

  1. #数据分析知识点--假设检验第一二类错误

    1.假设检验&第一第二类错误 假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立 假设检验的基本逻辑就是:我们为了解决一个疑问,就先做一个假设,然后在这个假设的基础上推 ...

  2. python模型预测_用Python如何进行预测型数据分析

    数据分析一般分为探索性数据分析.验证型数据分析和预测型数据分析.上一篇讲了如何用Python实现验证型数据分析(假设检验),文章链接:转变:用Python如何实现"假设检验"​zh ...

  3. 空间统计分析_CDA 数据分析师 Level 1 备考系列之推断性统计分析概述

    推断性统计相关概念与图表 随机试验.随机事件.随机变量 随机试验:a.可以在相同的条件下重复的进行:b.每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果:c.进行一次试验之前不能确定哪一个 ...

  4. 基于大数据的线上线下电商用户数据挖掘研究

    From:http://www.thebigdata.cn/JieJueFangAn/11932p2.html Online-to-Offline( 简称 O2O)电子商务模式,是一个连接线上用户和线 ...

  5. [阅读记录]《数据分析师求职面试指南》-2

    又是写在前面的一些碎碎念,大家都去读这本书!!(●'◡'●) 目录 第三章 基础知识考察 统计及数据分析知识 假设检验 贝叶斯统计概览 模型及数据挖掘知识 第四章 编程技能考察 熟悉Python pa ...

  6. Minitab软件是现代质量管理统计的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和统计专家的青睐。...

    Minitab软件是现代质量管理统计的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和统计专家的青睐. MINITAB 功能菜单包括: 基础和高级统计工具: ...

  7. 数据分析必备的统计学(二):假设检验

    此文是<10周入门数据分析>系列第10篇 想了解学习路线,可以先阅读" 学习计划 | 10周入门数据分析 " 讲完概率分布,再来讲讲统计学的最后一个知识点--假设检验. ...

  8. (补基础)数据分析系列:假设检验的基础知识

    JunLiang 数据科学家联盟 目录: 0x00 前言 0x01 基本思想 0x02 检验方向 拒绝域(拒绝域是由显著性水平围成的区域) 1.双尾检验 2.单尾检验 0x03 一类错误和二类错误 0 ...

  9. 数据分析——假设检验分析方法

    文章目录 前言 一.假设检验分析方法是什么,作用是什么? 二.步骤 1.提出假设 2.收集证据 3.得出结论 总结 前言 哈喽,大家好呀,我是小白~~ 今天学习了数据分析方法中的假设检验分析方法,以下 ...

  10. python 多项式回归 假设检验_Python数据分析入门书籍推荐

    在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...

最新文章

  1. Node.js中文件上传与multer模块的应用
  2. python视频教学视频哪个好-Python入门视频看哪个好?适合初学者的教学视频推荐...
  3. 如何在面试中有条理的回答用户体验方面的问题
  4. 低配置系统安装 linux,Linux系统的安装和配置
  5. 最简单的打造淘宝商品爆款步骤
  6. java 内存同步_Java中的硬件事务性内存,或者为什么同步将再次变得很棒
  7. 985研究生连论文都不会写,还面试什么大厂
  8. Elasticsearch集群安装Version6.2.2
  9. ** is not in the sudoers file. This incident will be reported. 给某个用户开放sudo权限。
  10. C# 语言规范_版本5.0 (第15章 委托)
  11. 非常简单的conda环境重命名方法
  12. 培训变成了闹剧,却不想怎么改进
  13. JSON格式转换工具
  14. 试题库管理系统--数据库设计
  15. ubuntu16.04 安装jre
  16. 概率论与数理统计学习笔记(1)——t检验与P值
  17. 计算机领域媒体的分类有,多媒体信息主要有几种类型
  18. 回溯法——利用解空间树解决0-1背包问题
  19. Boost.Asio 网络编程([译]Boost.Asio基本原理)
  20. 网络OSI七层及各层作用

热门文章

  1. CPU与GPU协同工作
  2. Tensorflow的ckpt转为npy格式的代码
  3. python-docx 复制一页_python 怎么用docx读取word的某一页然后放到新的word文档中?...
  4. 并行计算:MPI总结
  5. 交换机和路由器的区别计算机网络,交换机和路由器有什么区别?路由器与交换机的区别知识...
  6. linux tomcat startup.sh,Tomcat 安装教程与启动-startup.sh
  7. PE破解操作系统密码原理
  8. Linux日本云服务器安全设置的基本步骤
  9. property_get和property_set使用方法
  10. mac插网线不能上网_我的Macbook插上网线为什么不能上网? – 手机爱问