(5)数据分析-T检验
文章目录
- 1、前言
- 2、单样本T检验
- 3、独立样本T检验
- 4、 配对样本T检验
- 5、源码
1、前言
如果数据集只含有200,那么可以直接使用正态性检验,如果数据集有200000个,那么就不要直接使用正态检验了,只能从中随机抽取200个样本进行检验,这就称作T检验。概率论里面讲过,当样本个数n趋向于无穷时,t分布依概率收敛于正态分布。T检验要求数据符合正态分布,且正态齐性。常用的T检验有但样本T检验、独立样本T检验和配对样本T检验。
2、单样本T检验
单样本T检验用于检验数据是否来自一致均值的总体。
from scipy import stats
x = stats.norm.rvs(loc=95,scale=4,size=30)print(stats.ttest_1samp(x,92))
print(stats.ttest_1samp(x,95))
#Ttest_1sampResult(statistic=5.319257705204204, pvalue=1.0445909223340947e-05)
#Ttest_1sampResult(statistic=0.7284580764005126, pvalue=0.4721750746833612)
这里我们使用norm.rvs产生符合正态分布的数据样本(假设我们提前不知道这些数据的分布),然后使用单样本T检验检验数据的均值。
第一次检验p-value<0.05拒绝原假设样本均值等于92。第二次检验p-value>0.05接受原假设样本均值等95。
3、独立样本T检验
独立样本提检验用于比较两组数据是否来自同一正态分布的总体。比如需要知道性别‘X’对收入‘Y’的是否有影响(假设收入为正态分布),就可以用独立样本T检验判断性别特征是否有用,即将全部男性的收入值放入数组A中,女性的收入值放入数组B中,然后对两组数据做独立样本T检验。
rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)
rvs2 = stats.norm.rvs(loc=5,scale=12,size=500)
print(stats.ttest_ind(rvs1,rvs2,equal_var=True))
#Ttest_indResult(statistic=-0.32860199568473664, pvalue=0.742525475208867)
注:如果需要比较的两组数据不满足方差齐性,需要将equal_var设为‘False’
观察p-value > 0.05
4、 配对样本T检验
配对样本T检验为单样本T检验的扩展,检验对象由来自正态分布独立样本更改为两群样本观测之差。她常用来比较同一受试对象处理的前后差异,或者按照某一条件进行亮亮配对,分别给予不同处理,然后比较受试对象之间是否存在差异。该检验要求传人的两组数据必须是一一配对的,即两组数据的个数和顺序必须相同,且必须为正态分布或者来自类正态的总体。
rvs1 = stats.norm.rvs(loc=5,scale=120,size = 500)
rvs2 = stats.norm.rvs(loc=5,scale=10,size=500)+stats.norm.rvs(scale=0.2,size=500)
print(stats.ttest_rel(rvs1,rvs2))
#Ttest_relResult(statistic=0.3242538544766337, pvalue=0.7458817255382564)
配对样本T检验的原假设是两个总体样本之间不存在显著差异。p-value>0.05。接受原假设
5、源码
from scipy import stats
x = stats.norm.rvs(loc=95,scale=4,size=30)print(stats.ttest_1samp(x,92))
print(stats.ttest_1samp(x,95))rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)
rvs2 = stats.norm.rvs(loc=5,scale=12,size=500)
print(stats.ttest_ind(rvs1,rvs2,equal_var=True))rvs1 = stats.norm.rvs(loc=5,scale=120,size = 500)
rvs2 = stats.norm.rvs(loc=5,scale=10,size=500)+stats.norm.rvs(scale=0.2,size=500)
print(stats.ttest_rel(rvs1,rvs2))
(5)数据分析-T检验相关推荐
- python数据分析 - T检验与F检验:二组数据那个更好?(一)
T检验,F检验 1.导语 2.假设检验 2.1 原假设与备择假设 2.2 接受域与拒绝域 2.3 两类错误 3.单样本的假设检验 3.1 选择零假设和对立假设 3.2 选择显著水平α 3.3 决定检验 ...
- Python玩转数据分析——T检验
概念 T检验,也称 student t 检验 ( Student's t test ) ,用来比较两个样本的均值差异是否显著,通常用于样本含量较小 ( n < 30 ) 的样本.分为单样本 t ...
- 数据分析——多重共线性检验
在做线性回归的时候,一般分为以下几个步骤: 1.画散点图,简单的查看是否存在线性关系(3D以下) 2.线性模型跑一遍试试效果 3.其中需要查看以下几个指标:3.1 正太分布检验3.1 多重共线性.异方 ...
- 数据分析编程检验——车流量统计(不能使用pandas和numpy)
目录 一.要求展示 二.获取内容 1.从文本中取内容 2.对文本中的内容处理 三.需求计算 1.按车辆编号对数据进行分组,统计采样时间间隔 ①分组 ②计算 四.源码 一.要求展示 ...
- 如何提升数据分析的效率
数据分析(Data Analysis)--这个词真的是如雷贯耳,装B一绝啊!甭管什么玩意,上来先整一通再说."数据分析"甚是被提上了神坛,找工作或者聊点行业内的动态不提点数据简直是 ...
- excel 两组数据交点_让科研人相见恨晚的技巧,用Excel做柱状图、箱型图及数据分析!(转载自ZSCI)...
来源:ZSCI 让科研人相见恨晚的技巧,用Excel做柱状图.箱型图及数据分析! 面对大量的实验数据,却不知道如何快速的将自己想要的结果筛选出来.筛选后也只能做简单的数据图,绘制高级的图形又成了一个难 ...
- 基于ConvLSTM的伦敦空气质量预测(1) 数据处理
基于ConvLSTM的伦敦空气质量预测(1) 数据处理 实验介绍 该实验使用了ConvLSTM模型,对伦敦地区的空气质量进行了时序预测.数据集来源于开源库openair.实验的目标是预测Bloomsb ...
- 【统计学笔记】各种假设检验的假设的建立和各统计量公式总结
8.4 假设问题的进一步说明 例如当问到是否购入某批灯泡(根据其寿命):: H0:μ≥1000hour认为该厂生产的灯泡[不会低于]规定的质量标准1000小时和H1:μ<1000hour认为该厂 ...
- Excel基础教程(1)
Excel(1) 什么是数据分析? 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 重点:对业务的理解. 工具:E ...
- 2019.9-电赛国赛-基于FDC2214的纸张计数显示装置
2019年全国大学生电子设计竞赛国家一等奖,F题-纸张计数显示装置 编辑by linwei_Cui 崔林威 团队成员:万宇,陈晴晴 学校:南京邮电大学 指导老师:陈小惠,孙斌 摘要 作品是基于TM4C ...
最新文章
- 皖西学院微型计算机原理期末试卷,皖西学院 电气微机原理试卷A
- Android移动开发之【Android实战项目】DAY8-Android studio查看SQLIte数据库文件
- 无法查找网络工作组计算机,XP系统弹出“无法查看工作组计算机”提示怎么办?...
- 如何在SQL Server查询语句(Select)中检索存储过程(Store Procedure)的结果集
- 表格布局页面_对于表格布局管理器的回顾以及接下来的目标
- 运行Deeplab遇到‘Unexpected label’
- 创作优质的视频号作品四个方向
- Java基础:介绍访问控制
- HDU3853:LOOPS
- 英语演讲和英语课件ppt模板
- InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)
- Mac上的GIF制作软件推荐
- oa处理会签流程图_关于合同会签OA流程使用说明
- 使用先根序列作为插入顺序重建二叉搜索树
- 商汤科技面试——CV算法面经
- 微信显示android23,微信7.0.23内测版发布 新增6个新功能
- mgo 的 session 与连接池
- C语言的精华——指针 指针初识
- pfx文件解析私钥和公钥
- 修改设置 打造安全的个人电脑(转)