数据分析系列--常见的评估方法
假设检验:t 检验、方差分析
假设检验:
又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。
H1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
t检验是英国统计学家Cosset在1908年以笔名“" student”发表的,因此亦称 student t检验( Student' s t test)。t检验是用t分布理论来推断差异发生的概率,从而判定两总体均数的差异是否有统计学意义,主要用于样本含量较小(如n<60),总体标准差σ未知,呈正态分布的计量资料。若样本含量较大(如n>60),或样本含量虽小,但总体标准差σ已知,则可采用u检验(亦称:z检验)。但在统计软件中,无论样本量大小,均采用t检验进行统计分析。
t检验和u检验的适用条件:①样本来自正态总体或近似正态总体;②两样本总体方差相等,即具有方差齐性。在实际应用时,如与上述条件略有偏离,对结果亦不会有太大影响;③两组样本应相互独立。根据比较对象的不同,t检验又分为单样本t检验、配对t检验和两独立样本t检验。
两类错误:
假设检验的基本思想是利用“小概率事件”原理做出统计判断的,而“小概率事件”是否发生与一次抽样所得的样本及所选择的显著性水平α有关,由于样本的随机性及选择显著性水平α的不同,因此检验结果与真实情况也可能不吻合,从而假设检验是可能犯错误的 。
①当假设H0正确时,小概率事件也有可能发生,此时我们会拒绝假设H0。因而犯了“弃真”的错误,称此为第一类错误,犯第一类错误的概率恰好就是“小概率事件”发生的概率α,即
P{拒绝H0/H0为真}=α
②当假设H0不正确,但一次抽样检验未发生不合理结果时,这时我们会接受H0,因而犯了“取伪”的错误,称此为第二类错误,记β为犯第二类错误的概率,即
P{接受H0/H0不真}=β
理论上,自然希望犯这两类错误的概率都很小。当样本容量n固定时,α、β不能同时都小,即α变小时,β就变大;而β变小时,α就变大。一般只有当样本容量n增大时,才有可能使两者变小。在实际应用中,一般原则是:控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小B。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验 。
其中详细说明t检验:
单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。
数据分析系列--常见的评估方法相关推荐
- python dataframe的某一列变为list_Python数据分析系列文章之Pandas(上)
本篇是[机器学习与数据挖掘]头条号原创首发Python数据分析系列文章的第三篇 Python数据分析系列文章之Python基础篇 Python数据分析系列文章之Numpy Python数据分析系列文章 ...
- 政府大数据应用的反思;大数据分析应用常见的困难
来源:网络大数据 摘要:在智慧城市建设中,以支持政府决策为名的大数据中心建设如火如荼,但利用大数据改进决策的成功案例却鲜有,与大数据中心的投资不成比例,令人质疑大数据中心遍地开花模式的合理性. 一.政 ...
- arcgis 快速制图插件_51GIS学院|ArcGIS空间数据分析系列课程的27个视频
51GIS学院 课程背景 迎接科学分析与国土空间规划,迅速掌握ArcGIS基础操作并进阶实战,推出本次ArcGIS空间数据分析系列课程.系列课程一,为ArcGIS基础与制图,课程目标为掌握ArcGIS ...
- 数据分析系列精彩浓缩(二)
数据分析系列精彩浓缩(二) 那么我们有了UCI提供的datasets,我们怎么Perfect operation呢? First,we download a data file to the loca ...
- 数据分析系列:绘制散点图(matplotlib)
这是数据分析系列的开篇,这个系列中主要与matplotlib包打交道.进入正题今天我们学习使用matplotlib.pyplot绘制散点图,操作工具为Jupyter notebook,环境为Pytho ...
- 按15分钟取数据_【数量技术宅|金融数据分析系列分享】套利策略的价差序列计算,恐怕没有你想的那么简单...
更多精彩内容,欢迎关注公众号:数量技术宅 #价差计算的"误区" 我们在测试两个或多个金融资产相互运算产生的策略信号时,免不了需要涉及将不同的价格时间序列,按照时间轴进行对齐,套利策 ...
- 您访问的网页出错了! 网络连接异常、网站服务器失去响应_数据分析系列——静态网页爬虫进阶(requests)...
在之前"数据分析系列--数据分析入门"16篇中有与爬虫的相关内容,介绍的相对简单.静态网页爬虫进阶系列将分别从网页的自动爬取(Requests).网络数据解析(BeautifulS ...
- 比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用
今天给大家讲讲芯片数据分析中常见的一些图的作用,让大家伙儿知道它们在BB些啥. 箱式图(Box plot) 基因芯片的原始数据是需要进行标准化处理的,主要目的是消除由于实验技术(如荧光标记效率.扫描参 ...
- 《BI那点儿事》三国数据分析系列——蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析...
<BI那点儿事>三国数据分析系列--蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析 原文:<BI那点儿事>三国数据分析系列--蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析 ...
最新文章
- ERP实施完了,为什么还要做MES?
- 合格SEOER应该具备的能力
- 迅为四核4418开发板MiniLinux-CAN总线测试使用文档
- python同时监听多个端口_python bottle使用多个端口(多个进程)提高并发
- 牛客练习赛74 E CCA的期望(算概率的技巧+floyd处理)
- 09-CNN手写数字识别
- Chromium引擎控件DotNetBrowser V1.14发布 | 附下载
- 什么是dos及常见命令详解
- View的滚动原理简单解析(二)
- Android生成签名文件对应用签名 Android签名作用
- flash buidler 4.5 序列号
- jsp登录注册页面代码
- Java打印正反等边三角形
- Rimworld Mod教程 第六章:Defs文件
- ERPLAB脑电数据分析教程
- 炙手可热的ZNS SSD将会为数据中心带来什么?
- 安利!王一博与海飞丝的清爽秘籍
- 浮点数强制转换整数,四舍五入
- php计算日期差天数
- 关于“无穷”的概念---数学笔记“无穷”
热门文章
- 深度学习这么调参训练_深度学习调参技巧
- Postman发送一个请求
- 输出一个平面点关于X轴Y轴以及原点的对称点
- 海外SDK之----------韩国支付onestore
- AI把你打造成时尚界宠儿 1
- 高通9xxx系列4G模块modem linux编译环境安装及配置详细说明
- python图片转文字easyocr_OCR识别软件将图片转文字的具体方法
- 提名卡斯卡迪亚的免费软件社区贡献者
- 达特茅斯计算机专业师资力量如何,达特茅斯学院(Dartmouth College)计算机科学Computer Science专业排名第126-150位(2021年THE世界大学商科排名)...
- 拼多多猛击阿里,极兔狠怼三通一达,段永平要挑战马云?