推断性统计相关概念与图表

随机试验、随机事件、随机变量

随机试验:a.可以在相同的条件下重复的进行;b.每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;c.进行一次试验之前不能确定哪一个结果会出现;随机事件:一个被赋予机率的事物集合,也是样本空间的一个子集;随机变量:随机试验的样本空间是定义在样本空间上单值实值函数,其单值为随机变量;总体与样本总体:试验的全部可能观察值;样本:全体中随机抽取的个体;正态分布及其图像形式正态分布:关于均值左右对称,呈钟形;其均值和标准差具有代表性,均值=中位数=众数;标准正态分布图表:在距离均值一倍标准差范围内的比率为68.2%,在距离均值两倍标准差范围内的比率为95.2%;

其他分布曲线图形示例:以下图形从左至右、从上至下分别为正态分布、泊松分布、伽玛分布、对数正态分布;其中,对数正态分布在统计分析中运用最为广泛,在精确度要求并不严格的统计分析汇总,经常对偏态分布首先进行对数转换,而对精确度要求较高的统计分析领域,则采用有针对性的分析方式,比如泊松回归和伽玛回归。

中心极限定理

从均值为m,标准差为d的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为m,方差为的正态分布。此时,有68%的样本平均数会落在之间,有95%的样本平均数会之间,有99.7%的样本平均数或落在之间。

点估计和区间估计

点估计:用样本平均数来估计总体平均数称为点估计;点估计命中目标几率极低;间估计:真正可靠的估计势必要用区间估计;根据中心极限定理和正态分布特性,这个区间包含全体平均数m的机会有68%,而的机会有95%,的机会有99.7%;在这里68%、95%和99.7%称为置信区间;置信区间越大,估计的区间也就越宽;【理解:如果置信区间为95%,且进行一百次抽样估计,则会有一百个样本平均数和一百个区间估计,而这一百个区间估计里会有95个正确的包含着全体平均数m;当然,我们不会做一百次抽样,只会做一次,而这一次抽样的区间估计包含总体平均数的几率为95%;】在区间估计中,当样本数越多时,估计的总体均值m越准,d越小(估计越稳);估计d的方法有两种,一种是用样本观察值的总体标准差来估计(优点是符合准的要求,缺点是必须做完抽样);另一种方法是用速简方式,即以平均数为中心,根据常识判断找出这组资料可能的最大数和最小数的差,再除以六,即为对d的速简估计,原因为平均数左右各三个标准差的距离大致可以网罗绝大部分的数据,从最大数到最小数之间大概有6个标准差的距离;

假设检验

假设检验的基本步骤

(1)建立原假设H0:m1=m2成立,备选假设H1:m1<>m2;(一般假设H0为真,对其进行统计检验,H0与H1对立,两者择一);

(2)确定小概率事件的临界值。(一般情况下我们将p<0.05或0.01作为小概率的临界值,这里的0.05和0.01为显著性水平)

(3)获取样本,即随机抽样;

(4)选择检验的方法,选择具体的检验统计量并计算;

(5)确定P值,并根据P值与显著性水平的关系得出相应结论;

【业务流程的数据分析与假设检验的流程是一样的】

假设检验的两类错误

两类错误的概率想家并不一定等于1;样本量不变的情况下,不能同时增大或减小。

统计量的函数形式与利用P值进行检验的步骤

(1)Z检验统计量:一个总体均值的假设检验,总体正态,总体方差已知,可以用样本均值的标准误差,按正态分布计算临界比率;

(2)t检验统计量:一个总体均值的假设检验,总体正态,总体方差未知,小样本(通常指小于30);

(3)检验统计量:用于单个总体的方差检验;

(4)F检验统计量:用于两个总体的方差检验;

P值是一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率,可以表示对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设。

P值的计算

(1)单侧检验(以右侧检验为例):P值为样本统计量X右侧的面积;

(2)双侧检验:P值为样本统计值的绝对值右侧的面积的两倍;

利用SPSS中相关对话框实现功能分析

(1)单样本t检验

(2)配对t检验:

方差分析

方差分析的基本原理及假设

根据试验结果鉴别各有关因素对试验结果影响的有效方法,是方差的可加性原则。

方差分析的基本假设:每个总体都应服从正态分布;每个总体的方差必须相同;观察值是独立的。

单因素方差分析

指将所获得的数据按某些项目分类后,再分析各组数据之间有无差异的方法,其本质是检验多个总体均值是否相等,其计算过程可以理解为是变异分解过程。

单因素方差分析的基本步骤:提出假设(H0:m1=m2=……=mk,各个水平均值相等,即自变量对因变量没有显著影响) 构造检验统计量(F统计量) 统计决策(根据P值)。

计算F统计量的过程

(1)变异分解:总体平方和(SST)=组间平方和(SSA)+组内平方和(SSE)

(2)计算均方:

a.组间均方:,SSA的自由度为k-1;

b.组内均方:,SSE的自由度为n-k;

(3)计算检验统计量F:

(4)统计决策:

将统计量的值F与给定显著性水平a的临界值Fa比较,作出对原假设H0的决策;

若F>Fa,即PH0,表明均值之间差异是显著的,所检验的因素对观察值有显著影响;

若F<Fa,即P>a,则不拒绝原假设H0,无证据表明所检验的因素对观察值有显著影响。

利用SPSS进行单因素方差分析

CDA 数据分析师 Level 1 备考系列:

【1 CDA数据分析师Level 1 备考系列之数据分析概述】

【2 CDA 数据分析师Level 1 备考系列之描述性统计分析概述】

空间统计分析_CDA 数据分析师 Level 1 备考系列之推断性统计分析概述相关推荐

  1. mysql单元组多元组_CDA数据分析师-数据分析练习题2套

    数据分析练习题1 在线试卷链接:CDA认证考试 Level Ⅰ业务数据分析师模拟题 - CDA人工智能学院 - 数据科学与人工智能从业者的在线大学_AIU人工智能学院_经管之家_CDA数据分析师旗下​ ...

  2. CDA lever-1 备考经验分享 转数据分析师CDA证书备考 考试相关说明

    非常开心在2023年一开始就考过了CDA lever-1,也是今年的第一个证书,真真真是一个开门红,虽然很遗憾没有考到A,但是最起码得到B,也算过了,不算亏.下边是我本次考试的成绩. 考试注册报名与考 ...

  3. 完整版 :数据分析师的一天

    早上10点,到了办公室,急急忙忙吃了早餐, 早餐是路边买的豆浆油条,加一个肉包,是滴,是那种会爆汁的那种 然后打开电脑, 第一件事情就是查看昨晚下班的时候的未查看的消息. 果然, 对接的产品经理 小钟 ...

  4. 数据分析师证书需不需要考?

    前言 1 为什么要考数据分析师证书? 为什么想考数据分析师证书?大部分小伙伴应该就是以下两种情况吧 (文末有惊喜) 1.1 情况一:就业中 阶段 考证面临的情况: 对于目前已就业的数据分析师而言,公司 ...

  5. 大数据分析师工程师入门6-HIVE进阶

    本文为<大数据分析师入门课程>系列的第6篇,主要讲解大数据分析师在工作中需要用到的HIVE进阶知识,主要包括: 窗口函数 数据倾斜 性能调优 explain 替换引擎 那,就直接开讲了. ...

  6. 大数据分析师入门6-HIVE进阶

    本文为<大数据分析师入门课程>系列的第6篇,主要讲解大数据分析师在工作中需要用到的HIVE进阶知识,主要包括: 窗口函数 数据倾斜 性能调优 explain 替换引擎 那,就直接开讲了. ...

  7. CDA Level 1 数据分析师:2.1 表格结构数据内容

    CDA Level 1 数据分析师:2.1 表格结构数据内容 1. 表格结构特征 1. 数据类别 2. 结构化数据 1. 来源: 2. 处理方式: 3. 表格结构数据层级: 3.1 对象间的父子关系: ...

  8. 数据分析师CDA认证 Level Ⅰ笔记(完结)

    **黑色字体部分为考纲(截至2022年),蓝色字体部分为笔记,仅供参考 PART 1 数据分析概念与职业操守 1.数据分析概念.方法论.角色 [领会] 数据分析基本概念(数据分析.数据挖掘.大数据) ...

  9. 阿里云大数据分析师(ACP)认证,该如何备考?

    先来了解一下阿里云认证: 阿里云认证是基于核心技术及岗位的权威认证, 阿里云针对不同产品类别.用户成长阶段.生态岗位,精心打造不同的认证考试. 个人:证明您在对应技术领域的专业度,能够基于阿里云产品解 ...

最新文章

  1. java 抽象方法 虚方法的区别_声明抽象类(纯虚方法)会大幅增加二进制大小
  2. tkinter实现文件加密和解密
  3. 使用JDBC改变Oracle的session參数 NLS_DATE_FORMAT
  4. 抽象代数学习笔记(5) 运算
  5. 3.5 梯度校验-机器学习笔记-斯坦福吴恩达教授
  6. 免费下载!《九年双11:互联网技术超级工程》,300页干货精华
  7. python删除字符串_Python3 - 删除字符串中不需要的字符
  8. mysql 5.6 5.7不兼容_同一条sql在mysql5.6和5.7版本遇到的问题。
  9. JavaScript设计模式返璞归真
  10. 怎样查看JVM的默认收集器
  11. 安卓开发:用ImageView放上图片后上下有间隙
  12. 【转】精华!图解局域网共享设置步骤 - 李小虎
  13. 在ISA Server 2004上发布使用非标准的21端口进行连接的FTP服务器
  14. angular 居中_Angular Material design设计
  15. 项目经理案头手册学习系列【18】——社会技术系统和项目组织
  16. 字词拼音查询易语言代码
  17. java web程序课后答案_JavaWeb程序设计教程课后练习答案【参考】.doc
  18. 圆钢孔型计算机模拟,第五章 金属塑性加工ppt课件.ppt
  19. 最好的免费在线UML图表工具
  20. 教孩子学编程 python 下载_教孩子学编程 python语言版

热门文章

  1. Uni2D Unity4.3 2D Skeletal Animation
  2. duilib学习领悟(2)
  3. [妙味DOM]第五课:事件深入应用
  4. 宽度自适应实现方法(转)
  5. java http 返回值_java发送http请求,无需等待返回结果
  6. python实现带头结点的单链表的就地逆置_6-1 带头结点的单链表就地逆置 (10 分)...
  7. 二分答案——yyy2015c01 的 U 盘(洛谷 P2370)
  8. XP硬盘分区软件测试面试,怎样让WinXP系统自检并修复硬盘?
  9. mysql的limit_MYSQL中LIMIT用法
  10. python中scrapy是什么_python爬虫中scrapy组件有哪些?作用是什么?