前言

想了解一些机器学习基础,但对于一个零基础的人而言,只好从最基础的数据统计看起。发现优达学城的课程非常不错,为了巩固所学计划整理一下课程的脉络以及关键知识点,便于回顾。

描述统计学入门

Intro to Inferential Statistics(推论统计学)

这篇文章的归纳的知识点如下

  • 中心极限定理(抽样分布)
  • 置信区间
  • 假设检验与显著性水平(临界区域)
  • 单尾检验 & 双尾检验
  • I型错误和II型错误

中心极限定理(抽样分布):

对于均值分布,其中每个均值都是样本量为 n 的均值,该分布的标准偏差就等于总体标准偏差除以平方根 n,这就叫做中心极限定理,数学公式表达为

M = ( X1 + X2 + … + Xn ) / n
M ~ N(μ,σ²/n)

中心极限定理适用于任何总体,总体可以是任何形状。

假设我们从中抽取一个样本并计算出均值,然后再抽取出一个样本并计算出均值,持续这么操作。

如果画出均值分布图的话,形状会是相对正态的,其中标准偏差等于总体标准偏差除以样本量的平方根叫做SE即标准误差。

如下图所示:

置信区间

可以结合知乎上这个问题的第一个回答来理解(关于人类身高的栗子)
如何理解 95% 置信区间

置信区间展现的是参数的真实值(μ)有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。

注意:下图是一个抽样分布,根据中心极限定理,样本均值M服从如下正态分布:

M ~ N(μ, σ²/n)

注:总体的μ未知,σ和n已知

假设检验与显著性水平(临界区域)

某个样本的均值位于任何一个临界区,表示不太可能发生,如果位于绿色区域,即最小的临界区,我们将报告最小的α水平。因为这表明样本统计数据与总体参数非常不同,因此证明很有可能采取了任何形式的人为处理措施。

下图中z=1.82,我们可以说在比例小于0.05时具有统计显著意义。因为1.82位于红色区域的某个位置,表明获得这个样本均值的概率小于0.05,但并不小于0.01,所以它仅在比例小于0.05时具有统计显著意义。

这基本上就是假设检验的思路。

单尾检验 & 双尾检验

假设检验

在进行统计检验时,我们自己设定判断条件,即我们自己选择一个α水平,然后规定如果获得特定样本均值的概率小于该α水平,那么就证明有效。通常会选择α水平0.05,在单尾检验和双尾检验两种情形下都存在两种可能的结果,样本均值要么位于临界区之外,要么位于临界区之内,我们将这两种结果成为零假设,并用H0(零假设)或Ha(对立假设)来表示。

H0 (null hyphothesis)
Ha (alternative hyphothesis)

零假设认为当前总体参数和在某种干预后出现的新总体参数之间没有显著差异。我们将表示为当前总体参数μ等于干预后的总体参数 (注:这里说的等于并非完全等于,我们只是说二者没有显著差异)。对立假设猜测存在显著差异,当前总体均值将比干预后的总体均值小或大,或者二者之间不相等。

对于零假设,当我们猜测这两个参数之间没有显著差异时,样本均值将位于临界区之外,在上图的白色区域,同时应注意对于单尾检验,临界区可能在左端而非右端。

对立假设猜测有显著差异,表明样本均值将位于临界区的某个位置。

以一个双尾假设检验为栗:

上图栗子是检验如果在线上课程中有背景音乐会不会显著提高学员的参与度。

已知量:总体均值μ和σ。样本大小n和样本均值。

通过已知量计算抽样分布z值:注意上图的正态分布表示的样本均值分布。样本均值的均值应该和总体均值相同。标准偏差应等于总体标准偏差除以平方根n,我们想知道样本均值位于这个分布哪个位置也就是说z值为多少。

最终结果如下图:

z值1.89小于z值1.96,因此样本均值位于白色区域,即某个位于总体均值周围的95%样本均值之一,因此我们不能拒绝H0即零假设。没有足够的证据可以证明在推出音乐形式的课程后新的总体参数将与现在的总体参数显著不同。也就是说根据我们的样本,我们猜测参与度将保持不变。

假设检验(增大样本量)

如果增加样本量n=50,假设均值不变还是8.3,此时得出的z=2.44。针对α水平0.05提出同样的问题。

此次z=2.44大于Z临界值,表明样本均值位于临界区的某个位置,样本量为50的样本达到均值为8.3的概率非常的小,小于2.5%。因此我们将拒绝零假设,我们有证据证明歌曲对参与度有影响。

I型错误和II型错误

用公式表达为P(表示概率)小于0.05(α水平)。因为从样本量为50的样本中获得该样本均值的概率小于α水平。我们拒绝该零假设的理由是该概率太低。

低概率并不代表不会发生。这种类型的统计分析可能存在理解错误。能够观看音乐形式课程的学员,有可能之前参与度就高,我们错误的将高参与度均值归功于音乐。

我们有可能决策错误,引申出下图中的错误类型:

I类错误:拒绝了正确的H0假设
II类错误:接受了错误的H0假设

可以看出,统计学始终可能会理解有误,数据只能起到一定的作用,重要的是如何收集数据,样本量有多大?样本是随机的吗?在做出统计决策时,需要考虑各种因素。

Udacity课程脉络-统计学基础(一)相关推荐

  1. 视频教程-SQL语句从入门到精通迅速提升篇视频课程(Oracle零基础版)-Oracle

    SQL语句从入门到精通迅速提升篇视频课程(Oracle零基础版) 某公司区域交付运营总监,丰富的项目管理经验,带过1个亿级项目,千万级项目10余个. 陈志文 ¥118.00 立即订阅 扫码下载「CSD ...

  2. Interview之AI:人工智能领域岗位求职面试—人工智能算法工程师知识框架及课程大纲(AI基础之数学基础/数据结构与算法/编程学习基础、ML算法简介、DL算法简介)来理解技术交互流程

    Interview之AI:人工智能领域岗位求职面试-人工智能算法工程师知识框架及课程大纲(AI基础之数学基础/数据结构与算法/编程学习基础.ML算法简介.DL算法简介)来理解技术交互流程 目录 一.A ...

  3. 计算机基础与应用课程小结,计算机应用基础课程小结.docx

    计算机应用基础课程小结 计算机应用基础课程小结 1.计算机应用基础课程是所有专业的基础课程.掌握常用的Windows技术和学会使用常用的Office办公自动化软件及常用工具软件和掌握基本的网络和网络安 ...

  4. php课程 6-20 字符串基础和去除空格和字符串填补函数

    php课程 6-20  字符串基础和去除空格和字符串填补函数 一.总结 一句话总结: 二.字符串 字符串定义: $str='hello world!'; 输出字符串: echo $str; print ...

  5. MachineLearning(6)-Daviad Silver强化学习课程脉络整理

    强化学习-Daviad Silver强化学习课程脉络整理 1.lecture1 introduction 1.1 强化学习简介 1.2 强化学习类别 1.3 强化学习的主要问题 2.lecture2 ...

  6. 统计学基础学习笔记:描述统计量

    文章目录 一.统计学基础 二.描述统计量 三.数据文件 四.绘制直方图与折线图 五.数据的位置 (一)基本概念 1.样本平均数(mean) (1)算术平均数 (2)几何平均数 2.中位数(median ...

  7. 『深度应用』NLP机器翻译深度学习实战课程·零(基础概念)

    0.前言 深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列NLP机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入到如何动手实践与应用部署,将包括以下内 ...

  8. 统计学基础之数据分布

    统计学基础之数据分布 学习几种常用的数据分布 1.正态分布 正态分布(Normal distribution),也称"常态分布",又名高斯分布.正态曲线呈钟型,两头低,中间高,左右 ...

  9. 5. 统计学基础2:协方差、相关系数、协方差矩阵

    文章目录 1. 协方差 2. 相关系数[就是使 |协方差|<=1] 3. 协方差矩阵 1. 协方差 标准差和方差一般是用来描述一维数据的, 具体介绍见:5. 统计学基础1:平均值-四分位数.方差 ...

最新文章

  1. Premiere Pro2.0用DebugMode2.3搭桥小日本4.0输出图解
  2. MySQL key/value存储方案(转)
  3. Qt:解决使用png图片时,报错libpng warning: iCCP: known incorrect sRGB profile的问题
  4. 奇怪吸引子---LuChen
  5. android按钮点击变化,Android实现按钮点击效果(第一次点击变色,第二次恢复)...
  6. 【LeetCode】【HOT】39. 组合总和(回溯)
  7. 17. Gradle编译其他应用代码流程(五) - 设置Task过程
  8. 如何使用SQL Server数据工具中的“可见性”选项降低报告的复杂性
  9. 那个20多万“不可描述”照片的数据集,有人用它做了鉴黄模型 | Demo
  10. linux raid
  11. html增值税申报表,关于调整增值税纳税申报有关事项的公告
  12. SSM框架介绍以及功能原理
  13. 市场调研报告-固体废物处理市场现状及未来发展趋势
  14. 【iOS】—— 多线程编程八重曲之(二)- Pthread
  15. python实时曲线绘制_python画曲线
  16. 搜狐季报图解:营收1.93亿美元 盈利900万美元
  17. textfield观察UIControlEventEditingChanged时键盘快捷输入验证码会执行两次
  18. Python编程练习:斐波那契数列
  19. VBA(14)排序Sort
  20. K8S taint(污点)和tolerations(污点容忍)

热门文章

  1. 用手机微信小程序怎么打印好友发来的资料及文件
  2. HBuilderX下载安装:国产前端开发工具 (赞)
  3. windows 系统下nmap扫描报错的解决方法
  4. ae合成设置快捷键_怎么在ae中剪切视频?怎么在ae里裁剪视频?
  5. c语言像素点的简单获取
  6. CSS3 属性样式总结记录(图文)
  7. 对于任何事情,如果你有风险意识,就会有完全不同的策略
  8. cropped-cherries.jpg
  9. php判断运营商,PHP如何实现根据手机号判断运营商(实例)
  10. 【JVM】详解类加载机制