前言

关于t分布背后的故事,可以参考这篇文章,讲的非常好。

如何理解t检验, t分布, t值

这篇文章的归纳的知识点如下:

  • why t-test ?
  • 自由度
  • 单尾t检验 & 双尾t检验
  • 影响t统计量
  • 单样本t检验
  • 单样本t检验栗子(地雀)
  • 相依样本
  • 相依样本例子
  • 总结
    • 效应量

why t-test

在前面的课程中,我们知道总体参数μ和σ,但很多时候我们并不知道。我们通常只有样本,只能通过样本得出所有结论。在下两节课中,我们将通过样本得出样本均值与总体的区别有多大以及两个样本之间的区别有多大。在所有中心值衡量指标中我们通常使用均值,在此情形下,要对比的两个样本可以是独立样本或非独立样本。这两种样本都会有介绍。

处理样本数据时必须利用贝塞尔校正系数,根据样本标准偏差估算总体标准偏差。当我们想知道样本均值位于样本均值分布(即抽样分布)上的位置。如果我们知道总体参数,则可以判断该抽样分布的形状和参数。对于任何样本均值,我们都可以通过标准化找到该均值位于此分布上的位置,也就是说算出样本均值的z值。我们算出样本均值和μ之间的差别,再除以标准误差但现在标准误差取决于样本了,如果我们拥有的是样本,我们则无法再使用σ。因此我们得出的是新的分布,该分布更容易出错。这个分布叫做t分布,因为它更容易出错,所以更加分散。末端比正态分布要高。当样本量n增大时t分布更接近于正态分布,末端变的更矮,最后样本偏差s会更接近σ。

自由度

t分布用自由度来定义。

在总体中,当我们需要选择n个样本值时,我们需要满足一定的条件即第n个值必须确保这些指的和等于x拔乘以n。也就是说n-1个值可以随意变化,只要第n个值使得和为相同的值,从而达到相同的均值即可,称为有效取样数。因为样本标准偏差取决于x拔,自由度为n-1。

有人可能会问,如果总体标准偏差也使用x拔,为何要除以n呢?这是因为对于总体来说,我们无法像样本那样,用某些值代替其他值,因为总体的所有可能值已经定好了。

自由度是指在不影响给定限制条件的情况下,可以自由变换的信息的数量。可以将自由度视作估算其他信息时可有的独立信息数量。在我们知道均值后,只有n-1个值是独立的。随着自由度的增大,t分布将更接近正态分布。

单尾t检验 & 双尾t检验

方法与正态分布单尾&双尾一致,只不过正态分布用z表查询,t分布用t表查询。

影响t统计量

和z检验一样,当t统计量在任一方向远离0时,也就是说如果样本均值远离总体均值,我们就拒绝零假设。首先我们需要对比样本均值与总体均值,在这种情形下,t等于样本均值减去总体均值μ0,再除以标准误差,我们使用的是样本标准偏差,而不是σ除以平方根n

单样本t检验

和之前提到的z检验一样,它是单样本t检验是因为我们只有一个样本,均值为x拔。我们想知道这个样本来自的总体是否与具有这个均值的总体显著不同。因此零假设是指:总体均值μ等于某个特定的值μ0。

当我们计算t统计量时,分子是样本均值与μ0的差,而样本均值是总体均值μ的点估计值。分母衡量的是总体均值与μ0之间按概率预测的区别,当我们知道α水平,t表显示了划分α水平的t临界值。如果t统计量大于t临界值或者负的t统计量小于划分α水平的负的t临界值,则拒绝零假设。

单样本t检验栗子(地雀)

相依样本

如果同一受试者参加两次测试,即为相依样本。

这叫做受试者内设计,示例一是每个受试者按随机顺序被分配到两个组。例如他们处在对照组,然后接受某种处理,或者他们接受两种治疗方法。另一个例子是每个人都接受了前期测试,然后接受了后期测试。还有一个例子是随着时间的增长情况亦即纵向研究,然后我们在某个时间点衡量每个受试者的变化,然后在另一个时间点再去衡量。当我们具有了这些受试者内设计,我们就拥有了成对数据。

下图的xi对应的是某个测试组即前期测试。某个时间点的衡量结果y值对应的是第二项处理即后期测试。我们要做的是衡量这些值之间的差别。我们将Di等于xi减去yi。和之前的单样本t检验的计算流程一样,只是我们使用的是D值。

相依样本例子

有两款键盘布局各不相同的手机。假设研究人员想知道这些键盘布局对打字时拼错字的影响。为此25名参与者均使用了每个键盘类型。他们在30秒内打出了标准的20个单词文字消息,每个人使用没种键盘类型出现的错误数量被记录了下来。这些参与者被随机的分配到了首先使用的键盘类型。

效应量(Effect Size)

调查研究的一个重要方面是效应量。
在实验性研究中,或存在处理变量的研究中,效应量是指处理效应的大小,意思很直观。在非实验性研究中,效应量是指变量之间的关系强度。

在z检验或t检验中,最简单的效应衡量指标是均值差异。在z检验或单样本t检验中,均值差异等于x拔减去μ。也就是说不需要经过专门的训练,就知道其中的含义,这时候均值差异就很有用。

另一个系列叫相关度量,其中比较重要的一种叫r^2(即r squared)。r^2表示的是某个变量的变化比例,或百分比与另一个变量的关系。

Udacity课程脉络-统计学基础(二)- t分布相关推荐

  1. Udacity课程脉络-统计学基础(一)

    前言 想了解一些机器学习基础,但对于一个零基础的人而言,只好从最基础的数据统计看起.发现优达学城的课程非常不错,为了巩固所学计划整理一下课程的脉络以及关键知识点,便于回顾. 描述统计学入门 Intro ...

  2. 大数据之统计学基础(二):随机变量及其概率分布

    随机变量及其概率分布 随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定. 1.随机变量的类型 ...

  3. 统计学基础学习笔记:描述统计量

    文章目录 一.统计学基础 二.描述统计量 三.数据文件 四.绘制直方图与折线图 五.数据的位置 (一)基本概念 1.样本平均数(mean) (1)算术平均数 (2)几何平均数 2.中位数(median ...

  4. Interview之AI:人工智能领域岗位求职面试—人工智能算法工程师知识框架及课程大纲(AI基础之数学基础/数据结构与算法/编程学习基础、ML算法简介、DL算法简介)来理解技术交互流程

    Interview之AI:人工智能领域岗位求职面试-人工智能算法工程师知识框架及课程大纲(AI基础之数学基础/数据结构与算法/编程学习基础.ML算法简介.DL算法简介)来理解技术交互流程 目录 一.A ...

  5. 统计学基础之:均值-中位数-众数-极差-中程数-方差-标准差-变异系数

    转载自:http://blog.sina.com.cn/s/blog_62ded7bf0101aqba.html 本文大纲: 数据挖掘分析&算法前奏之data exploration做什么 基 ...

  6. 统计学基础——负二项分布的数字特征

    统计学基础--负二项分布的数字特征 一.引言 二.负二项分布定义的引出与理解 2.1 实际意义 2.2 初始定义 2.3 重新定义"负"二项分布 2.3 推导前的知识准备 三.数字 ...

  7. 统计学基础理论学习(1)

    统计学基础知识 统计学基础知识知识点包括: 1. 数据的集中趋势 在统计学中,集中趋势又叫中央趋势,表示一个机率分布的中间值. 常见的几种表示集中趋势的计量包括算数平均数,中位数及众数. 数值平均数: ...

  8. 新兵训练营系列课程——海量数据存储基础

    2019独角兽企业重金招聘Python工程师标准>>> 新兵训练营系列课程--海量数据存储基础 2015年8月12日 09:24 阅读 16831 微博平台研发作为微博的底层数据及业 ...

  9. 数据分析与数据挖掘 - 05统计概率 一 统计学基础运算

    一 统计学基础运算 1 方差的计算 在统计学中为了观察数据的离散程度,我们需要用到标准差,方差等计算.我们现在拥有以下两组数据,代表着两组同学们的成绩,现在我们要研究哪一组同学的成绩更稳定一些.方差是 ...

  10. 统计学基础专栏01---探索性数据分析

    统计学基础专栏01-探索性数据分析 0.术语 0.1.探索性数据分析 连续型数据 数据可在一个区间内取任意值 离散型数据 数据只能取整数,例如计数 分类型数据 数据只能从特定集合中取值,表示一系列可能 ...

最新文章

  1. 汇编: 描述内存长度
  2. SQL Server 性能调优(方法论)
  3. 他,先后担任4所大学校长!
  4. 阿里巴巴Java开发手册-日志规约
  5. plupload 中文php,简单集成wangEditor plupload 到Tp3.2
  6. 20-10-032-安装-KyLin-2.6.1-单机版安装(MAC官网下载)
  7. Linux多线程工作笔记0002---C语言函数前面的*是什么意思
  8. 重新启动postgre报错时,解决方案 ( 由备份文件占用空间太大造成 ) (linux 命令 df -h 查看磁盘空间)
  9. rgb sw 线主板接口在哪_旋转RGB制作指导
  10. 2016年408考研算法题
  11. C++ 调用 SWMM模型.swmm5.dll
  12. 有监督学习,无监督学习,半监督学习和强化学习
  13. 创建局域网Git服务器
  14. 关于神经网络中的shape问题
  15. 使用Selenium模拟登陆百度盘
  16. ​数字经济指数合集:各省、城市数字经济指数面板数据
  17. 计算机网络涉及的数学知识点,计算机考研:计算机网络六大重要知识点
  18. 路由器打印机服务器系统,路由器当打印机服务器
  19. js 排班插件_js jquery 实现 排班,轮班,日历,日程。使用fullcalendar 插件
  20. 纯静态网页设计鞋服包包 鞋子 童装 服装网店商城html模板.rar(含源码+论文)

热门文章

  1. python统计闰年的个数_python 闰年数
  2. Android - 警告:it is always overridden by the value specified in the Gradle build script
  3. py错误jupyter:某个缩进Unindent不匹配任何外部缩进 IndentationError: unindent does not match any outer indentation
  4. springboot实现条形码_java生成条形码(多种条码类型生成)
  5. 电脑怎么压缩图片大小kb?压缩图片用什么软件?
  6. NLP - ngram - N元语言模型 python 实现
  7. stm32 NVIC中断管理实现[直接操作寄存器]
  8. 金蝶云·星空python插件示例代码
  9. 海思OSD开发系列(一) SDL_TTF框架移植
  10. 1. 无穷维空间的测度论-Wiener测度(二)