【读书笔记-＞统计学】12-02 置信区间的构建-t分布概念简介

t分布

假设一个情境：我们想知道糖球的典型重量。但由于只有一家糖果店提出要求，因此只抽取了包含10颗具有代表性的样本，然后称了每一粒糖球的重量。这个样本的x‾=0.5盎司,s2=0.09\overline{x}=0.5盎司, s^2=0.09x=0.5盎司,s2=0.09。

老样子：

第1步：选择总体统计量

我们需要为糖球重量均值构建一个置信区间，也就是要为总体均值μ\muμ构建置信区间。由于需要求μ\muμ的置信区间，于是下一步就是求μ\muμ的抽样分布——X‾\overline{X}X的分布。

第2步：求X‾\overline{X}X的概率分布

这里我们碰到问题，从上面的快捷运算表可以得知，当总体分布XXX本身符合正态分布时，我们未知总体方差σ2\sigma^2σ2，需要用点估计量s2s^2s2代替，但是条件是n很大（至少30），这条路走不通了❌

另一个问题是，样本太小了，估计值很可能出现较大误差——比使用大样本的误差要大得多。这些潜在的误差意味着使用正态分布无法得出足够精确的X‾\overline{X}X的概率，那样就无法得出精确的置信区间。

那么，X‾\overline{X}X符合哪种分布呢？实际上，它符合t分布。

当样本很小时，X‾\overline{X}X符合t分布

当总体分布符合正态分布，σ2\sigma^2σ2未知，且可供支配的样本很小时，X‾\overline{X}X符合t分布。

t分布是外形光滑、对称的曲线，确切形状取决于样本大小。当样本很大时，t分布外形很像正态分布；当样本很小时，曲线较为扁平，有两条粗粗的尾巴。它只有一个参数——v，v=n-1。n为样本的大小，v被称为自由度。

下面这张图，对应了各种v对应的t分布。

“T符合t分布且自由度为v”的简明表示方法为：
T∼t(v)T \sim t(v) T∼t(v)
（T为检验统计量，计算方法见下；t(v)表示：我们正在使用自由度为v的t分布；v=n-1）

t分布的使用方法与正态分布相似——先将概率区间的上下限转化为标准分，然后用概率表求出所需要的结果。

求t分布的标准分

t分布的标准分的计算方法与正态分布的标准分的计算方法相同。像处理正态分布一样，我们先减去抽样分布的期望，然后用所得到的差除以标准差。唯一的差别是，我们用T而不是Z代表结果，这是为了配合t分布的使用。

我们需要求出X‾\overline{X}X的分布（详细见：上章，样本均值的概率），于是要用到X‾\overline{X}X的期望和标准差。X‾\overline{X}X的期望为μ\muμ，标准差为σ/n\sigma/\sqrt{n}σ/n。由于需要用s估计σ\sigmaσ的数值，于是t分布的标准分的算式如下：

我们只要代入X‾,σ^\overline{X}, \hat{\sigma}X,σ^和n就行了。

已知v=n-1=9，s2=0.09s^2=0.09s2=0.09，则
T=X‾−μs/n=X‾−μ0.09/10=X‾−μ0.0949T = \frac{\overline{X}-\mu}{s/\sqrt{n}} \\ = \frac{\overline{X}-\mu}{\sqrt{0.09/10}} \\ = \frac{\overline{X}-\mu}{0.0949} T=s/nX−μ=0.09/10X−μ=0.0949X−μ
第3步：决定置信水平

置信水平指的是你希望自己对“置信区间包含总体统计量”这个说法有多大信心。像上面一样，让我们用95%作为总体均值的置信水平，于是总体均值位于置信区间之中的概率为0.95。

第4步：求出置信上下限

t分布的置信上下限的算法类似于正态分布的算法，即可通过下式进行计算：

我们可以通过t分布概率表求出t值。

使用t分布概率表

通过t分布概率表可求出P(T>t)中的t值。在我们的实例中，p=0.025。

为了求出t值，先从概率表中查找第一列的v值，再查找第一行的p值，二者的交点处即为t值。例如，查找v=7和p=0.05，可得t=1.895。

求出t值后，就能求置信区间了。

t分布与正态分布比较

在用小样本估计总体方差时，t分布更精确。

基于小样本估计σ2\sigma^2σ2有一个问题，即可能无法精确地反映总体方差的真实值。也就是说，我们需要让区间变宽，以便在置信区间中留出一些误差空间。

t分布的形状随着v值发生变化，由于考虑了样本的大小，即使σ2\sigma^2σ2的估计精度存在各种足以让人有所察觉的不确定性，t分布也能忽略不计。当n很小时，t分布给出的置信区间比正态分布的置信区间更宽，这使它更适合用于小样本。

置信区间简明算法——t分布

下面是有关t分布的使用时机以及μ\muμ的置信区间的简单提示。

为了求出t(v)，需要查找t分布概率表。为此，用v=n-1和你确定下来的置信水平求出置信区间。

例题解答

另一道例题

问：如果样本大小n发生改变，对置信区间会有何影响？

答：如果n减小，则置信区间变宽；如果n增大，则置信区间变窄。

置信区间的表达式为：
统计量±误差范围统计量 \pm 误差范围统计量±误差范围
其中，误差范围 = c * 统计量的标准差

统计量的标准差取决于样本的大小——n越大，统计量的标准差越小；这就是说，n越大误差范围越小，n越小误差范围越大。

一般说来，较小的样本形成较宽的置信区间，较大的样本形成较窄的置信区间。

总结

我们现在学会了两种估计总体统计量的方法了。

上一章，我们学会使用点估计量，点估计量方法可用于估计总体统计量的精确数值，是根据样本数据又可能做出的最好预测。
这一章，我们学会使用总体统计量的置信区间。这个方法得到的并非总体统计量的精确估计，而是求出总体统计量的一个有较高可信度的数值范围。

【读书笔记-＞统计学】12-02 置信区间的构建-t分布概念简介相关推荐

PMP读书笔记(第12章)
大家好,我是烤鸭: 今天做一个PMP的读书笔记. 第十二章项目采购管理项目采购管理项目采购管理的核心概念项目采购管理的趋势和新兴实践裁剪考虑因素在敏捷或适应型环境中需要考虑的因素 ...
电磁兼容工程（Electromagnetic compatibility engineering Herry Ott ）读书笔记--章12 数字电路的辐射
1, 继续对Henry W Ott 写的<电磁兼容工程>这本书进行读书笔记记录. 强烈推荐英文原版,原版可能更容易读懂. 2,本博客是这本书的读书笔记,它不是对书的直接翻译,主要记录阅读这 ...
读书笔记 Effective C++: 02 构造析构赋值运算
条款05:了解C++默认编写并调用的哪些函数编译器会为class创建: 1. default构造函数(前提是:没有定义任何构造函数): 如果已经声明了一个构造函数,编译器就不会再创建default构 ...
Unix编程要学习的内容（2）《精通Unix下C语言与项目实践》读书笔记（12）
文章试读不拘一个遍程序系列:编程序不能一个脑袋钻到底,有时要学会变通,即所谓的曲线救国.一.二.三.四职场规划:一些杂七杂八的职场感悟吧.不值钱的软件人才精力充沛与事业成功让系分来得更猛 ...
读书笔记（12）QINQ
概述在以太网 II 数据帧中,VLAN Tag 占 12 个位,理论上实际可用的 VLAN ID 有 2^12=4096 个,也就是我们常所说的有 4K 个可用 VLAN ID 可用,但实际上在某些 ...
《面向模式的软件体系结构2-用于并发和网络化对象模式》读书笔记（12）--- 策略化加锁...
4.2策略化加锁(Strategized Locking) 1.问题运行在多线程环境中的组件必须保护其临界区不被客户机并发访问.同步机制与组件功能的集成需要解决以下两个强制条件: 1)不同的应用程序 ...
802.11无线权威指南读书笔记（12）直接序列物理层DSSS与HR/DSSS（802.11b）
802.11的第二章物理层规范是直接序列扩频(direct sequence spread spectrum,简称DSSS) DS PHY采用差分相移键控(differential phase shi ...
智慧医疗读书笔记（1-2）
C1 人口老龄化与现状 1.养老需求不断变大目前,我国社会老龄化程度较高,老年人口规模呈现总量扩张,增量提速的发展态势.我国目前的人口基数决定了老龄人口规模十分巨大,2012年,我国大陆地区总人口达 ...
AUTOMATE THE BORING STUFF WITH PYTHON读书笔记 - 第12章：WEB SCRAPING
Web Scraping是指用程序来下载和处理网络上的内容.Scrap是铲,刮和削的意思. 本章介绍的模块包括webbrowser,requests,bs4和selenium. 项目: 使用WEBBR ...
【深度学习（deep learning）】花书第12章应用读书笔记
[深度学习(deep learning)]花书第12章应用读书笔记第12章应用 [深度学习(deep learning)]花书第12章应用读书笔记前言一.大规模深度学习 1.快速的CP ...

【读书笔记-＞统计学】12-02 置信区间的构建-t分布概念简介

t分布

【读书笔记-＞统计学】12-02 置信区间的构建-t分布概念简介相关推荐

最新文章

热门文章