用故事讲清楚统计学的Confidence Interval（置信区间）and Hypothesis Test

所谓计量经济学，就是用统计手段去研究经济学问题。作为统计最大的一个部分，统计推论 (Statistical Inference) 是必不可少的过程。让我们回顾一下在之前的统计课程中，我们提到的 Statistical Inference。首先统计推论的目的是，在一个我们想研究的大群体 (population) 中，我们筛选出了一个小的样本 (sample), 我们所做的一切研究，到最后得到的结论也只是关于这个小样本的结论，我们最终的目的还是希望对整个群体下一个结论。如何通过 sample 的结论对整个 population 下结论呢?这个过程就是统计推论，简单来说统计推论的步骤如下:

Estimation:Point estimation and Interval estimation
Hypothesis Test: 五步法

Estimation，顾名思义，就是做预测，通过 sample 的 statistic 对 population 的 parameter 做预测。简单来说就是通过 fitted model 里的参数 (b1,b2 等) 对 true model 里的参数 (β1,β2 等) 做预测。预测分为两种:

Point estimate(点预测): 只预测一个点 (值)，牢记预测目标是 true model，数据来源是 fitted model。我们就可以简单的得到 βi = bet ˆai，简而言之，我们也可以说
bet ˆai are point estimation of βi. 点预测的优点就是精准度 (precision) 很高，但是正确率很低。毕竟是预测，我们还是想尽可能提高正确率，于是有了第二种预测方法。
Interval estimation(区间预测):我们基于我们的 point estimation，通过做区间的形式，牺牲部分精准度从而提高了正确率 (confidence level). Interval estimation 也就是我们说的置信区间 (confidence interval)。

但是为了得到 confidence interval，我们必须要知道其 point estimator 的对应分布类型。我们下面就来讨论一下这个分布:Assumption for t-distribution:
第六个假设 u|X ∼ N(0, σ2In)，在这个假设成立的情况下，加上我们的前五个假设，我们把满足这六个假设的模型叫做 Classical Linear Model (CLM)。换句话说，在 CLM assumption 下，我们就会有
β|X ∼ N(β,σ^2 (X′X) ^ −1)
也就是当我们做了标准化后所得到的 standardised estimator 就会服从对应的标准正态分布:

但就像我们之前所说, sd(βj^) 的值与实际的 σ 相关，我们只能用 sample 里得到的 σˆ来估计 σ。也就是我们需要用 se(βj ^) 来估计 sd(βj ^)。当我们利用了 sample 的概念
后，自由度的概念就被引入了，所以，在 CLM assumtipon 之下，关于 standardised estimator 的分布就发生了以下变化:

• Optional 根据 Central Limit Theorem (CLT), 随着 Sample size 越来越大 (N > 30)， The t–distribution is a good approximation to the test statistic even when errors are not normally distributed. 因此，就算 error term 某些情况下不服从上述的正态分布，我们依然可以根据 CLT 来得到 test statistics 是近似于 t-test 的。
当我们讲完以上理论后，我们就来看看应该如何在 Linear Regression 中做 Confidence Interval。
在找到我们想要的 confidence interval 后，我们可以用以下模板来 interpret 置信区间的含义: We estimate with · · · % confidence that the range [· · · ] contain βk .
对于 Hypothesis test 来说，我们对于整个 population 可能会保留一个原有的假设，我们重新做统计实验的目的，也是为了去验证原先的假设是否正确(我们一般都希望自己的实验结果是正确的)。我们一般通过五步法来完成我们的 Hypothesis Test，在 regression model 中，我们更多是希望检测某一个 variable 是否是 significant。让我们回到最上面的 Eviews Output 来看一下相关的 hypothesis test 可以如何完成。这也是最简单的一种 hypothesis test。
当我们学习完 Hypothesis Test 之后，我们一起来学习一下有关于 Hypothesis Test 的一些理论知识:Type I error 和 Type II error，对于我们的假设检验，我们对于 Ho 这个假设只有两种可能性。一个是 Ho 实际上是正确的，和 Ho 实际上是错误的。那当 Ho 实际上是正确的时候，我们所希望的 Hypothesis Test 带给我们的结果是 Do not Reject Ho; 当 Ho 实际上是错误的时候，我们希望的检验结果是 Reject Ho。在这里我们就会发现，如果把两种可能性和其结果的未知一交换，就会产生假设检验中的两个常见错误，分别是 Type I error 和 Type II error。
• Type I error: We reject Ho when Ho is actually correct. 在 Ho 实际上是正确的时候，我们却 reject Ho (也就是认为 Ho 是错误的). 其发生的概率就是我们 level of significance 的大小“α”.
• Type II error: We do not reject Ho when Ho is actually wrong. 在 Ho 实际上是错误的时候，我们却 do not reject Ho (也就是认为 Ho 是正确的). 其发生的概率我们简称为“β ”.

当我们说完了最简单的 hypothesis test，并介绍完一些基础理论后，我们要来学一种特殊的 hypothesis test，我们把它叫做 F-test。在我们之前学习的 hypothesis test 中，在 null hypothesis 以及 alternative hypothesis 只会出现一个等号。如果在 null hypothesis 中出现了两个及以上的等号，我们就把这种 hypoehsis test 称为 joint hypothesis。我们也就利用 F-test 来做这种 joint hypothesis test。在我们学习 F-test 之前，我们要理解两种模型

Unrestricted model: 无限制模型，也就是我们讨论的原始模型，没有把任何的限制条件加入进来。
Restricted model: 限制模型，把我们 null hypothesis 作为限制条件加入原模型后得到的模型。
接下来我们还要理解，F-test 的性质: The F-distribution is a distribution of a random variable that is positive and skewed to the right。并且，我们的 F-distribution 的形状有两个 degree of freedom 决定，一个是 numerator(分子) degree of freedom (我们用 q 表示)，另一个是 denominator(分母) degrees of freedom (我们用 n − k − 1 表示)
在 Joint hypothesis test 里我们讨论的 test statistics 是

其中
• SSRr = SSR obtained from the restricted model
• SSRur = SSR obtained from the unrestricted model
• q = number of restriction = number of equal signs in null hypothesis
• k = number of variables in the unrestricted model

用故事讲清楚统计学的Confidence Interval（置信区间）and Hypothesis Test相关推荐

Python使用matplotlib可视化时间序列数据、并为时间序列曲线添加误差带、使用95%置信区间（Time Series Error Bands with confidence interval
Python使用matplotlib可视化时间序列数据.并为时间序列曲线添加误差带.使用95%置信区间(Time Series with Error Bands with confidence int ...
R语言置信区间计算（confidence interval）、计算比例值对应的置信区间、为比例值构建95%执行区间、使用glue包把最终结果以标准格式输出
R语言置信区间计算(confidence interval).计算比例值对应的置信区间.为比例值构建95%执行区间.使用glue包把最终结果以标准格式输出目录
matlab置信区间,置信区间（Confidence Interval）
一直做着的不确定性分析,很多时候会涉及到置信区间的概念,但一直没能有个清晰的认识,今天终于从网上查资料,具体核实了置信区间的含义. 95%置信区间(Confidence Interval,CI):当给 ...
R语言ggplot2可视化使用geom_ribbon()函数向ggplot2图添加置信度带（Confidence Band、Confidence Interval）
R语言ggplot2可视化使用geom_ribbon()函数向ggplot2图添加置信度带(Confidence Band.Confidence Interval) 目录
一个故事讲清楚BIO NIO 异步
转载请引用:一个故事讲清楚NIO 假设某银行只有10个职员.该银行的业务流程分为以下4个步骤: 1) 顾客填申请表(5分钟): 2) 职员审核(1分钟): 3) 职员叫保安去金库取钱(3分钟): 4) ...
统计学两个分布：Z 分布和student-t 分布（假设检验Hypothesis test、置信区间Confidence interval）
商业统计原理体会2: 回顾 Z 分布和student-t 分布置信区间假设检验 p-value 总结回顾上一次最后遗留了一个问题,将得到的sample用CLT视作正态分布,再通过标准化得到z值 ...
置信区间 confidence interval
置信区间: Find an interval such that "reasonbly confident" that were is a 95% chance that the ...
95% CI, 置信区间 Confidence Interval
什么是置信区间置信区间又称估计区间,是用来估计参数的取值范围的.常见的52%-64%,或8-12,就是置信区间(估计区间). 置信区间的概述 1.对于具有特定的发生概率的随机变量,其特定的价值区 ...
统计学之中心极限定理和置信区间
本文介绍中心极限定律和置信区间. 首先是中心极限定理.中心极限定理是统计学中比较重要的一个定理. 只有真正理解了中心极限定理才能更好的理解统计学中其他的知识,比如正态分布. 那么什么是中心极限定理(C ...

用故事讲清楚统计学的Confidence Interval（置信区间）and Hypothesis Test

用故事讲清楚统计学的Confidence Interval（置信区间）and Hypothesis Test相关推荐

最新文章

热门文章