计量经济学入门(黄少敏)

  • 第一章 什么是计量经济学
    • 模型和回归分析
    • 数据
  • 第二章 统计基础知识
    • 频率表
    • 均值
    • 方差与标准差
    • 假设检验
      • Z检验和t检验
      • P-value
    • 相关系数
  • 第三章 回归分析基本方法:最小二乘法
    • 理论模型的建立
    • 实际数据的收集
    • 最小二乘法
    • 最小二乘法的通用模型
  • 第四章 简单回归模型及回归结果的检验
    • 模型的建立
    • 估计参数的统计意义
    • 估计参数方程的方差分析(ANOVA: analysis of variance)
    • ~~回归结果的解释~~
    • 其他简单线性回归模型
  • 第五章 回归分析的最大似然法
    • 概率函数和概率分布
    • 最大似然函数
    • 特定概率分布模型和最大似然估计

第一章 什么是计量经济学

到20世纪初期,新古典学派的经济学家们开始用数量分析的方法来探讨国民最关心的三个经济问题:国民经济增长、就业和通货膨胀。
计量经济学的研究必须建立在这个基础上,即在学术界基本完成了对“质”的问题的争吵,统一了认识。

计量经济学的应用需要三个前提条件:第一是在经济理论的基础上建立的经济数学模型;第二是收集准确的实际经济数据;第三拥有运算速度快、记忆容量大的是计算机和统计软件

在数理经济学中,经济要素是质的概念,是纯正的。将这种概念放到数学模型中推导演绎,从中得出理论性的结论。 而在计量经济学的研究中,实际的经济要素往往是些变量,并不像理论中的概念那么纯正。 这种区别就如在化学家眼里的“水”是二氢一氧的分子(H2O);而化学工程师眼里的水(如泉水)是以二氢一氧的水分子为主要成分再加上少量其他杂质的混合液体。
如果计量经济学家用一些假数据来做研究,就如同巧妇用牛粪掺杂草为原料去做给家人吃的晚饭,是在害家人。

在应用计量经济学中最流行的计算机软件是SAS(www.sas.com),其次是SPSS(www.spss.com)。 这两种软件都是可以装在大型计算机和个人电脑上的。 还有些是可装入个人电脑的软件如LIMDEP,SHAZAM,TSP等。 另外,EXCEL中的统计功能也能用于一些简单的计量经济学分析。

模型和回归分析

回归分析方法是计量经济学的主要方法。
在计量经济学的模型中总是有自变量和因变量,或称解释变量和被解释变量。 被解释变量就是因为其他因素的变化而变化的变量。 解释变量就是在特定环境中自身起变化而影响被解释变量变化的变量。 被解释变量一般列在等式的左边,解释变量排列在等式的右边。 对于一个被解释变量,可能会同时受到几个解释变量的影响。

举例:市场的需求是由价格、收入、其他物价、消费偏好、市场期望等因素决定的。 那么,我们就可以设立这样一个经济数学模型:

市场的需求=f(价格,收入,其他物价,消费偏好,市场期望)市场的需求 = f(价格,收入,其他物价,消费偏好,市场期望) 市场的需求=f(价格,收入,其他物价,消费偏好,市场期望)

也就是说,市场的需求是个被解释变量,它是价格、收入、其他物价、消费偏好、市场期望等解释变量的方程(函数)。 这个方程可以用对数将其转换成一个线性方程(线性实际为一种假设),即
ln(Q)=β0+β1ln(P)+β2ln(Y)+β3ln(PO)+β4ln(S)+β5ln(E)ln(Q) = \beta_0 + \beta_1 ln(P) + \beta_2 ln(Y) + \beta_3 ln(PO) + \beta_4 ln(S) + \beta_5 ln(E) ln(Q)=β0​+β1​ln(P)+β2​ln(Y)+β3​ln(PO)+β4​ln(S)+β5​ln(E)

宏观经济学模型:
GDP=C+I+G+EX−IMGDP = C + I + G + EX - IMGDP=C+I+G+EX−IM国内生产总值=国内个人总消费+国内总投资+政府总开支+出口额−进口额国内生产总值 = 国内个人总消费 + 国内总投资 + 政府总开支 + 出口额 - 进口额 国内生产总值=国内个人总消费+国内总投资+政府总开支+出口额−进口额
这是个恒等式,等式右边变量的系数是1,是已知的,不需要估计。如果把这个等式当作“模型”来作回归分析的话,那就错了。

数据

从经济社会中收集的数据主要有三种,一种叫横截面数据(Cross-sectional data), 一种叫时间序列数据(Time-series data), 还有一种是将横截面数据与时间序列数据合在一起的数据,叫集合数据(Pooling of cross-sectional and time series data)。将几个不同时期经济数据样本集合在一起的数据叫纵向数据(Longitudinal data)。 如果是同一组样本对象在连续几个时期被采样的数据叫面板数据(Panel data),或叫板块数据。

现代西方经济学的学术论文不是文学类的文章,它们更接近自然科学类的科技研究报告,有一定的格式,有点像“八股文”。 这种格式一般来说是这样的:

  1. 简介 Introduction
  2. 文献回顾 Literature review
  3. 理论模型和研究方法 Model and research method
  4. 数据 Data
  5. 回归分析结果 Analysis results
  6. 结论 Conclusion
  7. 参考文献 Reference

第二章 统计基础知识

频率表

在大部分经济研究报告中,更多地被使用的并不是复杂的经济模型,而是频率表这类简单易懂的图表。 为了使其分布一目了然,我们还可以用饼式图表来显示分布等百分比。
一般来说,图表中有七个或少于七个层次时,图表对受过普通教育的人来说就是一目了然的了。
我们还可以用柱式图表来显示这个收入变量的分布。

均值

方差与标准差

方差是用来衡量变量的离散性的。在计算方差时,我们要注意区分总体的方差与抽样方差。总体的方差用σ2\sigma^2σ2来表示。 抽样的方差用s2s^2s2来表示。方差计算公式如下:
σ2=Σn(xi−μ)2Ns2=Σn(xi−xˉ)2n−1\sigma^2 = \frac{\Sigma_n (x_i-\mu)^2}{N}\\ s^2 = \frac{\Sigma_n (x_i-\bar{x})^2}{n-1}σ2=NΣn​(xi​−μ)2​s2=n−1Σn​(xi​−xˉ)2​
统计学家们推算出,由于抽样的数量规模较小,用"n−1n-1n−1"来除更能相对精确地表示出抽样的方差。 这里有个“自由度”的概念。 因为我们在计算样本方差时使用了均值这个估计参数,所以要减去一个自由度。

标准偏差(或称标准差)被定义为方差的正平方根,即:
σ=σ2s=s2\sigma = \sqrt{\sigma^2} \\ s = \sqrt{s^2}σ=σ2​s=s2​

对于已知概率的变量,我们应该用反映概率的公式来计算其方差,即:
σ2=ΣN(xi−μ)2pi=ΣN[xi−E(x)]2pi\sigma^2 = \Sigma_{N} (x_i-\mu)^2p_i \\ =\Sigma_{N} [x_i-\mathbb{E}(x)]^2p_i σ2=ΣN​(xi​−μ)2pi​=ΣN​[xi​−E(x)]2pi​

假设检验

什么是假设检验? 就是我们事先有个假设,然后再用统计方法来检验这个假设是否有统计意义。 对于单一变量来说,我们先假设其均值等于某个数值,然后再来检验。 这类检验是根据著名的“中心极限理论(Central Limit Theorem)”来验证的。 这个理论表明:“给定某一变量,无论该变量服从什么样的分布,当其样本规模增大时,其样本均值的分布就会趋于正态分布。”因此,我们在检验假设的均值时,可以用标准正态分布的值来验证。

Z检验和t检验

一般有两种检验的方法。 当样本规模大于30时,我们可以用“Z”值(标准正态分布)来检验。 当样本规模小于30时,我们应该用“t”(“学生唱 t”分布)来检验。

假设检验一般有五个步骤:

  1. 设定假设条件:原定假设H0:μ=μ0H_0: \mu = \mu_0H0​:μ=μ0​和替代假设Hα:μ≠μ0H_{\alpha}: \mu \neq \mu_0Hα​:μ=μ0​
  2. 决定用哪种检验:若n≥30n \ge 30n≥30,用Z检验;若n<30n < 30n<30,用t检验
  3. (查表)找临界值:根据给定的定义域大小(α=1%,α=5%,α=10%\alpha=1\%,\alpha=5\%,\alpha=10\%α=1%,α=5%,α=10%),从概率分布表查ZcZ^cZc或tct^ctc (置信区间 Confidence Interval)
  4. 计算统计值:Z∗=xˉ−μ0σ/nZ^* = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}Z∗=σ/n​xˉ−μ0​​,或 t∗=xˉ−μ0s/nt^*= \frac{\bar{x}-\mu_0}{s/\sqrt{n}}t∗=s/n​xˉ−μ0​​
  5. 比较临界值和统计值得出结论。

对Z检验来说,∣Z∗∣>Zc|Z^*|>Z^c∣Z∗∣>Zc否定原假设,∣Z∗∣<Zc|Z^*|<Z^c∣Z∗∣<Zc不能否定原假设;
对t检验来说,∣t∗∣>tc|t^*|>t^c∣t∗∣>tc否定原假设,∣t∗∣<tc|t^*|<t^c∣t∗∣<tc不能否定原假设;

一般来说,在计算Z∗Z^*Z∗值时我们应该用 Z∗=(xˉ−μ0)/(s/n)Z^* = (\bar{x}-\mu_0)/(s/\sqrt{n})Z∗=(xˉ−μ0​)/(s/n​)这个公式来计算,而不是用 Z∗=(xˉ−μ0)/(σ/n)Z^* = (\bar{x}-\mu_0)/(\sigma/\sqrt{n})Z∗=(xˉ−μ0​)/(σ/n​)来计算。 这里,我们用真实标准偏差 σ\sigmaσ的估计值sss来取代真实标准偏差σ\sigmaσ 。 在实际研究中,我们往往不知道总体的真实标准偏差。 如果总体的真实标准偏差确是已知的,那么总体的均值应该是已知的,因为在计算方差时首先要计算均值。 如果均值也是已知的,那我们就没有必要在对总体的均值做什么假设检验了。

假设方案是“等于”与“不等于”,所以我们要作两侧检验。 那么给定总误差在 α=10%\alpha=10\%α=10%的水平上,两侧的误差则是 α/2=5%\alpha/2=5\%α/2=5%。

如果我们想要做单侧检验,我们要用原均值(μ0\mu_0μ0​)与新取样本的均值(Xˉ\bar{X}Xˉ)作比较。
如果Xˉ>μ0\bar{X}>\mu_0Xˉ>μ0​,那么设定:H0:μ≤μ0H_0: \mu \leq \mu_0H0​:μ≤μ0​和Hα:μ>μ0H_{\alpha}: \mu > \mu_0Hα​:μ>μ0​;
如果Xˉ<μ0\bar{X}<\mu_0Xˉ<μ0​,那么设定:H0:μ≥μ0H_0: \mu \geq \mu_0H0​:μ≥μ0​和Hα:μ<μ0H_{\alpha}: \mu < \mu_0Hα​:μ<μ0​。

在假设检验中,我们通常把误差设在1%、5%或10%的水平上。 也就是说,我们所作出的结论允许有1%、5%或10%的可能性是错误的。

假设H0:μ=μ0H_0: \mu = \mu_0H0​:μ=μ0​;Hα:μ≠μ0H_{\alpha}: \mu \neq \mu_0Hα​:μ=μ0​ 原假设是正确的 原假设是错误的
接受原假设 可能性 1−α1-\alpha1−α 第二类误差 β\betaβ
拒绝原假设 第一类误差 α\alphaα 可能性 1−β1-\beta1−β

P-value

边际显著性水平(marginal significant level),我们可以把它解释成“否定原假设失误的可能性”(简称“失误率”或“显著程度”)。在假设检验中,计算出来的 t 值越大,其失误率就越小,我们否定原假设的信心就越足。

相关系数

给定两个变量X 和 Y,那么这两个变量的 协方差 (covariance)被定义为:
σxy=Σn(xi−xˉ)(yi−yˉ)/n\sigma_{xy} = \Sigma_n (x_i - \bar{x})(y_i - \bar{y})/nσxy​=Σn​(xi​−xˉ)(yi​−yˉ​)/n
那么这两个变量的相关系数 (correlation coefficient) 就被定义为:
r=Σ(xi−xˉ)(yi−yˉ)Σ(xi−xˉ)2Σ(yi−yˉ)2r = \frac{\Sigma (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\Sigma (x_i - \bar{x})^2 \Sigma (y_i - \bar{y})^2}}r=Σ(xi​−xˉ)2Σ(yi​−yˉ​)2​Σ(xi​−xˉ)(yi​−yˉ​)​或r=σxyσxσyr = \frac{\sigma_{xy}}{\sigma_x \sigma_y}r=σx​σy​σxy​​
相关系数的值在-1与+1之间,即−1≤r≤1-1 \leq r \leq 1−1≤r≤1。 如果r=0r=0r=0,两个变量就是不相关。 如果r<0r< 0r<0,那么这两个变量就是负相关。 如果r>0r > 0r>0,那这两个变量就是正相关。

第三章 回归分析基本方法:最小二乘法

理论模型的建立

简单的回归分析模型(Simple regression model)(也有称“二元线性模型”):
Y=α+βXY = \alpha + \beta XY=α+βX 参数 α\alphaα是截距,也就是说当 X 等于零时,Y等于 α\alphaα 。 参数β\betaβ是斜率,或叫变化率,也就是说,Y 根据β\betaβ的方向(正负号)和速度(绝对值)随 X 的变化而变化。

因为我们所得到的数据不可能是完美的线性关系,我们的估计也会有误差,所以我们的模型就改写成:Y=α+βX+ϵY = \alpha + \beta X + \epsilonY=α+βX+ϵ ϵ\epsilonϵ为估计误差。

对于初学计量经济学的人来说,第一关不是计量经济学(统计学)中新的概念和复杂的方法,而是对因变量和自变量以及其相互关系的理解。模型中的变量一定要有因果关系的。 举个例子来说,我们要研究“为什么北京近年来常有‘沙尘暴’?”这个问题。 这里,“沙尘暴”是个因变量。 这个因变量会受到许多外界的因素的影响,如该年度的西北风力大小,京城西北地区土地开发状况和草木生长情况等。 如果把京城市场上防风眼镜的销量也当作自变量来解释沙尘暴的大小,那就搞错了,把关系搞颠倒了。在自己建立经济模型的过程中,如何取舍解释变量,一定要问个为什么,一定要说出个道道来。计量经济学家首先就是要摆事实、讲道理。 这是作为计量经济学家所必备的素质。

如果我们想要研究国民经济状况,那么,国内生产总值就是因变量。 影响国民经济产出的主要因素是这个国家的生产投入和经济运行状况。 于是,生产中的资源(包括劳动力、资本和其他资源)的投入,以及政府的经济政策等,就成了这个模型中的自变量。(第一章里宏观经济学模型 GDP=C+I+G+EX−IMGDP = C + I + G + EX - IMGDP=C+I+G+EX−IM)

实际数据的收集

Y 和 X 是两个变量,我们要收集有关Y 和 X 的数据,就要对 N 个研究对象(个体)进行观察,从而收集到 N 组数据。 这每组数据叫做一个“样本”。 每个样本又有一对Y和X的值,即 YiY_iYi​ 和 XiX_iXi​ 。 这里,i=1,2,3,…,Ni = 1,2,3,…,Ni=1,2,3,…,N。 一般做一个小的研究项目,起码要有三十个样本,其回归估计的结果才有统计意义。如果是年度数据,最少也要有十二个样本。 当然,收集的样本量越多越好。 我们把收集来的数据排列成个矩阵,即

i Y X
1 Y1Y_1Y1​ X1X_1X1​
2 Y2Y_2Y2​ X2X_2X2​
3 Y3Y_3Y3​ X3X_3X3​
......... .........
n YnY_nYn​ XnX_nXn​

于是,我们的回归分析模型就可以表示为
Yi=α+βXi+ϵiY_i = \alpha + \beta X_i + \epsilon_iYi​=α+βXi​+ϵi​

采用“最小二乘法”(The Least Squares Method)和“最大似然法”(The Maximum Likelihood Method)可以对参数α,β\alpha,\betaα,β进行估计。

最小二乘法

现在我们用简单的线性方程来讨论最小二乘法是如何估算模型参数的。 给定自变量为 X,因变量为 Y,和这两个变量的两组数据,X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ 和Y1,Y2,...,YnY_1,Y_2,...,Y_nY1​,Y2​,...,Yn​。 这里,X 和 Y 都是矢量。 我们再假设,根据回归分析的方法可估算出这样一个线性方程: Y^=α+βX\hat{Y} = \alpha + \beta XY^=α+βX 这里,估算出来的线性方程在图中是一条直线。 而实际的数据应该落在这条直线的周围。 那么,实际的Y 值就会与估计的Y^\hat{Y}Y^值之间有差异。 我们把这种差异叫做误差项,用ϵ\epsilonϵ来表示,即
ϵ=Y−Y^=Y−(α+βX)\epsilon = Y - \hat{Y} = Y - (\alpha + \beta X)ϵ=Y−Y^=Y−(α+βX)
于是我们就有回归模型Y=α+βX+ϵY = \alpha + \beta X + \epsilonY=α+βX+ϵ

我们试图找到的这样一条直线,它到每一实际落点的距离的总和为最小。 由于实际落点到直线的距离有正值也有负值,即误差有正值也有负值,我们用误差项的平方值来测定其绝对距离,即ϵi2\epsilon_i^2ϵi2​。 这样一来,其误差平方值的总和就是Σnϵi2\Sigma_n \epsilon_i^2Σn​ϵi2​。全微分方法求Σnϵi2\Sigma_n \epsilon_i^2Σn​ϵi2​的最小值:∂(Σnϵi2)/∂α=0,∂(Σnϵi2)/∂β=0\partial (\Sigma_n \epsilon_i^2)/\partial \alpha = 0, \partial (\Sigma_n \epsilon_i^2)/\partial \beta = 0∂(Σn​ϵi2​)/∂α=0,∂(Σn​ϵi2​)/∂β=0 解得
{α=Yˉ−βXˉ=(ΣnYi)/n−β(ΣnXi)/nβ=Σn(Xi−Xˉ)(Yi−Yˉ)Σn(Xi−Xˉ)2=nΣXiYi−(ΣXi)(ΣYi)nΣXi2−(ΣXi)2\left\{\begin{align*} \alpha =& \bar{Y} - \beta\bar{X} = (\Sigma_n Y_i)/n - \beta(\Sigma_n X_i)/n \\ \beta =& \frac{\Sigma_n(X_i - \bar{X})(Y_i - \bar{Y})}{\Sigma_n (X_i - \bar{X})^2} =\frac{n\Sigma X_i Y_i - (\Sigma X_i)(\Sigma Y_i)}{n\Sigma X_i^2 - (\Sigma X_i)^2} \end{align*}\right.⎩⎨⎧​α=β=​Yˉ−βXˉ=(Σn​Yi​)/n−β(Σn​Xi​)/nΣn​(Xi​−Xˉ)2Σn​(Xi​−Xˉ)(Yi​−Yˉ)​=nΣXi2​−(ΣXi​)2nΣXi​Yi​−(ΣXi​)(ΣYi​)​​

由于Σnϵi2\Sigma_n \epsilon_i^2Σn​ϵi2​二阶偏导大于零,我们确信这种所求的结果是最小值。这就是最小二乘法。

特别应当注意的是最小二乘法这个古典的统计回归方法对模型中的误差项有很强的假设条件:
[E(ϵi|X)=0][E(\epsilon_i| X)=0][E(ϵi​|X)=0]:每个误差必须是随机的,其误差期望值必须等于零;
[Var(ϵi)=σ2,σ2<∞][Var(\epsilon_i)=\sigma^2, \sigma^2 < \infty][Var(ϵi​)=σ2,σ2<∞]:误差都是雷同的,即它们方差是相等的,而且其变化量必须是有限的;
[Cov(ϵi,ϵj)=0][Cov(\epsilon_i, \epsilon_j) = 0][Cov(ϵi​,ϵj​)=0]:每个误差之间必须是相互独立的;
[Cov(xi,ϵi)=0][Cov(x_i, \epsilon_i) = 0][Cov(xi​,ϵi​)=0]:误差项与自变量之间必须是无关的。

按照“高斯-马尔科夫定理” (Gauss-Markov Theorem),当这些假设条件具备时,用最小二乘法估计出来的参数方程就应该是最好的、线性的、无偏差的估计值。

最小二乘法的通用模型

多变量模型
yi=β0+β1xi1+β2xi2+...+βkxik+eiy_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} +...+ \beta_k x_{ik} + e_iyi​=β0​+β1​xi1​+β2​xi2​+...+βk​xik​+ei​,这里i=1,2,..,ni = 1,2,..,ni=1,2,..,n。矩阵表示:
Y=Xβ+eY = X\beta + eY=Xβ+e
如果误差符合假设条件:
eie_iei​是不可观测的随机变量, [E(ei)=0][E(e_i)=0][E(ei​)=0];[Var(ei)=σ2][Var(e_i)=\sigma^2][Var(ei​)=σ2];[Cov(ei,ej)=0][Cov(e_i,e_j) = 0][Cov(ei​,ej​)=0];[Cov(xi,ei)=0][Cov(x_i, e_i) = 0][Cov(xi​,ei​)=0] 。
另外,从严格意义上讲,自变量之间也应该是不相关的 [Corr(xi,xj)=0][Corr(x_i, x_j) = 0][Corr(xi​,xj​)=0] ,至少自变量之间没有直接的线性关系 [Corr(xi,xj)≠±1][Corr(x_i, x_j) \neq \pm1][Corr(xi​,xj​)=±1],也就是说(X′X)−1(X^′ X)^{-1}(X′X)−1存在。 那么
用最小二乘法来做回归分析,这个模型的参数矢量的估计值就是:
β^=(X′X)−1X′Y\hat{\beta} = (X^′ X)^{-1}X^′ Yβ^​=(X′X)−1X′Y
这样估计出来的结果应该是最好的、线性的、无偏差的估计值。

如果β\betaβ是这个模型中的真实的参数值。 而我们的估计值是β^\hat{\beta}β^​。 那么,所谓“最好的、线性的、无偏差的估计”是这样解释的:

  1. “线性的”是指 Y=Xβ+eY = X\beta + eY=Xβ+e 这个线性模型
  2. “无偏差的”是指E(β^)=βE(\hat{\beta})= \betaE(β^​)=β,即[E(ei)=0][E(e_i)=0][E(ei​)=0]
  3. “最好的”是指估计参数β^\hat{\beta}β^​的方差就会是最小的

第四章 简单回归模型及回归结果的检验

回归分析的三个步骤(建立经济模型、根据模型中的变量收集实际数据、对数据进行分析处理)中,每个步骤都是同样重要的。当我们拿到数据后,不要急于作回归分析,而应该先对数据有个深入地了解,了解变量的分布,了解变量之间的相关性。在本章中我们每次分析数据时,都要用图解的方法来了解变量的分布和变量之间的相关性。这样做,可以使我们在作回归分析时少走弯路。

模型的建立

估计参数的统计意义

算出参数方程,我们的任务并没有完成。我们还要对上面的回归结果进行分析。下一步我们要看估计出来的方程中的每个参数是否有统计意义(Statistics)。为了计算参数的“t Statistics”的值,我们还是从简单模型说起。给定
Y=α+βX+eY = \alpha + \beta X + eY=α+βX+e
模型估计方差
s2=Σei2N−2=Σ(Yi−α^−β^Xi)2N−2s^2 = \frac{\Sigma e_i^2}{N-2} = \frac{\Sigma (Y_i - \hat{\alpha} - \hat{\beta}X_i)^2}{N-2}s2=N−2Σei2​​=N−2Σ(Yi​−α^−β^​Xi​)2​
说明:上述模型的估计方差用“N-2”是因为计算误差项时我们用了两个估计参数,α^\hat{\alpha}α^和β^\hat{\beta}β^​,所以我们在总的N个自由度中就失去了二个。
开方后sss叫做“估计的标准误差”(standard error of estimate)或“回归的标准误差”(standard error of regression)

再来计算估计参数β^\hat{\beta}β^​的标准误差: (暂时跳过,待阅读 wooldridge 导论第六版p45)
sβ2=s2Σ(Xi−Xˉ)2StandardErrorofβ^:SEβ=sβ2tStatisticsofβ^:tβ=β^−0SEβs_{\beta}^2 = \frac{s^2}{\Sigma(X_i - \bar{X})^2} \\ Standard~ Error~ of~ \hat{\beta}: ~~~~ SE_{\beta} = \sqrt{s_{\beta}^2} \\ t~ Statistics ~of~ \hat{\beta}: ~~~~ t_{\beta} = \frac{\hat{\beta}-0}{SE_{\beta}}sβ2​=Σ(Xi​−Xˉ)2s2​Standard Error of β^​:    SEβ​=sβ2​​t Statistics of β^​:    tβ​=SEβ​β^​−0​
α^\hat{\alpha}α^:sα2=(ΣXi2/N)sβ2=s2Xi2NΣ(Xi−Xˉ)2StandardErrorofα^:SEα=sα2tStatisticsofα^:tα=α^−0SEαs_{\alpha}^2 = (\Sigma X_i^2 / N)s_{\beta}^2 = \frac{s^2 X_i^2}{N \Sigma(X_i - \bar{X})^2} \\ Standard~ Error~ of~ \hat{\alpha}: ~~~~ SE_{\alpha} = \sqrt{s_{\alpha}^2} \\ t~ Statistics ~of~ \hat{\alpha}: ~~~~ t_{\alpha} = \frac{\hat{\alpha}-0}{SE_{\alpha}}sα2​=(ΣXi2​/N)sβ2​=NΣ(Xi​−Xˉ)2s2Xi2​​Standard Error of α^:    SEα​=sα2​​t Statistics of α^:    tα​=SEα​α^−0​

如果Z服从正态分布,X服从χ2\chi^2χ2分布且其自由度为n,而且Z和X相互独立,那么ZX/n\frac{Z}{\sqrt{X/n}}X/n​Z​服从t分布,其自由度为n。这里t=(Xˉ−μ)/(s/n)t= (\bar{X}-\mu)/(s/\sqrt{n})t=(Xˉ−μ)/(s/n​)

估计参数方程的方差分析(ANOVA: analysis of variance)


从简单模型说起:
Yi=α+βXi+eiYi^=α+βXiei=Yi−Yi^Yi−Yiˉ=Yi^−Yiˉ+ei=(Yi^−Yiˉ)+(Yi−Yi^)Y_i = \alpha + \beta X_i + e_i\\ \hat{Y_i} = \alpha + \beta X_i \\ e_i = Y_i - \hat{Y_i} \\ Y_i - \bar{Y_i} = \hat{Y_i} - \bar{Y_i} + e_i = (\hat{Y_i} - \bar{Y_i}) + (Y_i - \hat{Y_i} ) Yi​=α+βXi​+ei​Yi​^​=α+βXi​ei​=Yi​−Yi​^​Yi​−Yi​ˉ​=Yi​^​−Yi​ˉ​+ei​=(Yi​^​−Yi​ˉ​)+(Yi​−Yi​^​)
上式即为真实误差
方差总和 ( TSS, Total Sum of Squares):
TSS=Σ(Yi−Yiˉ)2=Σ(Yi^−Yiˉ)2+Σ(Yi−Yi^)2+2Σ(Yi^−Yiˉ)(Yi−Yi^)TSS = \Sigma (Y_i - \bar{Y_i})^2 = \Sigma (\hat{Y_i }- \bar{Y_i})^2 + \Sigma(Y_i - \hat{Y_i})^2 + 2\Sigma(\hat{Y_i} - \bar{Y_i})(Y_i - \hat{Y_i})TSS=Σ(Yi​−Yi​ˉ​)2=Σ(Yi​^​−Yi​ˉ​)2+Σ(Yi​−Yi​^​)2+2Σ(Yi​^​−Yi​ˉ​)(Yi​−Yi​^​)
其中第一项叫解释平方和(Explained Sum of Squares),或叫回归平方和 ( RSS,Regression Sum of Sqrares)::RSS=Σ(Yi^−Yiˉ)2RSS = \Sigma (\hat{Y_i }- \bar{Y_i})^2RSS=Σ(Yi​^​−Yi​ˉ​)2
第二项叫做未解释平方和(Residual Sum of Squares),或叫误差平方和( ESS,Error Sum of Squares),或叫残差平方和:ESS=Σ(Yi−Yi^)2=Σei2ESS = \Sigma(Y_i - \hat{Y_i})^2 = \Sigma e_i^2ESS=Σ(Yi​−Yi​^​)2=Σei2​
第三项是剩余的部分,这部分可以忽略不计,因为它小得几乎等于零.
那么TSS=RSS+ESSTSS = RSS+ESSTSS=RSS+ESS

ESS的自由度被规定为模型中自变量的个数,用KKK 来表示,即df1=Kdf_1 =Kdf1​=K,RSS自由度被规定为样本数减去自变量数再减去一,即df2=N−K−1df_2 =N - K-1df2​=N−K−1
那么,F 检验值就等于
F=RSS/KESS/(N−K−1)=Σ(Yi^−Yiˉ)2/KΣ(Yi−Yi^)2/(N−K−1)F = \frac{RSS/K}{ESS/(N-K-1)} = \frac{ \Sigma (\hat{Y_i }- \bar{Y_i})^2/K}{\Sigma(Y_i - \hat{Y_i})^2/(N-K-1)} F=ESS/(N−K−1)RSS/K​=Σ(Yi​−Yi​^​)2/(N−K−1)Σ(Yi​^​−Yi​ˉ​)2/K​

回归结果的解释

R2=RSSTSS=1−ESSTSSR^2 = \frac{RSS}{TSS} = 1 - \frac{ESS}{TSS}R2=TSSRSS​=1−TSSESS​ R2=Σ(Yi^−Yiˉ)2Σ(Yi−Yiˉ)2=1−Σ(Yi−Yi^)2Σ(Yi−Yiˉ)2R^2 = \frac{\Sigma (\hat{Y_i }- \bar{Y_i})^2}{\Sigma (Y_i - \bar{Y_i})^2 } = 1 - \frac{ \Sigma(Y_i - \hat{Y_i})^2}{\Sigma (Y_i - \bar{Y_i})^2 }R2=Σ(Yi​−Yi​ˉ​)2Σ(Yi​^​−Yi​ˉ​)2​=1−Σ(Yi​−Yi​ˉ​)2Σ(Yi​−Yi​^​)2​ AdjustedR2=1−ESS/df2TSS/df3=1−Σ(Yi−Yi^)2/df2Σ(Yi−Yiˉ)2/(N−1)Adjusted R^2 = 1 - \frac{ESS/df_2}{TSS/df_3} = 1 - \frac{ \Sigma(Y_i - \hat{Y_i})^2/df_2}{\Sigma (Y_i - \bar{Y_i})^2 /(N-1)}AdjustedR2=1−TSS/df3​ESS/df2​​=1−Σ(Yi​−Yi​ˉ​)2/(N−1)Σ(Yi​−Yi​^​)2/df2​​
一般来说,用横截面数据时,R2R^2R2的值会低些;用时间序列数据时,R2R^2R2 的值会高些;特别是当我们增加自变量的个数时,R2R^2R2的值就会随之提高。现在计量经济学家们对R2R^2R2的价值有了不同的看法,因为有人证明这个数值并不能真正反映回归估计结果的好坏。在近些年来经济科学杂志上发表的文章中一般只将R2R^2R2这个数值按传统的习惯保留在回归分析结果的表格中,而不对此数值加以评论。

其他简单线性回归模型

有时我们从数据的图形来看,因变量与自变量之间并不呈直线关系,而是有明显的曲线关系。那么,我们可以通过对变量的转换来使其变为直线关系:

在应用计量经济学的过程中,我们选择变量和处理变量时一定要有经济学的理论作为基础,服从经济学的基本原理。否则的话,我们的研究就走错方向了。而且用越复杂的数学模型,就越错,就越有欺骗性。当我们的模型中有“价格”、“收入”之类的变量时,一般应该用自然对数的形式将变量转换一下。这样可以避免在对变量进行预测时出现负值的情况。“负价格”,也就是说你买东西时卖主还要反过来付给你钱。这种情况在一般的市场上是不存在的。
在计量经济学的应用中,我们必须首先了解数据的分布情况,特别是要用绘图的方法来给自己一个直观的感觉,然后根据实际情况来设计回归分析模型。

第五章 回归分析的最大似然法

最大似然估计(Maximum Likelihood Estimation)是在已知因变量的概率分布的情况下,通过其概率函数,最大限度地利用给定样本的信息来估计总体的状况,从而使估计出的参数方程能最大可能地反映总体的情况,同时也是偏差最小的参数方程。

概率函数和概率分布

假设某一随机变量为Y,服从某一特定的分布F。那么,我们就会有该随机变量的概率函数(probability function),或叫概率密度函数(probability density function),即f(Y)f(Y)f(Y)。在一些英文教科书中把概率密度函数缩写为 “p.d.f” 。另外,我们还有该变量的分布函数(distribution function)或叫累积分布函数(cumulative distribution function),即F(Y)F(Y)F(Y)。在一些英文教科书中把累积分布函数缩写为 “c.d.f"。

离散型随机变量(discontinues variable)概率函数被定义为:
f(yi)=P(Y=yi)0≤f(yi)≤1,i=1,2,...,nΣnf(yi)=1f(y_i) = P(Y=y_i)\\ 0 \leq f(y_i) \leq 1, i=1,2,...,n\\ \Sigma_nf(y_i) = 1f(yi​)=P(Y=yi​)0≤f(yi​)≤1,i=1,2,...,nΣn​f(yi​)=1
分布函数被定义为:
F(y)=P(Y≤y)=Σ−∞af(y),−∞≤y≤aF(y) = P(Y \leq y) = \Sigma_{-\infty}^a f(y), ~-\infty \leq y \leq aF(y)=P(Y≤y)=Σ−∞a​f(y), −∞≤y≤a

连续型随机变量(continue variable)概率函数被定义为:
∀y,f(y)>0∫−∞+∞f(yi)dy=1∀a,b−∞<a<b<+∞,Prob(a≤y≤b)=∫abf(y)dy\begin{split} \forall y, f(y)>& 0\\ \int_{-\infty}^{+\infty} f(y_i)dy = &1 \end{split}\\ \forall a,b -\infty < a < b < +\infty, Prob(a \leq y \leq b) = \int_a^b f(y)dy ∀y,f(y)>∫−∞+∞​f(yi​)dy=​01​∀a,b−∞<a<b<+∞,Prob(a≤y≤b)=∫ab​f(y)dy
分布函数被定义为:
F(y)=Prob(Y≤y)=∫−∞yf(v)dv,−∞<v<yF(y) = Prob(Y \leq y) = \int_{-\infty}^y f(v)dv, ~-\infty <v<yF(y)=Prob(Y≤y)=∫−∞y​f(v)dv, −∞<v<y
这里
F(−∞)=0F(+∞)=1P(a≤y≤b)=F(b)−F(a)f(y)=dF(y)/dy=F′(y)F(-\infty) = 0\\ F(+\infty) = 1\\ P(a \leq y \leq b) = F(b)-F(a) \\ f(y) = dF(y)/dy = F^{'}(y)F(−∞)=0F(+∞)=1P(a≤y≤b)=F(b)−F(a)f(y)=dF(y)/dy=F′(y)

最大似然函数

先给定一个线性模型,Y=XβY = X\betaY=Xβ。我们希望能够合理地估计出最好的参数值β^\hat{\beta}β^​。有f(y)=f(y∣X,β)f(y) = f(y | X, \beta)f(y)=f(y∣X,β)。似然函数(Likelihood Function)定义为:
L=∏f(β∣y,X)L = \prod f(\beta | y, X)L=∏f(β∣y,X)
对数似然函数定义为:
log⁡(L)=log⁡[∏f(β∣y,X)]\log(L) = \log[ \prod f(\beta | y, X)]log(L)=log[∏f(β∣y,X)]或LL=Σlog⁡[f(β∣y,X)]LL =\Sigma \log[ f(\beta | y, X)]LL=Σlog[f(β∣y,X)]
求导极大值(一阶导等于0,二阶导小于0)

特定概率分布模型和最大似然估计

在简单线性模型中,
Y=α+βX+eY = \alpha + \beta X + eY=α+βX+e
样本估计值 Yi^=α+βXi\hat{Y_i} = \alpha + \beta X_iYi​^​=α+βXi​,那么 ϵi=Yi−Yi^\epsilon_i = Y_i - \hat{Y_i}ϵi​=Yi​−Yi​^​服从正态分布,概率函数f(ϵi)=12πσ2exp⁡[−ϵi22σ2]f(\epsilon_i) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp[\frac{-\epsilon_i^2}{2\sigma^2}]f(ϵi​)=2πσ2​1​exp[2σ2−ϵi2​​]或f(Yi∣Xi,α,β,σ2)=12πσ2exp⁡[−(Yi−α−βXi)22σ2]f(Y_i| X_i, \alpha, \beta, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp[\frac{-(Y_i - \alpha - \beta X_i)^2}{2\sigma^2}]f(Yi​∣Xi​,α,β,σ2)=2πσ2​1​exp[2σ2−(Yi​−α−βXi​)2​]

因为每个误差项都是随机的、独立的,所以样本的联立概率函数可写为
f(Y1,Y2,...,Yn)=f(Y1)f(Y2)...f(Yn)=∏n12πσ2exp⁡[−(Yi−α−βXi)22σ2]f(Y_1,Y_2,...,Y_n) = f(Y_1)f(Y_2)...f(Y_n) = \prod_n \frac{1}{\sqrt{2\pi \sigma^2}}\exp[\frac{-(Y_i - \alpha - \beta X_i)^2}{2\sigma^2}]f(Y1​,Y2​,...,Yn​)=f(Y1​)f(Y2​)...f(Yn​)=n∏​2πσ2​1​exp[2σ2−(Yi​−α−βXi​)2​] 或 L(α,β,σ2∣Y,X)=∏n12πσ2exp⁡[−(Yi−α−βXi)22σ2]L(\alpha, \beta, \sigma^2| Y, X)= \prod_n \frac{1}{\sqrt{2\pi \sigma^2}}\exp[\frac{-(Y_i - \alpha - \beta X_i)^2}{2\sigma^2}]L(α,β,σ2∣Y,X)=n∏​2πσ2​1​exp[2σ2−(Yi​−α−βXi​)2​]

LL(α,β,σ2∣Y,X)=log⁡{∏n12πσ2exp⁡[−(Yi−α−βXi)22σ2]}=−n2log⁡(2π)−n2log⁡(σ2)−Σ(Yi−α−βXi)22σ2\begin{split} LL(\alpha, \beta, \sigma^2| Y, X)= & \log \{ \prod_n \frac{1}{\sqrt{2\pi \sigma^2}}\exp[\frac{-(Y_i - \alpha - \beta X_i)^2}{2\sigma^2}] \}\\ =& - \frac{n}{2} \log(2\pi) - \frac{n}{2} \log (\sigma^2) - \frac{\Sigma (Y_i - \alpha - \beta X_i)^2}{2\sigma^2} \end{split}LL(α,β,σ2∣Y,X)==​log{n∏​2πσ2​1​exp[2σ2−(Yi​−α−βXi​)2​]}−2n​log(2π)−2n​log(σ2)−2σ2Σ(Yi​−α−βXi​)2​​
由∂LL∂α=0,∂LL∂β=0,∂LL∂σ2=0\frac{\partial LL}{\partial \alpha} = 0, \frac{\partial LL}{\partial \beta} = 0, \frac{\partial LL}{\partial \sigma^2} = 0∂α∂LL​=0,∂β∂LL​=0,∂σ2∂LL​=0可解得
β=Σn(Xi−Xˉ)(Yi−Yˉ)Σn(Xi−Xˉ)2α=Yˉ−βXˉσ2=1nΣn(Yi−α−βXi)2\begin{split} \beta = & \frac{\Sigma_n (X_i - \bar{X})( Y_i - \bar{Y})}{\Sigma_n (X_i - \bar{X})^2}\\ \alpha =& \bar{Y} - \beta \bar{X} \\ \sigma^2 = & \frac{1}{n} \Sigma_n (Y_i - \alpha - \beta X_i)^2 \end{split}β=α=σ2=​Σn​(Xi​−Xˉ)2Σn​(Xi​−Xˉ)(Yi​−Yˉ)​Yˉ−βXˉn1​Σn​(Yi​−α−βXi​)2​
由∂2LL∂α2<0,∂2LL∂β2<0\frac{\partial^2 LL}{\partial \alpha^2} < 0, \frac{\partial^2 LL}{\partial \beta^2} < 0∂α2∂2LL​<0,∂β2∂2LL​<0知结果为极大值。

【读书摘录笔记】计量经济学入门(黄少敏) 第一部分 基本原理相关推荐

  1. 读书笔记——数据压缩入门(柯尔特·麦克安利斯)下

    文章目录 数据压缩入门汇总 第九章 数据建模 9.1 马尔科夫链 9.2 部分匹配预测算法PPM 9.2.1 单词查找树 9.2.2 字符的压缩 9.2.3 选择一个合理的N值 9.2.4 处理未知的 ...

  2. 读书笔记——数据压缩入门(柯尔特·麦克安利斯)中

    文章目录 数据压缩入门汇总 第六章 自适应统计编码 6.1 位置对熵的重要性 6.2 自适应VLC编码 6.2.1 动态创建VLC表 6.2.2 字面值 6.2.3 重置 6.2.4 何时重置 6.3 ...

  3. 读书笔记——数据压缩入门(柯尔特·麦克安利斯)上

    文章目录 数据压缩入门汇总 前言 第一章 概述 1.1 克劳德 • 香农 1.2 数据压缩必备知识 第二章 深入研究信息论 第三章 突破熵 3.1 理解熵 3.2 熵的用处 3.3 理解概率 3.4 ...

  4. 读书笔记 -- 算法入门

    14天阅读挑战赛 努力是为了不平庸~ 算法学习有些时候是枯燥的,这一次,让我们先人一步,趣学算法!欢迎记录下你的那些努力时刻(算法学习知识点/算法题解/遇到的算法bug/等等),在分享的同时加深对于算 ...

  5. nginx学习笔记-01nginx入门,环境搭建,常见命令

    nginx学习笔记-01nginx入门,环境搭建,常见命令 文章目录 nginx学习笔记-01nginx入门,环境搭建,常见命令 1.nginx的基本概念 2.nginx的安装,常用命令和配置文件 3 ...

  6. Linux操作系统学习笔记【入门必备】

    Linux操作系统学习笔记[入门必备] 文章目录 Linux操作系统学习笔记[入门必备] 1.Linux入门 2.Linux目录结构 3.远程登录 3.1 远程登录Linux-Xshell5 3.2 ...

  7. 《渗透测试实践指南 必知必会的工具与方法 (原书第2版)》读书摘录

    ----------------------------------------------------------------------------分割线--------------------- ...

  8. mybatis学习笔记(3)-入门程序一

    2019独角兽企业重金招聘Python工程师标准>>> mybatis学习笔记(3)-入门程序一 标签: mybatis [TOC] 工程结构 在IDEA中新建了一个普通的java项 ...

  9. 作者:牟少敏,博士,山东农业大学教授。

    牟少敏(1964-),男,博士,山东农业大学教授,主要研究方向为大数据.机器学习和模式识别.

最新文章

  1. nginx+keepalived双master负载均衡配置
  2. 常用的字符串加密解密工具类
  3. 三角形判断(信息学奥赛一本通-T1054)
  4. 腾讯王者荣耀AI论文首次曝光:五AI王者局开黑与人类战队打成平手
  5. IP地址与数字地址相互转换
  6. ### js添加HTML元素时出现的无效的点击事件
  7. log2 3用计算机怎么按,如何使用计算器计算对数log以2为底3的对数,由于计算器2ndf又叫shift,不同计算器不同,请根据图来,因为有一些别...
  8. 新视觉在线制作网总汇模块代码(4例)
  9. JButton的使用
  10. 如何科学地利用A/B测试快速迭代产品?
  11. Vue学习日志之语法糖
  12. 快速回到桌面的快捷键快速切换窗口快捷键
  13. Linux系统编程.NO7——目录操作函数
  14. 售前工程师——PaaS
  15. 浙江生物计算机技术,New Page 1
  16. stem课程是什么意思
  17. js将数字金额转换为大写人民币
  18. mysql meb_mysql meb备份与恢复
  19. 计算机科学与技术实验题代做,计算机科学与技术专业代写(本科)毕业设计(论文)要求...
  20. AirDisk产品Q3C两大功能

热门文章

  1. 黑马程序员,黑马论坛-------单例模式的两种实现(恶汉+懒汉)
  2. 填涂颜色(洛谷P1162)
  3. [NLP] 相对位置编码 Relative Position Representatitons (RPR)
  4. MG-BERT:利用无监督原子表征学习进行分子性质预测
  5. Java @Bean 概念和使用
  6. 趋势科技2015笔试题-南京
  7. 网络工程师成长日记165-客户断网惊魂记
  8. TCP原理和三次握手和四次挥手过程
  9. MySQL清空数据库表数据
  10. 微积分的本质(五):指数函数求导