拓端tecdat|stata具有异方差误差的区间回归
原文链接:http://tecdat.cn/?p=6283
原文出处:拓端数据部落公众号
在Stata的实现中,可以使用鲁棒选项,当残差方差不恒定时,可以使用常规线性回归。使用稳健选项不会更改参数估计值,但使用三明治方差估计器计算标准误差(SE)。在这篇文章中,我将简要介绍使用稳健的区间回归的基本原理,并强调如果残差方差不是常数,与常规线性回归不同,则区间回归估计是有偏差的。
用于常规线性回归的稳健SE
在常规线性回归中,如果残差方差不是常数,则回归参数估计值仍然是无偏的,但SE则不然。处理SE中偏差的一种途径是使用Huber / White三明治SE。为了说明这一点,我们生成了一些简单的(X,Y)数据,其中Y遵循给定X的线性回归,但是残差方差是X的函数,因此违反了常数方差假设:
clear
set seed 1234
set obs 100000
gen x = 3 * runiform()
gen res_sd = exp(x)
gen y = x + res_sd * rnormal()
如果我们然后运行线性回归,首先没有robust选项,然后使用,我们获得:
. reg y xSource | SS df MS Number of obs = 100000
-------------+------------------------------ F( 1, 99998) = 1188.55Model | 78897.8401 1 78897.8401 Prob > F = 0.0000Residual | 6638041.59 99998 66.3817435 R-squared = 0.0117
-------------+------------------------------ Adj R-squared = 0.0117Total | 6716939.43 99999 67.170066 Root MSE = 8.1475------------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------x | 1.027518 .0298045 34.48 0.000 .9691014 1.085934_cons | -.0177612 .0514732 -0.35 0.730 -.1186481 .0831258
------------------------------------------------------------------------------. reg y x, robustLinear regression Number of obs = 100000F( 1, 99998) = 713.39Prob > F = 0.0000R-squared = 0.0117Root MSE = 8.1475------------------------------------------------------------------------------| Robusty | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------x | 1.027518 .0384705 26.71 0.000 .9521162 1.102919_cons | -.0177612 .0359651 -0.49 0.621 -.0882524 .0527301
------------------------------------------------------------------------------
用于生成数据的Y和X之间的真实回归系数是1,并且我们看到out估计是无偏的(接近1),尽管非恒定的残差方差。基于模型和鲁棒SE之间的差异是由于鲁棒SE松弛恒定方差假设的事实,该假设违反了这个(大)数据集。
区间回归
如上所述,区间回归允许我们处理这样的情况:对于某些记录,结果的值未被精确观察,但受到间隔,左或右删失的影响。区间回归通过计算结果值位于已知范围内的相应概率来包括来自删失记录的似然贡献来适应这一点。例如,如果我们只知道特定记录/个体的结果值大于2,则Stata计算对应的可能性贡献。
Stata的intreg命令还允许使用鲁棒选项,这为我们提供了参数估计的抽样方差的有效估计。有人可能会合理地认为,即使错误具有非恒定方差,这样做也可以让我们获得有效的推论。然而,与常规线性回归的情况不同,事实证明,当误差具有非恒定方差时,参数估计通常是有偏差的。这是因为在似然计算中对删失观察的处理依赖于正态性的分布假设和残差的恒定方差。为了凭经验证明这一点,我们可以采用我们的模拟数据集,审查一些结果值,并使用intreg来拟合回归模型:
. replace =2 if y>2
(38110 real changes made). gen depvar2=y(38110 real changes made, 38110 to missing). Fitting constant-only model:Iteration 0: log likelihood = -247972.92
Iteration 1: log likelihood = -236859.06
Iteration 2: log likelihood = -236635.97
Iteration 3: log likelihood = -236635.67
Iteration 4: log likelihood = -236635.67 Fitting full model:Iteration 0: log likelihood = -248343.77
Iteration 1: log likelihood = -236509.35
Iteration 2: log likelihood = -236241.11
Iteration 3: log likelihood = -236240.65
Iteration 4: log likelihood = -236240.65 Interval regression Number of obs = 100000LR chi2(1) = 790.03
Log likelihood = -236240.65 Prob > chi2 = 0.0000------------------------------------------------------------------------------| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------x | -.7679952 .0268782 -28.57 0.000 -.8206754 -.715315_cons | 2.222817 .0452328 49.14 0.000 2.134162 2.311471
-------------+----------------------------------------------------------------/lnsigma | 1.929401 .0030675 628.97 0.000 1.923389 1.935414
-------------+----------------------------------------------------------------sigma | 6.885387 .0211212 6.844114 6.926908
------------------------------------------------------------------------------Observation summary: 0 left-censored observations61890 uncensored observations38110 right-censored observations0 interval observations
X的截距和系数现在分别从它们的真实值0和1偏差(估计值为2.22和-0.77) - 这是非常数残差方差的结果。因此,对于标准线性回归,非常数残差方差不会偏差估计,对于区间回归则不然。我们现在可以继续使用强大的标准错误:
Fitting constant-only model:Iteration 0: log pseudolikelihood = -247972.92
Iteration 1: log pseudolikelihood = -236859.06
Iteration 2: log pseudolikelihood = -236635.97
Iteration 3: log pseudolikelihood = -236635.67
Iteration 4: log pseudolikelihood = -236635.67 Fitting full model:Iteration 0: log pseudolikelihood = -248343.77
Iteration 1: log pseudolikelihood = -236509.35
Iteration 2: log pseudolikelihood = -236241.11
Iteration 3: log pseudolikelihood = -236240.65
Iteration 4: log pseudolikelihood = -236240.65 Interval regression Number of obs = 100000Wald chi2(1) = 751.14
Log pseudolikelihood = -236240.65 Prob > chi2 = 0.0000------------------------------------------------------------------------------| Robust| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------x | -.7679952 .028022 -27.41 0.000 -.8229173 -.7130731_cons | 2.222817 .03622 61.37 0.000 2.151827 2.293807
-------------+----------------------------------------------------------------/lnsigma | 1.929401 .0062859 306.94 0.000 1.917081 1.941722
-------------+----------------------------------------------------------------sigma | 6.885387 .0432812 6.801078 6.970741
------------------------------------------------------------------------------Observation summary: 0 left-censored observations61890 uncensored observations38110 right-censored observations0 interval observations
在这里使用鲁棒确实在某种程度上改变了截距/常数的SE,但问题是使用鲁棒不会影响仍然存在偏差的参数估计。
结论
我们基于区间回归的估计(假设正态分布的常数方差误差)通常会有偏差。这不是区间回归本身的缺陷,而仅仅是处理审查的反映,对错误的分布假设比标准线性回归更重要。
拓端tecdat|stata具有异方差误差的区间回归相关推荐
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- 拓端tecdat|bilibili视频流量数据潜望镜
最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 统计学习方法第五章作业:ID3/C4.5算法分类决策树、平方误差二叉回归树代码实现
ID3/C4.5算法分类决策树 import numpy as np import math class Node:def __init__(self,feature_index=None,value ...
- 控制变量行业年份回归时在STATA里怎么操作_stata 分年份回归
控制变量行业年份回归时在STATA里怎么操作_stata 分年份回归 我希望做一个多元回归,但需要控制年份和行业. (1)年份有7年2006-2012,听说STATA可以自动设置虚拟变量,请问命令是怎 ...
- STATA学习笔记:分组统计和分组回归
STATA学习笔记:分组统计和分组回归 1. 分组统计 (1)对一个类别变量进行统计时 tabulate命令 tabulate oneway //for one-way tables of frequ ...
最新文章
- 物联网协议对比(HTTP、websocket、XMPP、COAP、MQTT和DDS协议)
- 用LaTeX优雅地书写伪代码:Algorithm2e简明指南
- php mysql pdo use_PHP连接到mysql的方法--mysqli和PDO
- 字符串匹配的KMP算法和C语言代码,不需要思考就能理解
- Oracle中dbms_job包的使用
- WordCount by C# 结对编程
- javah找不到类文件
- uni-app中使用腾讯位置服务实现小程序地图选点功能
- 随笔27 面向对象的五大基本原则
- 小学三年级计算机导学案,小学三年级学科导学案.doc
- pta l2-1紧急救援(Dijkstra)
- 阿里Java开发规约笔记
- Android_Button
- IBM斥资20亿美元的收购,天气数据为何值钱?
- ★★★★★手把手教你如何利用凤凰实现破 解后台权限以及升级固件(刷机)★★★★★
- 浅入浅出Vivado IP之DDS Compiler
- C#:办公用品管理软件项目总结
- selenium调用javascript代码的方法
- 由于找不到vcruntime140_1.dll,无法继续执行代码
- iOS15适配本地通知功能