在回归分析学习笔记（一）：尽量详细且说人话中介绍了经典回归分析的基本假设，如果假设条件不满足会出现一些问题，现在就来具体的介绍一下。对于我们分析的具体问题，叙述逻辑为：概念描述——产生原因——导致结果——补救措施。

基本假设

x1,...,xpx_1,...,x_px1,...,xp 是确定性变量，不是随机变量；
解释变量之间不相关，样本容量个数大于解释变量个数，即X\boldsymbol XX的秩为 p+1<n；
Gauss−Markov条件{E(ϵi)=0,i=1,2,...,nCov(ϵi,ϵj)={σ2,i=j0,i=j(i,j=1,2,...n)Gauss-Markov条件\begin{cases} E(\epsilon_i)=0, i=1,2,...,n\\ \\Cov(\epsilon_i,\epsilon_j)=\begin{cases} \sigma^2,i=j\\0,i=j\end{cases}(i,j=1,2,...n) \end{cases}Gauss−Markov条件⎩⎪⎪⎪⎨⎪⎪⎪⎧E(ϵi)=0,i=1,2,...,nCov(ϵi,ϵj)={σ2,i=j0,i=j(i,j=1,2,...n)
正态分布的假定条件{ϵi∼N(0,σ2)ϵ1,ϵ2,...,ϵn相互独立\begin{cases}\epsilon_i\sim N(0,\sigma^2)\\ \\\epsilon_1,\epsilon_2,...,\epsilon_n相互独立\end{cases}⎩⎪⎨⎪⎧ϵi∼N(0,σ2)ϵ1,ϵ2,...,ϵn相互独立

1 异方差性

1.1 基本概念

经典线性回归模型的一个重要假定：总体回归函数中的随机误差项满足同方差性，即它们都有相同的方差。如果这一假定不满足，即：随机误差项具有不同的方差，则称线性回归模型存在异方差性，D(ϵi)≠D(ϵj)D(\epsilon_i)\neq D(\epsilon_j)D(ϵi)=D(ϵj)。

1.2 产生原因

（1）模型中遗漏了某些解释变量
　　如果模型中只包含所要研究的几个主要因素，其他被省略的因素对被解释变量的影响都归入了随机误差项，则可能使随机误差项产生异方差性。
（2）模型函数形式的设定误差
　　在一般情况下，解释变量与被解释变量之间的关系是比较复杂的非线性关系。在构造模型时，为了简化模型，用线性模型代替了非线性关系，或者用简单的非线性模型代替了复杂的非线性关系，造成了模型关系不准确的误差。
（3）样本数据的测量误差
　　一方面，样本数据的测量误差常随时间的推移而逐步积累，从而会引起随机误差项的方差增加。另一方面，随着时间的推移，抽样技术和其他收集资料方法的改进，也使得样本的测量误差逐步减少，从而引起随机误差的方差减小。因此，在时间序列资料中，由于在不同时期测量误差的大小不同，从而随机项就不具有同方差性。
（4）随机因素的影响。

1.3 问题结果

当存在异方差时，普通最小二乘估计会低估β^\hat{\beta}β^的真实方差，进一步导致回归系数t检验值高估，使本来不显著的一些回归系数变成显著。所以，给应用效果带来一些影响：

参数估计值是无偏的，但不是最小方差线性无偏估计。
参数的显著性检验失效。
回归方程的应用效果不理想。

1.4 诊断与补救

检验异方差性没有公认的最优方法，常用的方法主要有残差图分析法，等级相关系数检验法等，这些方法从本质上说思路都是相同的，即 设法检验ϵi\epsilon_iϵi的方差与解释变量xjx_jxj 的相关性。

此处对残差图分析法进行一个简单的介绍。它以残差 eie_iei 为纵坐标，以其他适宜变量为横坐标画散点图，如果残差图上的点散布是随机的无任何规律，则认为符合假设。如果残差图上的点的散布呈现一定的趋势，具有明显的规律，则认为存在异方差。

当存在异方差问题时，就不能使用普通最小二乘法进行参数估计，需要对原来的模型进行变换，使变换后的模型符合同方差性假设。消除异方差性对建模的影响的方法主要有加权最小二乘估计，Box-Cox变换法，方差稳定化变换法等。此处介绍最常用的加权最小二乘估计（WLS）。

在同方差的条件下，每个观测值的权重都相同。而异方差时，误差项方差σ2\sigma^2σ2大的观测值，作用就偏大，普通最小二乘估计的回归线会被拉向方差大的项，方差小的项拟合程度就差。加权最小二乘估计就是加入一个适当的权重，以调整各项在平方和中的作用。以一元线性回归为例，调整后的离差平方和为Q(β0,β1)=∑i=1nwi(yi−yi^)2Q(\beta_0,\beta_1)=\sum_{i=1}^nw_i(y_i-\hat{y_i})^2Q(β0,β1)=i=1∑nwi(yi−yi^)2 其中，wiw_iwi是第 i 个观测值的权重，接下来就是寻找参数 β0,β1\beta_0,\beta_1β0,β1 的估计值 β^0w,β^1w\hat{\beta}_{0w},\hat{\beta}_{1w}β^0w,β^1w 使离差平方和达到最小。此处，直接给出计算结果：{β^0w=y‾w−β^1wx‾wβ^1w=∑i=1nwi(xi−x‾w)(yi−y‾w)∑i=1nwi(xi−x‾w)2\begin{cases} \hat{\beta}_{0w}=\overline{y}_w-\hat{\beta}_{1w}\overline{x}_w \\ \\\hat{\beta}_{1w}=\dfrac{\sum_{i=1}^nw_i(x_i-\overline{x}_w)(y_i-\overline{y}_w)}{\sum_{i=1}^nw_i(x_i-\overline{x}_w)^2} \end{cases}⎩⎪⎪⎪⎨⎪⎪⎪⎧β^0w=yw−β^1wxwβ^1w=∑i=1nwi(xi−xw)2∑i=1nwi(xi−xw)(yi−yw) 其中 x‾w=1∑wi∑wixi\overline{x}_w=\frac{1}{\sum w_i}\sum w_ix_ixw=∑wi1∑wixi是自变量的加权平均，y‾w=1∑wi∑wiyi\overline{y}_w=\frac{1}{\sum w_i}\sum w_iy_iyw=∑wi1∑wiyi是因变量的加权平均，权重为误差项方差的倒数wi=1σi2w_i=\dfrac{1}{\sigma_i^2}wi=σi21

2 自相关性

2.1 基本概念

经典线性回归中假定随机误差项是不相关的，即cov(ϵi,ϵj)=0cov(\epsilon_i,\epsilon_j)=0cov(ϵi,ϵj)=0，如果不满足该条件则称随机误差项之间存在自相关现象。注意这里的自相关不是值属性/特征/自变量之间具有相关关系，而是指一个变量前后其数值之间存在相关。

2.2 产生原因

（1）忽略遗漏了关键变量
　　如果忽略了一个或一些重要变量，而这些重要变量在时间顺序上的影响是正相关的，回归模型中误差项就会具有明显的正相关，因为误差会包含一楼变量的影响。
　　
（2）经济变量的滞后性
　　例如国民收入、货币发行量等一般都有一定的滞后性，如前期消费额对后期消费额一般会有明显的影响。
　　
（3）回归函数模型使用错误
　　例如将应该用指数形式但是研究者误用了线性回归模型，此时误差项也表现出自相关性。
　　
（4）蛛网现象
　　蛛网现象是微观经济学中研究场频市场运行规律的名词，表示商品供给量受前一期价格影响而表现出某种规律性，由于规律性的作用，回归模型的误差项不再是随机的了。
　　
（5）对数据加工整理而导致误差项之间产生自相关性
.

2.3 问题结果

参数估计值不再具有最小方差线性无偏性；
均方误差MSE可能严重低估误差项的方差；
容易导致对 t 值1评价过高，t检验和F检验失效，将一些不显著的回归参数认定为显著；
最小二乘估计量对抽样波动变得非常敏感。

2.4 诊断与补救

如何诊断随机扰动项是否存在序列相关性呢？主要有图示检验法、自相关系数法、DW检验等方法，此处简单介绍一下DW检验。

DW检验 是常用的检验序列相关的一种检验方法，但是它仅限于小样本的检验并且只能适用于随机扰动具有一阶自回归的情况。

具体的推导过程在此略过，一般的软件都可以自动给出D.W值，我们要会对其进行解读就可以了。DW值的取值范围为 [0,4][0,4][0,4] ，根据样本容量 nnn 和解释变量的数目 kkk （这里包括常数项）查DW分布表，得到临界值 dLd_LdL 和 dUd_UdU，然后根据表中的规则进行判断。

分布	准则
0≤DW≤dL0\leq DW\leq d_L0≤DW≤dL	误差项之间存在正自相关
dL<DW≤dUd_L< DW\leq d_UdL<DW≤dU	不能判定是否有自相关
dU<DW≤4−dUd_U< DW\leq4-d_UdU<DW≤4−dU	误差项之间无自相关
4−dU≤DW<4−dL4-d_U\leq DW< 4-d_L4−dU≤DW<4−dL	不能判定是否有自相关
4−dL≤DW≤44-d_L\leq DW\leq44−dL≤DW≤4	误差项之间存在负自相关

DW检验的局限：

有一个不能确定的区域，若DW值落入这个区域就无法判断。
DW统计量的上下界表要求n>15，因为样本量如果再小，利用残差就很难对自相关的存在性作出比较正确的判断。
不适用于随机项具有高阶序列相关的检验。

如果存在自相关问题，可以用迭代法加以解决。
（迭代法的具体步骤空在这里先，打算另外补一补时间序列和序列相关等知识再回来填坑）

3 多重共线性

3.1 基本概念

在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量x1,x2,…,xpx_1,x_2,…,x_px1,x2,…,xp中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，也即存在不全为0的p+1个数c0,c1,...,cpc_0,c_1,...,c_pc0,c1,...,cp 使得 c0+c1xi1+c2xi2+...+cpxip≈0c_0+c_1x_{i1}+c_2x_{i2}+...+c_px_{ip}\approx0c0+c1xi1+c2xi2+...+cpxip≈0就称线性回归模型中存在多重共线性。

3.2 产生原因

在实际问题中，解释变量之间完全不相关的情形是少见的，自变量之间或多或少有一定的相关性，当相关性较弱时，一般认为符合多元线性回归模型设计矩阵的要求，否则认为是一种违背多元线性回归基本假设的情形。

3.3 解决方法

剔除一些不重要的解释变量；
增大样本容量；
采用有偏估计，如岭回归法、主成分法、偏最小二乘法等。

回归分析的几个问题：异方差性、自相关性、多重共线性相关推荐

excel多元线性拟合_Python一元线性回归分析实例：价格与需求的相关性
来自烟水暖的学习笔记回归分析(Regression analysis) 回归分析(Regression analysis),是研究因变量与自变量之间相关性的一种数学方法,并将相关性量化,即得到回归方 ...
python对于一元线性回归模型_Python一元线性回归分析实例：价格与需求的相关性...
来自烟水暖的学习笔记回归分析(Regression analysis) 回归分析(Regression analysis),是研究因变量与自变量之间相关性的一种数学方法,并将相关性量化,即得到回归方 ...
【数据挖掘知识点七】相关与回归分析
相关与回归分析客观现象之间的数量联系存在两种不同类型:一种是函数关系,另一种是相关关系.当一个或几个变量取一定的值时,另一个变量有确定值与之对应,这种关系称为确定性的函数关系,一般把作为影响因素的变 ...
基于c#的相关性分析_不同区间衰退路径下锂离子电池的性能相关性及温度适用性分析...
锂离子电池在不同容量区间和不同工况应力下使用衰退性能不同.北京交通大学国家能源主动配电网技术研发中心.北京电动车辆协同创新中心.北京新能源汽车股份有限公司的研究人员孙丙香.刘佳.韩智强.任鹏博.张维戈 ...
神经网络相关性系数r公式,神经网络预测数据
MATLAB神经网络训练图中R是什么谷歌人工智能写作项目:神经网络伪原创相关系数r的计算公式是什么? 相关系数介于区间[-1,1]好文案.当相关系数为-1,表示完全负相关,表明两项资产的收益率变化 ...
清风数模课---多元回归分析
使用情况回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进 ...
【数学建模】-多元线性回归分析
文章目录回归的思想回归分析:研究X和Y之间相关性的分析. 相关性因变量Y 自变量X 回归分析的使命回归分析的分类数据的分类一元线性回归对于线性的理解回归系数的解释内生性的探究内生性 ...
【数学建模笔记】【第七讲】多元线性回归分析（一）：回归分析的定义、对于线性的理解以及内生性问题的探究
多元线性回归分析回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...
【清风数学建模笔记】第七讲多元回归分析
回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预 ...
简单介绍一下R中的几种统计分布及常用模型
统计学上分布有很多,在R中基本都有描述.因能力有限,我们就挑选几个常用的.比较重要的简单介绍一下每种分布的定义,公式,以及在R中的展示. 统计分布每一种分布有四个函数:d――density(密度函数) ...

回归分析的几个问题：异方差性、自相关性、多重共线性