线性拟合的斜率和截距的不确定性

利用熟悉的Excel绘图功能，可以根据距离-高程散点数据拟合线性趋势线，如图1显示（河流阶地地形数据）。趋势线按如下方式插入：右击图表上的数据，添加趋势线，在图表上显示方程和R2R^2R2值。然而，趋势线函数并没有给出与线性拟合的斜率和截距相关的方差值。获得斜率和截距选定的置信区间（例如95%置信区间）对于精确测量断层变形量与滑动速率十分重要。因此，我们需要计算斜率与截距的方差值。Excel的LINESET函数提供这种统计测量。下文介绍了使用LINEST的基本步骤与原理（Morrison, 2014）。

图1. 拔河高度随距离的函数。利用Excel的趋势线特性对数据进行拟合；直线方程和拟合系数R2值如图所示。

Excel数组函数LINEST

使用MS Excel的 LINEST函数 进行最小二乘计算。对于图1所示数据，应用LINEST步骤如下：

选择一个5行2列的空白范围（总共10个单元格）来存放函数的输出值；我们选择B1:C5，如图2所示。
点击公式，然后 “插入函数”。
在 “插入函数” 窗口中，类别选择 “Statistical”，选择函数 “LINEST”，然后单击确定。
选择y和x数据范围；对于Const，输入TRUE（TRUE=计算非0截距）；对于Stats，也选择TRUE （TRUE=返回误差统计值）；单击OK。
通过选择输入字段中的公式并按键盘 CTRL-SHIFT-ENTER，指定LINEST是一个数组函数。选定的10个输出单元格将填充与图2和图3中标记的匹配相关的统计信息，下文进行讨论。

图2. 按照文本中的说明，填充LINEST的函数参数，如图所示。点击OK之后，还有最后一个重要的步骤：突出显示函数调用=LINEST(B9:B1493, A9:A1493, true, true)并同时按CTRL-SHIFT-ENTER。

图3. 在指定LINEST是一个数组函数之后，10个单元格B1:C5显示误差统计信息。这些统计值的含义见文本。

LINEST结果的含义

LINEST执行最小二乘运算求解最佳拟合直线的斜率和截距（图4，Wikipedia, 2014b）。最佳线性拟合对应拟合直线和数据之间的平方和误差值最小。通常，最小二乘计算中，假设x值没有误差（图4），详细推导见文献（Montgomery and Runger, 2011; McCuen, 1985），本文仅作简短讨论。

图4. 因变量y的平均值是参数（斜率和截距）和变量x的线性组合。通常最小二乘算法假设数据的x值不存在误差，响应变量y的残差计算为yi−y^iy_i-\widehat{y}_iyi−yi，即点与直线之间的垂直距离(左图)。若x中的误差也存在，点和直线之间的最短距离是垂直距离，如右图所示。各因变量yiy_iyi的误差是互不相关的，即每个yiy_iyi之间不存在协方差。

值（xi, yi）是n个数据对的集合，我们希望拟合一条线；yˉ≡(∑i=1nyi)/n\bar{y}≡(\sum_{i=1}^n y_i )/nyˉ≡(∑i=1nyi)/n是yi的均值，并且线性拟合是y^(x)=m^x+b^\widehat{y}(x)=\widehat{m}x+\widehat{b}y(x)=mx+b，为了解释Excel返回的误差统计值，首先定义三个平方和： SSyySS_{yy}SSyy, SSESS_ESSE, 和SSRSS_RSSR

总平方和 SSTSS_TSST=SSyySS_{yy}SSyy=∑i=1n(yi−yˉ)2\sum\limits_{i=1}^n(y_i-\bar{y})^2i=1∑n(yi−yˉ)2 (1)
误差平方和 SSESS_ESSE≡∑i=1n(yi−y^)2\sum\limits_{i=1}^n(y_i-\widehat{y})^2i=1∑n(yi−y)2 (2)
回归平方和 SSRSS_RSSR≡SST−SSESS_T-SS_ESST−SSE (3)

SSyySS_{yy}SSyy是数据yiy_iyi与均值y^\widehat{y}y之间误差平方和；SSESS_ESSE是数据yiy_iyi和拟合值y^(x)\widehat{y}(x)y(x)=m^x+b^\widehat{m}x+\widehat{b}mx+b之间的误差平方和；SSRSS_RSSR是二者之差，代表总平方和中可以用线性模型值解释的部分。在最小二乘计算中，目标是找到最小化的SSESS_ESSE，计算过程还涉及到两个平方和公式：
SSxxSS_{xx}SSxx≡∑i=1n(xi−xˉ)2\sum\limits_{i=1}^n(x_i-\bar{x})^2i=1∑n(xi−xˉ)2 (4)
SSxySS_{xy}SSxy≡∑i=1n(xi−xˉ)(yi−yˉ)\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})i=1∑n(xi−xˉ)(yi−yˉ) (5)
其中xˉ\bar{x}xˉ≡(∑i=1nxi)/n(\sum_{i=1}^nx_i )/n(∑i=1nxi)/n是xix_ixi的平均值。

将n个数据点（xix_ixi, yiy_iyi）拟合的线性模型：
y^(x)=m^x+b^\widehat{y}(x)=\widehat{m}x+\widehat{b}y(x)=mx+b (6)

LINEST输出的10个统计参数含义如下：

m，斜率的最小二乘估计值——通常为最佳拟合直线的斜率。
m^\widehat{m}m=(n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)(n∑i=1nxi2−(∑i=1nxi)2)\frac{(n\sum_{i=1}^nx_i y_i-(\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}{(n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2 )}(n∑i=1nxi2−(∑i=1nxi)2)(n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−yˉ)2\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{y})^2}∑i=1n(xi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=SSxySSxx\frac{SS_{xy}}{SS_{xx}}SSxxSSxy (7)
b，截距的最小二乘估计值——通常为最佳拟合直线的截距。
b^\widehat{b}b=(∑i=1nxi)2(∑i=1nyi)−(∑i=1nxiyi)(∑i=1nxi)(n∑i=1nxi2−(∑i=1nxi)2)\frac{(\sum_{i=1}^nx_i )^2 (\sum_{i=1}^ny_i)-(\sum_{i=1}^nx_iy_i)(\sum_{i=1}^nx_i)}{(n\sum_{i=1}^nx_i^2 -(\sum_{i=1}^nx_i)^2)}(n∑i=1nxi2−(∑i=1nxi)2)(∑i=1nxi)2(∑i=1nyi)−(∑i=1nxiyi)(∑i=1nxi)=yˉ−m^xˉ\bar{y}-\widehat{m}\bar{x}yˉ−mxˉ (8)
n-p, 最小二乘回归自由度。有n个数据点，p = 2个回归参数（m和b）。在进行最小二乘计算之前，有n个自由度，计算斜率和截距时使用了两个自由度，在以后的计算中留下n-2个自由度。
Sy,xS_{y,x}Sy,x，y(x)的标准偏差（y(x)方差Sy,x2S_{y,x}^2Sy,x2的平方根）：
Sy,x2S_{y,x}^2Sy,x2=(1n−2)∑i=1n(yi−y^)2(\frac{1}{n-2})\sum_{i=1}^n(y_i-\widehat{y})^2(n−21)∑i=1n(yi−y)2=SSEn−2\frac{SS_E}{n-2}n−2SSE (9)
SmS_mSm，坡度m^\widehat{m}m标准差（Sm2S_m^2Sm2的平方根，m ̂的方差）。
Sm2S_m^2Sm2=S(y,x)2SSxx\frac{S_(y,x)^2}{SS_{xx}}SSxxS(y,x)2 (10)

其中Sy,x2S_{y,x}^2Sy,x2是y(x)的方差（见方程9）。为了求得计算的\widehat{m}和\widehat{b}的置信区间，我们采用t分布和n-2自由度（Montgomery and Runger, 2011）。对于自由度大于或等于6，tα/2,n−2≥6≈2t_{α/2,n-2≥6}≈2tα/2,n−2≥6≈2（α=0.05，误差为一个有效数字）。

坡度95%置信区间（α=0.05）：m^±t0.025,n−2Sm\widehat{m}±t_{0.025,n-2}S_mm±t0.025,n−2Sm (11)
≅m^±2Sm\widehat{m}±2S_mm±2Sm, (n−2)≥6(n-2)≥6(n−2)≥6 (12)
SbS_bSb，截距b ̂的标准差（Sb2S_b^2Sb2的平方根，\widehat{b}的方差）。\widehat{b}的置信区间由SbS_bSb和具有n-2自由度的t分布获得。
Sb2S_b^2Sb2=Sy,x2∑i=1nxi2nSSxx\frac{S_{y,x}^2 \sum_{i=1}^nx_i^2}{nSS_{xx}}nSSxxSy,x2∑i=1nxi2=Sy,x2(1n+xˉ2SS)S_{y,x}^2(\frac1n+\frac{\bar{x}^2}{SS})Sy,x2(n1+SSxˉ2) (13)

截距95%置信区间（α=0.05）：b^±t0.025,n−2Sb\widehat{b}±t_{0.025,n-2}S_bb±t0.025,n−2Sb (14)
≅m^±2Sb\widehat{m}±2S_bm±2Sb, (n−2)≥6(n-2)≥6(n−2)≥6 (15)
误差的残差平方和SSESS_ESSE——数据yiy_iyi和线性模拟值y^i\widehat{y}_iyi之差的平方和；一种线性模型y数据的误差度量。当SSESS_ESSE→0时，所有的总误差SSTSS_TSST都可以用线性模型来解释，可以认为线性模型是一个很好的拟合（方程2）。
SSESS_ESSE≡∑i=1n(yi−y^)2\sum\limits_{i=1}^n(y_i-\widehat{y})^2i=1∑n(yi−y)2 (2)
回归平方和SSRSS_RSSR——总平方和中可以用线性模型值解释的部分（方程3）：
SSRSS_RSSR≡SST−SSESS_T-SS_ESST−SSE (3)
R2R^2R2决定系数——线性模型解释的yiy_iyi变量分数：
R2R^2R2=explainederrortotalerror\frac{explained error}{total error}totalerrorexplainederror=SSRSST\frac{SS_R}{SS_T}SSTSSR=SST−SSESST\frac{SS_T-SS_E}{SS_T}SSTSST−SSE

当线性模型拟合很好时，数据yiy_iyi与模型之间的偏差很小，SSESS_ESSE→0，R2R^2R2=1。因此，决定系数是一种拟合优度的度量，该值越接近1，表明拟合的越好。但是，当拟合模型是一条水平线时，即y^\widehat{y}y=y^\widehat{y}y，则SSTSS_TSST=SSESS_ESSE，此时R2R^2R2为0。
Fisher F 统计——用于回归测试，以查看使用两个参数（斜率和截距）是否优于使用一个参数（y^\widehat{y}y=y^\widehat{y}y；即坡度m为0，y=截距b）。回归统计F计算为两个量的比率，即模型能够解释的方差与模型不能解释的方差的比率：
F=(′lackoffit′sumofsquares/v1)′pureerror′sumofsquares)/v2(\frac{'lack of fit' sum of squares/v_1)}{'pure error' sum of squares)/v_2}(′pureerror′sumofsquares)/v2′lackoffit′sumofsquares/v1)=SSR/v1SST/v2\frac{SS_R/v_1}{SS_T/v_2}SST/v2SSR/v1=SST−SSESy,x2\frac{SS_T-SS_E}{S_{y,x}^2}Sy,x2SST−SSE

其中v1v_1v1=1和v1v_1v1=n-2是每个变量的自由度。这个比率是一个具有F(v1v_1v1,v2v_2v2)分布且自由度为v1v_1v1=1和v1v_1v1=n-2的随机变量的计算值。如果F>FcritF_critFcrit，使用线性模型y^=m^x+b^\widehat{y}=\widehat{m}x+\widehat{b}y=mx+b比使用模型y^\widehat{y}y=yˉ\bar{y}yˉ合理（在(1-α)%置信区间）。FcritF_critFcrit对应于具有期望的α置信水平的F(v1v_1v1,v2v_2v2)分布的累积分布函数，自由度为v1v_1v1和v2v_2v2。

模型预测y^\widehat{y}y=mx+b=mx+b=mx+b

在方程12和15中，我们给出了两个模型参数m^\widehat{m}m和b^\widehat{b}b的95%置信区间。当模型参数m^\widehat{m}m和b^\widehat{b}b直接用于后续的计算时，这些置信区间适用于误差传播计算。
当模型方程用于在选定的x值处估计y值时，具有不同的误差范围。这里讨论最常见的情况。
用选定的x值估计最佳y值。任意点上y的最佳值是该点上y所有可能观测值的均值。设x的取值为xpx_pxp, x在该点的最佳估计值为ypy_pyp，由下式给出：
yp=m^xp+b^y_p=\widehat{m}x_p+\widehat{b}yp=mxp+b (18)
ypy_pyp的方差由方程18和误差传播计算而来，斜率和截距不是独立的变量增加了其复杂性，因此m^\widehat{m}m和b^\widehat{b}b之间的协方差非零。y在xpx_pxp处的均值方差为：
y在xpx_pxp的均值方差:Sy,x2(1n+(xp−xˉ)2SSxx)S_{y,x}^2(\frac1n+\frac{(x_p-\bar{x})^2}{SS_{xx}})Sy,x2(n1+SSxx(xp−xˉ)2) (19)
y在y_p处的均值置信区间根据符合t分布且自由度为(n-2)的标准差得到（Montgomery and Runger, 2011）：
y在xpx_pxp的均值置信区间：
(m^xp+b^)±t(α/2,n−2≥6)sy,x1n+(xp−xˉ)2SSxx(\widehat{m}x_p+\widehat{b})±t_{(α/2,n-2≥6)} s_{y,x}\sqrt{{\frac1n}+\frac{(x_p-\bar{x})^2}{SS_{xx}}}(mxp+b)±t(α/2,n−2≥6)sy,xn1+SSxx(xp−xˉ)2 (20)

方程20是基于最小二乘法最佳拟合得到的y值误差的合理区间（图5）。由此可知。误差条在回归(xˉ\bar{x}xˉ,yˉ\bar{y}yˉ)的中心点附近最窄，并向两端呈扇形展开。这反映了这样一个事实，即斜率的不确定性使得x范围两端的值不如中心附近的点确定。

图5. 图1中数据的拟合线（红色）与95%置信区间。外层的一对线(绿色和紫色)反映了在每个x值处y新值的95%预测区间。

References

[1]: D. C. Montgomery and G. C. Runger., 2011. Applied Statistics and Probability for Engineers, 5th edition (Wiley, New York).
[2]: Morrison, F. A., 2014. Obtaining uncertainty measures on slope and intercept of a least squares fit with Excel’s LINEST. Houghton, MI: Department of Chemical Engineering, Michigan Technological University. Retrieved August, 2014, 6: 2015.
[3]: R. H. McCuen., 1985. Statistical Methods for Engineers (Prentice Hall, Englewood Cliffs, NJ).
[4]: Wikipedia., 2014. “Ordinary Least Squares,” Wikipedia, the Free Encyclopedia, en.wikipedia.org/wiki/Ordinary_least_squares, accessed 14 July 2014.

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性相关推荐

利用对位相乘法计算线性卷积-附Matlab代码
目录 1.线性卷积原理 2.利用对位相乘法计算线性卷积 3.Matlab实操 3.1源代码 3.2仿真结果线性卷积原理公示(1)为两个离散非周期序列进行线性卷积一般我们计算线性卷积时使用图解法最 ...
利用EXCEL函数LINEST进行统计学中的回归分析
文章来源:实战统计学作者:梁斌炜本文介绍统计学中的一元和多元线性回归,并通过EXCEL自带的统计函数LINEST.INDEX进行手工计算,再通过EXCEL数据分析工具包进行自动计算. 由于很多复杂 ...
小工具，大作用：教你如何利用EXCEL函数LINEST做回归分析
前言本文介绍统计学中的一元和多元线性回归,并通过EXCEL自带的统计函数LINEST.INDEX进行手工计算,再通过EXCEL数据分析工具包进行自动计算. 由于很多复杂的EXCEL自动化程序,需要用 ...
利用Excel VBA批量计算长时间序列植被物候动态阈值（逐像元）
本文演示利用Excel VBA编程实现多期栅格数据,逐像元计算物候参数:生长季始期(SOS).生长季末期(EOS)和生长季长度(LOS),计算过程速度快! 说明: (1)利用Raster to Poi ...
excel线性拟合的斜率_协方差分析：方差分析与线性回归的统一
转自个人微信公众号[Memo_Cleon]的统计学习笔记:协方差分析:方差分析与线性回归的统一. 在进行数据分析时,有时候我们会遇到数据基线不平的情况,比如两样本的t检验的示例,比较Labe和Meto ...
excel线性拟合的斜率_邵励治的机器学习 2 / 100 天：「简单线性回归」
前言好了,我们闲言碎语不多讲,下面开始机器学习100天:第2天的学习! 另外,如果看官老爷喜欢我的文章,还请点个赞的说! 这是对我的认真分享最好的鼓励! 知识储备环节今天我们学习的内容是:&q ...
利用Excel函数多角度计算个人所得税
新个税征收方法已与2011年9月1日起施行,但计算方法变更改后,有关这方面的计算方法在网络论坛上讨论较多,但在新旧交替时期正误混杂,新人难以分辨.在现实中根本就找不到这方面的经典计算方法,ExcelH ...
利用excel表建立一元线性回归方程
本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择"工具"-"加载宏",然后选择加载"分析工具库"(2003版 ...
利用Excel VBA批量计算气象数据多个台站多年来春季和冬季降水量和平均气温
气象数据是地理数据的重要组成部分,存储量虽然不大,但是处理过程非常繁琐,长时序数据更不用说.本文总结了一个气象数据的基本处理方法. 如下图所示,气象数据的排列格式是区站号→年→月→降水量→平均气温,时 ...
EXCEL利用数组公式求多组数据的斜率、截距或者其他。
----这样的算法内容放在Python里面是方便实现的.但是大多数的基层数据分析师的工作使用工具还是excel.所以分享一个多组数据的中位数.四分位数等等.求解其线性回归方程的方法. 不用一组一组数据 ...

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性

目录

线性拟合的斜率和截距的不确定性

Excel数组函数LINEST

LINEST结果的含义

LINEST输出的10个统计参数含义如下：

模型预测y^\widehat{y}y=mx+b=mx+b=mx+b

References

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性相关推荐

最新文章

热门文章

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性

目录

线性拟合的斜率和截距的不确定性

Excel数组函数LINEST

LINEST结果的含义

LINEST输出的10个统计参数含义如下：

模型预测y^\widehat{y}y​=mx+b=mx+b=mx+b

References

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性相关推荐

最新文章

热门文章

模型预测y^\widehat{y}y=mx+b=mx+b=mx+b