利用Excel的LINEST计算线性拟合的斜率和截距的不确定性
目录
- 线性拟合的斜率和截距的不确定性
- Excel数组函数LINEST
- LINEST结果的含义
- LINEST输出的10个统计参数含义如下:
- 模型预测y^\widehat{y}y=mx+b=mx+b=mx+b
- References
线性拟合的斜率和截距的不确定性
利用熟悉的Excel绘图功能,可以根据距离-高程散点数据拟合线性趋势线,如图1显示(河流阶地地形数据)。趋势线按如下方式插入:右击图表上的数据,添加趋势线,在图表上显示方程和R2R^2R2值。然而,趋势线函数并没有给出与线性拟合的斜率和截距相关的方差值。获得斜率和截距选定的置信区间(例如95%置信区间)对于精确测量断层变形量与滑动速率十分重要。因此,我们需要计算斜率与截距的方差值。Excel的LINESET函数提供这种统计测量。下文介绍了使用LINEST的基本步骤与原理(Morrison, 2014)。
图1. 拔河高度随距离的函数。利用Excel的趋势线特性对数据进行拟合;直线方程和拟合系数R2值如图所示。
Excel数组函数LINEST
使用MS Excel的 LINEST函数 进行最小二乘计算。对于图1所示数据,应用LINEST步骤如下:
- 选择一个5行2列的空白范围(总共10个单元格)来存放函数的输出值;我们选择B1:C5,如图2所示。
- 点击公式,然后 “插入函数”。
- 在 “插入函数” 窗口中,类别选择 “Statistical”,选择函数 “LINEST”,然后单击确定。
- 选择y和x数据范围;对于Const,输入TRUE(TRUE=计算非0截距);对于Stats,也选择TRUE (TRUE=返回误差统计值);单击OK。
- 通过选择输入字段中的公式并按键盘 CTRL-SHIFT-ENTER,指定LINEST是一个数组函数。选定的10个输出单元格将填充与图2和图3中标记的匹配相关的统计信息,下文进行讨论。
图2. 按照文本中的说明,填充LINEST的函数参数,如图所示。点击OK之后,还有最后一个重要的步骤:突出显示函数调用=LINEST(B9:B1493, A9:A1493, true, true)并同时按CTRL-SHIFT-ENTER。
图3. 在指定LINEST是一个数组函数之后,10个单元格B1:C5显示误差统计信息。这些统计值的含义见文本。
LINEST结果的含义
LINEST执行最小二乘运算求解最佳拟合直线的斜率和截距(图4,Wikipedia, 2014b)。最佳线性拟合对应拟合直线和数据之间的平方和误差值最小。通常,最小二乘计算中,假设x值没有误差(图4),详细推导见文献(Montgomery and Runger, 2011; McCuen, 1985),本文仅作简短讨论。
图4. 因变量y的平均值是参数(斜率和截距)和变量x的线性组合。通常最小二乘算法假设数据的x值不存在误差,响应变量y的残差计算为yi−y^iy_i-\widehat{y}_iyi−yi,即点与直线之间的垂直距离(左图)。若x中的误差也存在,点和直线之间的最短距离是垂直距离,如右图所示。各因变量yiy_iyi的误差是互不相关的,即每个yiy_iyi之间不存在协方差。
值(xi, yi)是n个数据对的集合,我们希望拟合一条线;yˉ≡(∑i=1nyi)/n\bar{y}≡(\sum_{i=1}^n y_i )/nyˉ≡(∑i=1nyi)/n是yi的均值,并且线性拟合是y^(x)=m^x+b^\widehat{y}(x)=\widehat{m}x+\widehat{b}y(x)=mx+b,为了解释Excel返回的误差统计值,首先定义三个平方和: SSyySS_{yy}SSyy, SSESS_ESSE, 和SSRSS_RSSR
总平方和 SSTSS_TSST=SSyySS_{yy}SSyy=∑i=1n(yi−yˉ)2\sum\limits_{i=1}^n(y_i-\bar{y})^2i=1∑n(yi−yˉ)2 (1)
误差平方和 SSESS_ESSE≡∑i=1n(yi−y^)2\sum\limits_{i=1}^n(y_i-\widehat{y})^2i=1∑n(yi−y)2 (2)
回归平方和 SSRSS_RSSR≡SST−SSESS_T-SS_ESST−SSE (3)
SSyySS_{yy}SSyy是数据yiy_iyi与均值y^\widehat{y}y之间误差平方和;SSESS_ESSE是数据yiy_iyi和拟合值y^(x)\widehat{y}(x)y(x)=m^x+b^\widehat{m}x+\widehat{b}mx+b之间的误差平方和;SSRSS_RSSR是二者之差,代表总平方和中可以用线性模型值解释的部分。在最小二乘计算中,目标是找到最小化的SSESS_ESSE,计算过程还涉及到两个平方和公式:
SSxxSS_{xx}SSxx≡∑i=1n(xi−xˉ)2\sum\limits_{i=1}^n(x_i-\bar{x})^2i=1∑n(xi−xˉ)2 (4)
SSxySS_{xy}SSxy≡∑i=1n(xi−xˉ)(yi−yˉ)\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})i=1∑n(xi−xˉ)(yi−yˉ) (5)
其中xˉ\bar{x}xˉ≡(∑i=1nxi)/n(\sum_{i=1}^nx_i )/n(∑i=1nxi)/n是xix_ixi的平均值。
将n个数据点(xix_ixi, yiy_iyi)拟合的线性模型:
y^(x)=m^x+b^\widehat{y}(x)=\widehat{m}x+\widehat{b}y(x)=mx+b (6)
LINEST输出的10个统计参数含义如下:
m,斜率的最小二乘估计值——通常为最佳拟合直线的斜率。
m^\widehat{m}m=(n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)(n∑i=1nxi2−(∑i=1nxi)2)\frac{(n\sum_{i=1}^nx_i y_i-(\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}{(n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2 )}(n∑i=1nxi2−(∑i=1nxi)2)(n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−yˉ)2\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{y})^2}∑i=1n(xi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=SSxySSxx\frac{SS_{xy}}{SS_{xx}}SSxxSSxy (7)b,截距的最小二乘估计值——通常为最佳拟合直线的截距。
b^\widehat{b}b=(∑i=1nxi)2(∑i=1nyi)−(∑i=1nxiyi)(∑i=1nxi)(n∑i=1nxi2−(∑i=1nxi)2)\frac{(\sum_{i=1}^nx_i )^2 (\sum_{i=1}^ny_i)-(\sum_{i=1}^nx_iy_i)(\sum_{i=1}^nx_i)}{(n\sum_{i=1}^nx_i^2 -(\sum_{i=1}^nx_i)^2)}(n∑i=1nxi2−(∑i=1nxi)2)(∑i=1nxi)2(∑i=1nyi)−(∑i=1nxiyi)(∑i=1nxi)=yˉ−m^xˉ\bar{y}-\widehat{m}\bar{x}yˉ−mxˉ (8)n-p, 最小二乘回归自由度。有n个数据点,p = 2个回归参数(m和b)。在进行最小二乘计算之前,有n个自由度,计算斜率和截距时使用了两个自由度,在以后的计算中留下n-2个自由度。
Sy,xS_{y,x}Sy,x,y(x)的标准偏差(y(x)方差Sy,x2S_{y,x}^2Sy,x2的平方根):
Sy,x2S_{y,x}^2Sy,x2=(1n−2)∑i=1n(yi−y^)2(\frac{1}{n-2})\sum_{i=1}^n(y_i-\widehat{y})^2(n−21)∑i=1n(yi−y)2=SSEn−2\frac{SS_E}{n-2}n−2SSE (9)SmS_mSm,坡度m^\widehat{m}m标准差(Sm2S_m^2Sm2的平方根,m ̂的方差)。
Sm2S_m^2Sm2=S(y,x)2SSxx\frac{S_(y,x)^2}{SS_{xx}}SSxxS(y,x)2 (10)其中Sy,x2S_{y,x}^2Sy,x2是y(x)的方差(见方程9)。为了求得计算的\widehat{m}和\widehat{b}的置信区间,我们采用t分布和n-2自由度(Montgomery and Runger, 2011)。对于自由度大于或等于6,tα/2,n−2≥6≈2t_{α/2,n-2≥6}≈2tα/2,n−2≥6≈2(α=0.05,误差为一个有效数字)。
坡度95%置信区间(α=0.05):m^±t0.025,n−2Sm\widehat{m}±t_{0.025,n-2}S_mm±t0.025,n−2Sm (11)
≅m^±2Sm\widehat{m}±2S_mm±2Sm, (n−2)≥6(n-2)≥6(n−2)≥6 (12)SbS_bSb,截距b ̂的标准差(Sb2S_b^2Sb2的平方根,\widehat{b}的方差)。\widehat{b}的置信区间由SbS_bSb和具有n-2自由度的t分布获得。
Sb2S_b^2Sb2=Sy,x2∑i=1nxi2nSSxx\frac{S_{y,x}^2 \sum_{i=1}^nx_i^2}{nSS_{xx}}nSSxxSy,x2∑i=1nxi2=Sy,x2(1n+xˉ2SS)S_{y,x}^2(\frac1n+\frac{\bar{x}^2}{SS})Sy,x2(n1+SSxˉ2) (13)截距95%置信区间(α=0.05):b^±t0.025,n−2Sb\widehat{b}±t_{0.025,n-2}S_bb±t0.025,n−2Sb (14)
≅m^±2Sb\widehat{m}±2S_bm±2Sb, (n−2)≥6(n-2)≥6(n−2)≥6 (15)误差的残差平方和SSESS_ESSE——数据yiy_iyi和线性模拟值y^i\widehat{y}_iyi之差的平方和;一种线性模型y数据的误差度量。当SSESS_ESSE→0时,所有的总误差SSTSS_TSST都可以用线性模型来解释,可以认为线性模型是一个很好的拟合(方程2)。
SSESS_ESSE≡∑i=1n(yi−y^)2\sum\limits_{i=1}^n(y_i-\widehat{y})^2i=1∑n(yi−y)2 (2)回归平方和SSRSS_RSSR——总平方和中可以用线性模型值解释的部分(方程3):
SSRSS_RSSR≡SST−SSESS_T-SS_ESST−SSE (3)R2R^2R2决定系数——线性模型解释的yiy_iyi变量分数:
R2R^2R2=explainederrortotalerror\frac{explained error}{total error}totalerrorexplainederror=SSRSST\frac{SS_R}{SS_T}SSTSSR=SST−SSESST\frac{SS_T-SS_E}{SS_T}SSTSST−SSE当线性模型拟合很好时,数据yiy_iyi与模型之间的偏差很小,SSESS_ESSE→0,R2R^2R2=1。因此,决定系数是一种拟合优度的度量,该值越接近1,表明拟合的越好。但是,当拟合模型是一条水平线时,即y^\widehat{y}y=y^\widehat{y}y,则SSTSS_TSST=SSESS_ESSE,此时R2R^2R2为0。
Fisher F 统计——用于回归测试,以查看使用两个参数(斜率和截距)是否优于使用一个参数(y^\widehat{y}y=y^\widehat{y}y;即坡度m为0,y=截距b)。回归统计F计算为两个量的比率,即模型能够解释的方差与模型不能解释的方差的比率:
F=(′lackoffit′sumofsquares/v1)′pureerror′sumofsquares)/v2(\frac{'lack of fit' sum of squares/v_1)}{'pure error' sum of squares)/v_2}(′pureerror′sumofsquares)/v2′lackoffit′sumofsquares/v1)=SSR/v1SST/v2\frac{SS_R/v_1}{SS_T/v_2}SST/v2SSR/v1=SST−SSESy,x2\frac{SS_T-SS_E}{S_{y,x}^2}Sy,x2SST−SSE其中v1v_1v1=1和v1v_1v1=n-2是每个变量的自由度。这个比率是一个具有F(v1v_1v1,v2v_2v2)分布且自由度为v1v_1v1=1和v1v_1v1=n-2的随机变量的计算值。如果F>FcritF_critFcrit,使用线性模型y^=m^x+b^\widehat{y}=\widehat{m}x+\widehat{b}y=mx+b比使用模型y^\widehat{y}y=yˉ\bar{y}yˉ合理(在(1-α)%置信区间)。FcritF_critFcrit对应于具有期望的α置信水平的F(v1v_1v1,v2v_2v2)分布的累积分布函数,自由度为v1v_1v1和v2v_2v2。
模型预测y^\widehat{y}y=mx+b=mx+b=mx+b
在方程12和15中,我们给出了两个模型参数m^\widehat{m}m和b^\widehat{b}b的95%置信区间。当模型参数m^\widehat{m}m和b^\widehat{b}b直接用于后续的计算时,这些置信区间适用于误差传播计算。
当模型方程用于在选定的x值处估计y值时,具有不同的误差范围。这里讨论最常见的情况。
用选定的x值估计最佳y值。任意点上y的最佳值是该点上y所有可能观测值的均值。设x的取值为xpx_pxp, x在该点的最佳估计值为ypy_pyp,由下式给出:
yp=m^xp+b^y_p=\widehat{m}x_p+\widehat{b}yp=mxp+b (18)
ypy_pyp的方差由方程18和误差传播计算而来,斜率和截距不是独立的变量增加了其复杂性,因此m^\widehat{m}m和b^\widehat{b}b之间的协方差非零。y在xpx_pxp处的均值方差为:
y在xpx_pxp的均值方差:Sy,x2(1n+(xp−xˉ)2SSxx)S_{y,x}^2(\frac1n+\frac{(x_p-\bar{x})^2}{SS_{xx}})Sy,x2(n1+SSxx(xp−xˉ)2) (19)
y在y_p处的均值置信区间根据符合t分布且自由度为(n-2)的标准差得到(Montgomery and Runger, 2011):
y在xpx_pxp的均值置信区间:
(m^xp+b^)±t(α/2,n−2≥6)sy,x1n+(xp−xˉ)2SSxx(\widehat{m}x_p+\widehat{b})±t_{(α/2,n-2≥6)} s_{y,x}\sqrt{{\frac1n}+\frac{(x_p-\bar{x})^2}{SS_{xx}}}(mxp+b)±t(α/2,n−2≥6)sy,xn1+SSxx(xp−xˉ)2 (20)
方程20是基于最小二乘法最佳拟合得到的y值误差的合理区间(图5)。由此可知。误差条在回归(xˉ\bar{x}xˉ,yˉ\bar{y}yˉ)的中心点附近最窄,并向两端呈扇形展开。这反映了这样一个事实,即斜率的不确定性使得x范围两端的值不如中心附近的点确定。
图5. 图1中数据的拟合线(红色)与95%置信区间。外层的一对线(绿色和紫色)反映了在每个x值处y新值的95%预测区间。
References
[1]: D. C. Montgomery and G. C. Runger., 2011. Applied Statistics and Probability for Engineers, 5th edition (Wiley, New York).
[2]: Morrison, F. A., 2014. Obtaining uncertainty measures on slope and intercept of a least squares fit with Excel’s LINEST. Houghton, MI: Department of Chemical Engineering, Michigan Technological University. Retrieved August, 2014, 6: 2015.
[3]: R. H. McCuen., 1985. Statistical Methods for Engineers (Prentice Hall, Englewood Cliffs, NJ).
[4]: Wikipedia., 2014. “Ordinary Least Squares,” Wikipedia, the Free Encyclopedia, en.wikipedia.org/wiki/Ordinary_least_squares, accessed 14 July 2014.
利用Excel的LINEST计算线性拟合的斜率和截距的不确定性相关推荐
- 利用对位相乘法计算线性卷积-附Matlab代码
目录 1.线性卷积原理 2.利用对位相乘法计算线性卷积 3.Matlab实操 3.1源代码 3.2仿真结果 线性卷积原理 公示(1)为两个离散非周期序列进行线性卷积 一般我们计算线性卷积时使用图解法最 ...
- 利用EXCEL函数LINEST进行统计学中的回归分析
文章来源:实战统计学 作者:梁斌炜 本文介绍统计学中的一元和多元线性回归,并通过EXCEL自带的统计函数LINEST.INDEX进行手工计算,再通过EXCEL数据分析工具包进行自动计算. 由于很多复杂 ...
- 小工具,大作用:教你如何利用EXCEL函数LINEST做回归分析
前言 本文介绍统计学中的一元和多元线性回归,并通过EXCEL自带的统计函数LINEST.INDEX进行手工计算,再通过EXCEL数据分析工具包进行自动计算. 由于很多复杂的EXCEL自动化程序,需要用 ...
- 利用Excel VBA批量计算长时间序列植被物候动态阈值(逐像元)
本文演示利用Excel VBA编程实现多期栅格数据,逐像元计算物候参数:生长季始期(SOS).生长季末期(EOS)和生长季长度(LOS),计算过程速度快! 说明: (1)利用Raster to Poi ...
- excel线性拟合的斜率_协方差分析:方差分析与线性回归的统一
转自个人微信公众号[Memo_Cleon]的统计学习笔记:协方差分析:方差分析与线性回归的统一. 在进行数据分析时,有时候我们会遇到数据基线不平的情况,比如两样本的t检验的示例,比较Labe和Meto ...
- excel线性拟合的斜率_邵励治的机器学习 2 / 100 天:「简单线性回归」
前言 好了,我们闲言碎语不多讲,下面开始 机器学习100天:第2天 的学习! 另外,如果看官老爷喜欢我的文章,还请点个赞的说! 这是对我的认真分享最好的鼓励! 知识储备环节 今天我们学习的内容是:&q ...
- 利用Excel函数多角度计算个人所得税
新个税征收方法已与2011年9月1日起施行,但计算方法变更改后,有关这方面的计算方法在网络论坛上讨论较多,但在新旧交替时期正误混杂,新人难以分辨.在现实中根本就找不到这方面的经典计算方法,ExcelH ...
- 利用excel表建立一元线性回归方程
本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择"工具"-"加载宏",然后选择加载"分析工具库"(2003版 ...
- 利用Excel VBA批量计算气象数据多个台站多年来春季和冬季降水量和平均气温
气象数据是地理数据的重要组成部分,存储量虽然不大,但是处理过程非常繁琐,长时序数据更不用说.本文总结了一个气象数据的基本处理方法. 如下图所示,气象数据的排列格式是区站号→年→月→降水量→平均气温,时 ...
- EXCEL利用数组公式求多组数据的斜率、截距 或者其他。
----这样的算法内容放在Python里面是方便实现的.但是大多数的基层数据分析师的工作使用工具还是excel.所以分享一个多组数据的中位数.四分位数等等.求解其线性回归方程的方法. 不用一组一组数据 ...
最新文章
- swift 运算符和控制流程
- 源码剖析Django REST framework的认证方式及自定义认证
- 微信公众平台开发入门教程[2019版]
- 【JZOJ4307】喝喝喝
- KOFLive Postmortem
- 使用Maven和WebLogic 12c开发Java EE应用程序
- 【流媒体FLV封装协议】
- Java ObjectOutputStream reset()方法与示例
- Android学习笔记---08_短信发送器的制作
- 一题多解(六)—— 一个数二进制形式 1 的个数
- 企业class类命名规范
- VueCli4学习笔记
- 树莓派入门笔记(七)用Vlmcsd搭建Kms服务---2020-03-28 (1113)
- android 横屏字体变小,android屏幕大小,字体大小,横屏竖屏切换问题
- 深圳居住证微信续签,续期
- ensp路由器MTU设置1200后,ping不通丢包问题
- 连续七年 领跑未来丨山石网科入选Gartner 2020网络防火墙魔力象限
- NVMe SSD测试为何要先做预处理?
- 电视机与计算机共享,终于实现电视与电脑共享了!与大家分享!
- php获取股票接口数据接口,「股票数据」 使用Sina API获取新浪财经的证券股票数据接口(时价 K线等)...