目录

  • 线性拟合的斜率和截距的不确定性
    • Excel数组函数LINEST
    • LINEST结果的含义
      • LINEST输出的10个统计参数含义如下:
    • 模型预测y^\widehat{y}y​=mx+b=mx+b=mx+b
    • References

线性拟合的斜率和截距的不确定性

  利用熟悉的Excel绘图功能,可以根据距离-高程散点数据拟合线性趋势线,如图1显示(河流阶地地形数据)。趋势线按如下方式插入:右击图表上的数据,添加趋势线,在图表上显示方程和R2R^2R2值。然而,趋势线函数并没有给出与线性拟合的斜率和截距相关的方差值。获得斜率和截距选定的置信区间(例如95%置信区间)对于精确测量断层变形量与滑动速率十分重要。因此,我们需要计算斜率与截距的方差值。Excel的LINESET函数提供这种统计测量。下文介绍了使用LINEST的基本步骤与原理(Morrison, 2014)。

图1. 拔河高度随距离的函数。利用Excel的趋势线特性对数据进行拟合;直线方程和拟合系数R2值如图所示。

Excel数组函数LINEST

  使用MS Excel的 LINEST函数 进行最小二乘计算。对于图1所示数据,应用LINEST步骤如下:

  1. 选择一个5行2列的空白范围(总共10个单元格)来存放函数的输出值;我们选择B1:C5,如图2所示。
  2. 点击公式,然后 “插入函数”。
  3. 在 “插入函数” 窗口中,类别选择 “Statistical”,选择函数 “LINEST”,然后单击确定
  4. 选择y和x数据范围;对于Const,输入TRUE(TRUE=计算非0截距);对于Stats,也选择TRUE (TRUE=返回误差统计值);单击OK
  5. 通过选择输入字段中的公式并按键盘 CTRL-SHIFT-ENTER,指定LINEST是一个数组函数。选定的10个输出单元格将填充与图2和图3中标记的匹配相关的统计信息,下文进行讨论。

    图2. 按照文本中的说明,填充LINEST的函数参数,如图所示。点击OK之后,还有最后一个重要的步骤:突出显示函数调用=LINEST(B9:B1493, A9:A1493, true, true)并同时按CTRL-SHIFT-ENTER。


    图3. 在指定LINEST是一个数组函数之后,10个单元格B1:C5显示误差统计信息。这些统计值的含义见文本。

LINEST结果的含义

  LINEST执行最小二乘运算求解最佳拟合直线的斜率和截距(图4,Wikipedia, 2014b)。最佳线性拟合对应拟合直线和数据之间的平方和误差值最小。通常,最小二乘计算中,假设x值没有误差(图4),详细推导见文献(Montgomery and Runger, 2011; McCuen, 1985),本文仅作简短讨论。

图4. 因变量y的平均值是参数(斜率和截距)和变量x的线性组合。通常最小二乘算法假设数据的x值不存在误差,响应变量y的残差计算为yi−y^iy_i-\widehat{y}_iyi​−y​i​,即点与直线之间的垂直距离(左图)。若x中的误差也存在,点和直线之间的最短距离是垂直距离,如右图所示。各因变量yiy_iyi​的误差是互不相关的,即每个yiy_iyi​之间不存在协方差。

  值(xi, yi)是n个数据对的集合,我们希望拟合一条线;yˉ≡(∑i=1nyi)/n\bar{y}≡(\sum_{i=1}^n y_i )/nyˉ​≡(∑i=1n​yi​)/n是yi的均值,并且线性拟合是y^(x)=m^x+b^\widehat{y}(x)=\widehat{m}x+\widehat{b}y​(x)=mx+b,为了解释Excel返回的误差统计值,首先定义三个平方和: SSyySS_{yy}SSyy​, SSESS_ESSE​, 和SSRSS_RSSR​

总平方和  SSTSS_TSST​=SSyySS_{yy}SSyy​=∑i=1n(yi−yˉ)2\sum\limits_{i=1}^n(y_i-\bar{y})^2i=1∑n​(yi​−yˉ​)2    (1)
误差平方和  SSESS_ESSE​≡∑i=1n(yi−y^)2\sum\limits_{i=1}^n(y_i-\widehat{y})^2i=1∑n​(yi​−y​)2    (2)
回归平方和  SSRSS_RSSR​≡SST−SSESS_T-SS_ESST​−SSE​    (3)

  SSyySS_{yy}SSyy​是数据yiy_iyi​与均值y^\widehat{y}y​之间误差平方和;SSESS_ESSE​是数据yiy_iyi​和拟合值y^(x)\widehat{y}(x)y​(x)=m^x+b^\widehat{m}x+\widehat{b}mx+b之间的误差平方和;SSRSS_RSSR​是二者之差,代表总平方和中可以用线性模型值解释的部分。在最小二乘计算中,目标是找到最小化的SSESS_ESSE​,计算过程还涉及到两个平方和公式:
SSxxSS_{xx}SSxx​≡∑i=1n(xi−xˉ)2\sum\limits_{i=1}^n(x_i-\bar{x})^2i=1∑n​(xi​−xˉ)2   (4)
SSxySS_{xy}SSxy​≡∑i=1n(xi−xˉ)(yi−yˉ)\sum\limits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})i=1∑n​(xi​−xˉ)(yi​−yˉ​)   (5)
其中xˉ\bar{x}xˉ≡(∑i=1nxi)/n(\sum_{i=1}^nx_i )/n(∑i=1n​xi​)/n是xix_ixi​的平均值。

将n个数据点(xix_ixi​, yiy_iyi​)拟合的线性模型:
y^(x)=m^x+b^\widehat{y}(x)=\widehat{m}x+\widehat{b}y​(x)=mx+b   (6)

LINEST输出的10个统计参数含义如下:

  1. m,斜率的最小二乘估计值——通常为最佳拟合直线的斜率。
    m^\widehat{m}m=(n∑i=1nxiyi−(∑i=1nxi)(∑i=1nyi)(n∑i=1nxi2−(∑i=1nxi)2)\frac{(n\sum_{i=1}^nx_i y_i-(\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}{(n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2 )}(n∑i=1n​xi2​−(∑i=1n​xi​)2)(n∑i=1n​xi​yi​−(∑i=1n​xi​)(∑i=1n​yi​)​=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−yˉ)2\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{y})^2}∑i=1n​(xi​−yˉ​)2∑i=1n​(xi​−xˉ)(yi​−yˉ​)​=SSxySSxx\frac{SS_{xy}}{SS_{xx}}SSxx​SSxy​​   (7)

  2. b,截距的最小二乘估计值——通常为最佳拟合直线的截距。
    b^\widehat{b}b=(∑i=1nxi)2(∑i=1nyi)−(∑i=1nxiyi)(∑i=1nxi)(n∑i=1nxi2−(∑i=1nxi)2)\frac{(\sum_{i=1}^nx_i )^2 (\sum_{i=1}^ny_i)-(\sum_{i=1}^nx_iy_i)(\sum_{i=1}^nx_i)}{(n\sum_{i=1}^nx_i^2 -(\sum_{i=1}^nx_i)^2)}(n∑i=1n​xi2​−(∑i=1n​xi​)2)(∑i=1n​xi​)2(∑i=1n​yi​)−(∑i=1n​xi​yi​)(∑i=1n​xi​)​=yˉ−m^xˉ\bar{y}-\widehat{m}\bar{x}yˉ​−mxˉ   (8)

  3. n-p, 最小二乘回归自由度。有n个数据点,p = 2个回归参数(m和b)。在进行最小二乘计算之前,有n个自由度,计算斜率和截距时使用了两个自由度,在以后的计算中留下n-2个自由度。

  4. Sy,xS_{y,x}Sy,x​,y(x)的标准偏差(y(x)方差Sy,x2S_{y,x}^2Sy,x2​的平方根):
    Sy,x2S_{y,x}^2Sy,x2​=(1n−2)∑i=1n(yi−y^)2(\frac{1}{n-2})\sum_{i=1}^n(y_i-\widehat{y})^2(n−21​)∑i=1n​(yi​−y​)2=SSEn−2\frac{SS_E}{n-2}n−2SSE​​   (9)

  5. SmS_mSm​,坡度m^\widehat{m}m标准差(Sm2S_m^2Sm2​的平方根,m ̂的方差)。
    Sm2S_m^2Sm2​=S(y,x)2SSxx\frac{S_(y,x)^2}{SS_{xx}}SSxx​S(​y,x)2​   (10)

    其中Sy,x2S_{y,x}^2Sy,x2​是y(x)的方差(见方程9)。为了求得计算的\widehat{m}和\widehat{b}的置信区间,我们采用t分布和n-2自由度(Montgomery and Runger, 2011)。对于自由度大于或等于6,tα/2,n−2≥6≈2t_{α/2,n-2≥6}≈2tα/2,n−2≥6​≈2(α=0.05,误差为一个有效数字)。

    坡度95%置信区间(α=0.05):m^±t0.025,n−2Sm\widehat{m}±t_{0.025,n-2}S_mm±t0.025,n−2​Sm​ (11)
              ≅m^±2Sm\widehat{m}±2S_mm±2Sm​, (n−2)≥6(n-2)≥6(n−2)≥6  (12)

  6. SbS_bSb​,截距b ̂的标准差(Sb2S_b^2Sb2​的平方根,\widehat{b}的方差)。\widehat{b}的置信区间由SbS_bSb​和具有n-2自由度的t分布获得。
    Sb2S_b^2Sb2​=Sy,x2∑i=1nxi2nSSxx\frac{S_{y,x}^2 \sum_{i=1}^nx_i^2}{nSS_{xx}}nSSxx​Sy,x2​∑i=1n​xi2​​=Sy,x2(1n+xˉ2SS)S_{y,x}^2(\frac1n+\frac{\bar{x}^2}{SS})Sy,x2​(n1​+SSxˉ2​)   (13)

    截距95%置信区间(α=0.05):b^±t0.025,n−2Sb\widehat{b}±t_{0.025,n-2}S_bb±t0.025,n−2​Sb​ (14)
              ≅m^±2Sb\widehat{m}±2S_bm±2Sb​, (n−2)≥6(n-2)≥6(n−2)≥6  (15)

  7. 误差的残差平方和SSESS_ESSE​——数据yiy_iyi​和线性模拟值y^i\widehat{y}_iy​i​之差的平方和;一种线性模型y数据的误差度量。当SSESS_ESSE​→0时,所有的总误差SSTSS_TSST​都可以用线性模型来解释,可以认为线性模型是一个很好的拟合(方程2)。
    SSESS_ESSE​≡∑i=1n(yi−y^)2\sum\limits_{i=1}^n(y_i-\widehat{y})^2i=1∑n​(yi​−y​)2    (2)

  8. 回归平方和SSRSS_RSSR​——总平方和中可以用线性模型值解释的部分(方程3):
    SSRSS_RSSR​≡SST−SSESS_T-SS_ESST​−SSE​    (3)

  9. R2R^2R2决定系数——线性模型解释的yiy_iyi​变量分数:
    R2R^2R2=explainederrortotalerror\frac{explained error}{total error}totalerrorexplainederror​=SSRSST\frac{SS_R}{SS_T}SST​SSR​​=SST−SSESST\frac{SS_T-SS_E}{SS_T}SST​SST​−SSE​​

    当线性模型拟合很好时,数据yiy_iyi​与模型之间的偏差很小,SSESS_ESSE​→0,R2R^2R2=1。因此,决定系数是一种拟合优度的度量,该值越接近1,表明拟合的越好。但是,当拟合模型是一条水平线时,即y^\widehat{y}y​=y^\widehat{y}y​,则SSTSS_TSST​=SSESS_ESSE​,此时R2R^2R2为0。

  10. Fisher F 统计——用于回归测试,以查看使用两个参数(斜率和截距)是否优于使用一个参数(y^\widehat{y}y​=y^\widehat{y}y​;即坡度m为0,y=截距b)。回归统计F计算为两个量的比率,即模型能够解释的方差与模型不能解释的方差的比率:
    F=(′lackoffit′sumofsquares/v1)′pureerror′sumofsquares)/v2(\frac{'lack of fit' sum of squares/v_1)}{'pure error' sum of squares)/v_2}(′pureerror′sumofsquares)/v2​′lackoffit′sumofsquares/v1​)​=SSR/v1SST/v2\frac{SS_R/v_1}{SS_T/v_2}SST​/v2​SSR​/v1​​=SST−SSESy,x2\frac{SS_T-SS_E}{S_{y,x}^2}Sy,x2​SST​−SSE​​

    其中v1v_1v1​=1和v1v_1v1​=n-2是每个变量的自由度。这个比率是一个具有F(v1v_1v1​,v2v_2v2​)分布且自由度为v1v_1v1​=1和v1v_1v1​=n-2的随机变量的计算值。如果F>FcritF_critFc​rit,使用线性模型y^=m^x+b^\widehat{y}=\widehat{m}x+\widehat{b}y​=mx+b比使用模型y^\widehat{y}y​=yˉ\bar{y}yˉ​合理(在(1-α)%置信区间)。FcritF_critFc​rit对应于具有期望的α置信水平的F(v1v_1v1​,v2v_2v2​)分布的累积分布函数,自由度为v1v_1v1​和v2v_2v2​。

模型预测y^\widehat{y}y​=mx+b=mx+b=mx+b

  在方程12和15中,我们给出了两个模型参数m^\widehat{m}m和b^\widehat{b}b的95%置信区间。当模型参数m^\widehat{m}m和b^\widehat{b}b直接用于后续的计算时,这些置信区间适用于误差传播计算。
  当模型方程用于在选定的x值处估计y值时,具有不同的误差范围。这里讨论最常见的情况。
  用选定的x值估计最佳y值。任意点上y的最佳值是该点上y所有可能观测值的均值。设x的取值为xpx_pxp​, x在该点的最佳估计值为ypy_pyp​,由下式给出:
yp=m^xp+b^y_p=\widehat{m}x_p+\widehat{b}yp​=mxp​+b   (18)
ypy_pyp​的方差由方程18和误差传播计算而来,斜率和截距不是独立的变量增加了其复杂性,因此m^\widehat{m}m和b^\widehat{b}b之间的协方差非零。y在xpx_pxp​处的均值方差为:
  y在xpx_pxp​的均值方差:Sy,x2(1n+(xp−xˉ)2SSxx)S_{y,x}^2(\frac1n+\frac{(x_p-\bar{x})^2}{SS_{xx}})Sy,x2​(n1​+SSxx​(xp​−xˉ)2​)  (19)
y在y_p处的均值置信区间根据符合t分布且自由度为(n-2)的标准差得到(Montgomery and Runger, 2011):
y在xpx_pxp​的均值置信区间:
(m^xp+b^)±t(α/2,n−2≥6)sy,x1n+(xp−xˉ)2SSxx(\widehat{m}x_p+\widehat{b})±t_{(α/2,n-2≥6)} s_{y,x}\sqrt{{\frac1n}+\frac{(x_p-\bar{x})^2}{SS_{xx}}}(mxp​+b)±t(α/2,n−2≥6)​sy,x​n1​+SSxx​(xp​−xˉ)2​​  (20)

方程20是基于最小二乘法最佳拟合得到的y值误差的合理区间(图5)。由此可知。误差条在回归(xˉ\bar{x}xˉ,yˉ\bar{y}yˉ​)的中心点附近最窄,并向两端呈扇形展开。这反映了这样一个事实,即斜率的不确定性使得x范围两端的值不如中心附近的点确定。


图5. 图1中数据的拟合线(红色)与95%置信区间。外层的一对线(绿色和紫色)反映了在每个x值处y新值的95%预测区间。

References

[1]: D. C. Montgomery and G. C. Runger., 2011. Applied Statistics and Probability for Engineers, 5th edition (Wiley, New York).
[2]: Morrison, F. A., 2014. Obtaining uncertainty measures on slope and intercept of a least squares fit with Excel’s LINEST. Houghton, MI: Department of Chemical Engineering, Michigan Technological University. Retrieved August, 2014, 6: 2015.
[3]: R. H. McCuen., 1985. Statistical Methods for Engineers (Prentice Hall, Englewood Cliffs, NJ).
[4]: Wikipedia., 2014. “Ordinary Least Squares,” Wikipedia, the Free Encyclopedia, en.wikipedia.org/wiki/Ordinary_least_squares, accessed 14 July 2014.

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性相关推荐

  1. 利用对位相乘法计算线性卷积-附Matlab代码

    目录 1.线性卷积原理 2.利用对位相乘法计算线性卷积 3.Matlab实操 3.1源代码 3.2仿真结果 线性卷积原理 公示(1)为两个离散非周期序列进行线性卷积 一般我们计算线性卷积时使用图解法最 ...

  2. 利用EXCEL函数LINEST进行统计学中的回归分析

    文章来源:实战统计学 作者:梁斌炜 本文介绍统计学中的一元和多元线性回归,并通过EXCEL自带的统计函数LINEST.INDEX进行手工计算,再通过EXCEL数据分析工具包进行自动计算. 由于很多复杂 ...

  3. 小工具,大作用:教你如何利用EXCEL函数LINEST做回归分析

    前言 本文介绍统计学中的一元和多元线性回归,并通过EXCEL自带的统计函数LINEST.INDEX进行手工计算,再通过EXCEL数据分析工具包进行自动计算. 由于很多复杂的EXCEL自动化程序,需要用 ...

  4. 利用Excel VBA批量计算长时间序列植被物候动态阈值(逐像元)

    本文演示利用Excel VBA编程实现多期栅格数据,逐像元计算物候参数:生长季始期(SOS).生长季末期(EOS)和生长季长度(LOS),计算过程速度快! 说明: (1)利用Raster to Poi ...

  5. excel线性拟合的斜率_协方差分析:方差分析与线性回归的统一

    转自个人微信公众号[Memo_Cleon]的统计学习笔记:协方差分析:方差分析与线性回归的统一. 在进行数据分析时,有时候我们会遇到数据基线不平的情况,比如两样本的t检验的示例,比较Labe和Meto ...

  6. excel线性拟合的斜率_邵励治的机器学习 2 / 100 天:「简单线性回归」

    前言 好了,我们闲言碎语不多讲,下面开始 机器学习100天:第2天 的学习! 另外,如果看官老爷喜欢我的文章,还请点个赞的说! 这是对我的认真分享最好的鼓励! 知识储备环节 今天我们学习的内容是:&q ...

  7. 利用Excel函数多角度计算个人所得税

    新个税征收方法已与2011年9月1日起施行,但计算方法变更改后,有关这方面的计算方法在网络论坛上讨论较多,但在新旧交替时期正误混杂,新人难以分辨.在现实中根本就找不到这方面的经典计算方法,ExcelH ...

  8. 利用excel表建立一元线性回归方程

    本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择"工具"-"加载宏",然后选择加载"分析工具库"(2003版 ...

  9. 利用Excel VBA批量计算气象数据多个台站多年来春季和冬季降水量和平均气温

    气象数据是地理数据的重要组成部分,存储量虽然不大,但是处理过程非常繁琐,长时序数据更不用说.本文总结了一个气象数据的基本处理方法. 如下图所示,气象数据的排列格式是区站号→年→月→降水量→平均气温,时 ...

  10. EXCEL利用数组公式求多组数据的斜率、截距 或者其他。

    ----这样的算法内容放在Python里面是方便实现的.但是大多数的基层数据分析师的工作使用工具还是excel.所以分享一个多组数据的中位数.四分位数等等.求解其线性回归方程的方法. 不用一组一组数据 ...

最新文章

  1. swift 运算符和控制流程
  2. 源码剖析Django REST framework的认证方式及自定义认证
  3. 微信公众平台开发入门教程[2019版]
  4. 【JZOJ4307】喝喝喝
  5. KOFLive Postmortem
  6. 使用Maven和WebLogic 12c开发Java EE应用程序
  7. 【流媒体FLV封装协议】
  8. Java ObjectOutputStream reset()方法与示例
  9. Android学习笔记---08_短信发送器的制作
  10. 一题多解(六)—— 一个数二进制形式 1 的个数
  11. 企业class类命名规范
  12. VueCli4学习笔记
  13. 树莓派入门笔记(七)用Vlmcsd搭建Kms服务---2020-03-28 (1113)
  14. android 横屏字体变小,android屏幕大小,字体大小,横屏竖屏切换问题
  15. 深圳居住证微信续签,续期
  16. ensp路由器MTU设置1200后,ping不通丢包问题
  17. 连续七年 领跑未来丨山石网科入选Gartner 2020网络防火墙魔力象限
  18. NVMe SSD测试为何要先做预处理?
  19. 电视机与计算机共享,终于实现电视与电脑共享了!与大家分享!
  20. php获取股票接口数据接口,「股票数据」 使用Sina API获取新浪财经的证券股票数据接口(时价 K线等)...

热门文章

  1. 搜索引擎技术揭密:网络蜘蛛
  2. 【高效复习】《数据库系统概论》王珊版
  3. 有备无患:避免文件丢失的可行方案
  4. 什么是cmm3规范?什么是CMMI5 呢?
  5. Windows下C语言网络编程快速入门 1
  6. echarts源码打包_Echarts模块v1.5更新【更新支持多线程,封装大量快速方法,增加史上最详细示例】...
  7. DEM数据下载、镶嵌等问题
  8. Python解析JSON对象
  9. x5内核有什么优点_关于接入腾讯X5内核的一些坑(不断更新)
  10. 爬虫:如何爬取国家行政区划代码