作者:陈凤 (西安交通大学)

Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集

连享会计量方法专题……

文章目录

    • 连享会计量方法专题……
  • 1. 地理加权回归模型简介
  • 2. 地理加权回归模型的参数估计方法
    • 连享会计量方法专题……
  • 3. 常用的核函数
    • 3.1. Gussian kernel function
    • 3.2. Bi-square kernel function
    • 3.3. K-nearest neighbor kernel function
  • 4. 窗宽h的选择准则
    • 4.1. 交叉确认方法(Cross-validation (CV) criterion)
      • 连享会计量方法专题……
    • 4.2. 广义交叉确认方法(Generalized cross-validation (GCV) criterion)
    • 4.3. AICc信息准则(Corrected Akaike information criterion (AICc))
      • 连享会计量方法专题……
  • 4. 在 R 软件运行地理加权回归模型
  • 5. 参考文献
    • 关于我们

1. 地理加权回归模型简介

空间数据在地理学、经济学、环境学、生态学以及气象学等众多领域中广泛存在。根据 Tobler 提出的 「地理学第一定律」:任何事物之间都是空间相关的,距离越近的事物之间的空间相关性越大。因此,不同于传统的截面数据,空间数据的空间相关性会导致回归关系的空间非平稳性 (空间异质性)。为了探索空间数据的空间非平稳性, Brunsdon 等 (1996) 首次提出了 地理加权回归模型,设定如下:

Yi=β0(ui,vi)+∑j=1pβj(ui,vi)Xij+εi(1)Y_i=\beta_0(u_i,v_i)+\sum_{j=1}^p\beta_j(u_i,v_i)X_{ij}+\varepsilon_i \tag{1}Yi​=β0​(ui​,vi​)+j=1∑p​βj​(ui​,vi​)Xij​+εi​(1)

其中,βj(u,v)(j=0,1,⋯,p)\beta_j(u,v)\ (j=0,1,\cdots,p)βj​(u,v) (j=0,1,⋯,p) 为 「空间地理位置函数」

以某城市的房屋价格 YYY 和房屋面积 XXX 为例, 如果不考虑房屋的地理位置信息,可以建立一个简单的线性回归模型:

Yi=βXi+εi(2)Y_i=\beta X_i+\varepsilon_i \tag{2}Yi​=βXi​+εi​(2)

其中,β\betaβ 为房屋的单位面积均价。实际中,处于不同位置的房屋价格可能会相差甚远,但是模型 (2)(2)(2) 却不能反映出这种异质性。因此,为了能够描述不同位置房屋价格的差异性,我们可以建立如下模型:

Yi=β(ui,vi)Xi+εi(3)Y_i=\beta(u_i,v_i)X_i+\varepsilon_i \tag{3}Yi​=β(ui​,vi​)Xi​+εi​(3)

其中,β(u,v)\beta(u,v)β(u,v) 是地理位置的函数。相比于模型 (2)(2)(2),模型 (3)(3)(3) 可以反映房屋价格随地理位置的变化而变化的规律。

上述例子说明有必要对空间数据建立地理加权回归模型来探索空间数据的非平稳性。

2. 地理加权回归模型的参数估计方法

根据 Tobler 地理学第一定律,距离越近的事物之间的相关性越大。故对于一个给定的地理位置(u0,v0)(u_0,v_0)(u0​,v0​),可以采用局部加权最小二乘来估计 βj(u0,v0)(j=0,1,⋯,p)\beta_j(u_0,v_0)\ (j=0,1,\cdots,p)βj​(u0​,v0​) (j=0,1,⋯,p),即

min⁡∑i=1n[yi−∑j=1pβj(u0,v0)xij]2wi(u0,v0)(4)\min \sum_{i=1}^n [y_i-\sum_{j=1}^p\beta_j(u_0,v_0)x_{ij}]^2w_i(u_0,v_0) \tag{4} mini=1∑n​[yi​−j=1∑p​βj​(u0​,v0​)xij​]2wi​(u0​,v0​)(4)

其中,{wi(u0,v0)}i=1n\{w_i(u_0,v_0)\}_{i=1}^n{wi​(u0​,v0​)}i=1n​ 是在地理位置 (u0,v0)(u_0,v_0)(u0​,v0​) 处的空间权重。令 β(u0,v0)=(β0(u0,v0),β1(u0,v0),⋯,βp(u0,v0))T,\boldsymbol \beta(u_0,v_0)=(\beta_0(u_0,v_0),\beta_1(u_0,v_0),\cdots,\beta_p(u_0,v_0))^{\rm T},β(u0​,v0​)=(β0​(u0​,v0​),β1​(u0​,v0​),⋯,βp​(u0​,v0​))T, 则 β(u0,v0)\boldsymbol \beta(u_0,v_0)β(u0​,v0​) 在 (u0,v0)(u_0,v_0)(u0​,v0​) 处的局部最小二乘估计值为

β^(u0,v0)=(XTW(u0,v0)X)−1XTW(u0,v0)Y(5)\hat{\boldsymbol \beta}(u_0,v_0)=\left(\boldsymbol X^{\rm T}\boldsymbol W(u_0,v_0)\boldsymbol X\right)^{-1}\boldsymbol X^{\rm T}\boldsymbol W(u_0,v_0)\boldsymbol Y \tag{5}β^​(u0​,v0​)=(XTW(u0​,v0​)X)−1XTW(u0​,v0​)Y(5)

其中,

X=(X0,X1,⋯,Xp),Xj=(x1j,x2j,⋯,xnj)T;\boldsymbol X=(\boldsymbol X_0,\boldsymbol X_1,\cdots,\boldsymbol X_p), \boldsymbol X_j=(x_{1j},x_{2j},\cdots,x_{nj})^{\rm T};X=(X0​,X1​,⋯,Xp​),Xj​=(x1j​,x2j​,⋯,xnj​)T;

Y=(Y1,Y2,⋯,Yn)T;\boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)^{\rm T}; Y=(Y1​,Y2​,⋯,Yn​)T;

W(u0,v0)=Diag(w1(u0,v0),w2(u0,v0),⋯,wn(u0,v0)).\boldsymbol W(u_0,v_0)={\rm Diag}\left(w_1(u_0,v_0),w_2(u_0,v_0),\cdots,w_n(u_0,v_0)\right).W(u0​,v0​)=Diag(w1​(u0​,v0​),w2​(u0​,v0​),⋯,wn​(u0​,v0​)).

令 (u0,v0)=(ui,vi),i=1,2,⋯,n(u_0,v_0)=(u_i,v_i), i=1,2,\cdots,n(u0​,v0​)=(ui​,vi​),i=1,2,⋯,n,则可以由公式 (5)(5)(5) 得到回归函数 β(u,v)\boldsymbol \beta(u,v)β(u,v)在所有观测位置处的局部估计值。

注1: βj(u,v)(j=0,1,⋯,p)\beta_j(u,v)\ (j=0,1,\cdots,p)βj​(u,v) (j=0,1,⋯,p) 可以在任意位置处被估计。因此,GWR 模型也可以作为空间数据的插值工具。
注2: 在 (u0,v0)(u_0,v_0)(u0​,v0​) 处,β(u0,v0)\boldsymbol \beta(u_0,v_0)β(u0​,v0​) 的 GWR 估计值和如下线性模型的最小二乘估计是等价的:

wi(u0,v0)Yi=∑j=1pwi(u0,v0)xijβj(u0,v0)+εˉi,i=1,2,⋯,n.(6)\sqrt{w_i(u_0,v_0)}Y_i=\sum_{j=1}^p\sqrt{w_i(u_0,v_0)}x_{ij}\beta_j(u_0,v_0)+\bar{\varepsilon}_i, i=1,2,\cdots,n. \tag{6}wi​(u0​,v0​)​Yi​=j=1∑p​wi​(u0​,v0​)​xij​βj​(u0​,v0​)+εˉi​,i=1,2,⋯,n.(6)

连享会计量方法专题……

3. 常用的核函数

在核光滑方法中,常用的核函数如下:

3.1. Gussian kernel function

wi(uj,vj)=Kh(dij)=12πexp⁡(−12(dijh)2),w_i(u_j,v_j)=K_h(d_{ij})=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{1}{2}\left(\frac{d_{ij}}{h}\right)^2\right),wi​(uj​,vj​)=Kh​(dij​)=2π​1​exp(−21​(hdij​​)2),

其中,hhh 为窗宽,dijd_{ij}dij​ 为点 (ui,vi)(u_i,v_i)(ui​,vi​) 和 (uj,vj)(u_j,v_j)(uj​,vj​) 之间的距离。

3.2. Bi-square kernel function

wi(uj,vj)=Kh(dij)={[1−(dijh)2]2,∣dij∣<h;0,∣dij∣>h.w_i(u_j,v_j)=K_h(d_{ij})=\left\{ \begin{array}{rcl} \left[1-\left(\frac{d_{ij}}{h}\right)^2\right]^2, & \left|d_{ij}\right|<h; \\ 0,& \left|d_{ij}\right|>h. \end{array}\right. wi​(uj​,vj​)=Kh​(dij​)=⎩⎨⎧​[1−(hdij​​)2]2,0,​∣dij​∣<h;∣dij​∣>h.​

给一个hhh,(ui,vi)(u_i,v_i)(ui​,vi​)处自变量的观测值对(u0,v0)(u_0,v_0)(u0​,v0​)处因变量的权重wi(u0,v0)w_i(u_0,v_0)wi​(u0​,v0​)如下所示。

3.3. K-nearest neighbor kernel function

给定KKK,dikd_{ik}dik​为(ui,vi)(u_i,v_i)(ui​,vi​)到第KKK个邻近点的距离,则

wi(uj,vj)=Kh(dij)={[1−(dijdik)2]2,∣dij∣<dik;0,∣dij∣>dik.w_i(u_j,v_j)=K_h(d_{ij})=\left\{ \begin{array}{rcl} \left[1-\left(\frac{d_{ij}}{d_{ik}}\right)^2\right]^2, & \left|d_{ij}\right|<d_{ik}; \\ 0,& \left|d_{ij}\right|>d_{ik}. \end{array}\right. wi​(uj​,vj​)=Kh​(dij​)=⎩⎨⎧​[1−(dik​dij​​)2]2,0,​∣dij​∣<dik​;∣dij​∣>dik​.​

对于任意的观测点来说,KKK近邻核函数总是保持有KKK个观测点的空间权重不为零,如下所示。

4. 窗宽h的选择准则

在地理加权回归模型中,常用的最优窗宽选取准则有交叉确认方法、广义交叉确认方法以及AICc信息准则。这三种准则的定义分别如下所示。

4.1. 交叉确认方法(Cross-validation (CV) criterion)

交叉确认方法的具体过程如下:给定一个 hhh, 去掉第 iii 组观测值 (Yi,Xi)(Y_i,X_i)(Yi​,Xi​),用剩下的 (n−1)(n-1)(n−1) 组数据在给定的 hhh下进行地理加权回归参数估计,然后得到在 XiX_iXi​ 处的拟合值Y^(−i)(h)\hat{Y}_{(-i)}(h)Y^(−i)​(h)。令

CV(h)=1h∑i=1n(Yi−Y^(−i)(h))2,{\rm CV}(h)=\frac{1}{h}\sum_{i=1}^n\left(Y_i-\hat{Y}_{(-i)}(h)\right)^2,CV(h)=h1​i=1∑n​(Yi​−Y^(−i)​(h))2,

则最优窗宽 h0h_0h0​ 的选取如下:

h0=arg⁡min⁡h>0CV(h)h_0=\arg\min\limits_{h>0} {\rm CV}(h)h0​=argh>0min​CV(h)

连享会计量方法专题……

4.2. 广义交叉确认方法(Generalized cross-validation (GCV) criterion)

Y^(h)=(Y^1(h),Y^2(h),⋯,Y^n(h),)T=L(h)Y,\hat{\boldsymbol Y}(h)=\left(\hat{Y}_1(h),\hat{Y}_2(h),\cdots,\hat{Y}_n(h),\right)^{\rm T}=\boldsymbol L(h)\boldsymbol Y,Y^(h)=(Y^1​(h),Y^2​(h),⋯,Y^n​(h),)T=L(h)Y,

其中,L(h)\boldsymbol L(h)L(h) 为 “帽子” 矩阵,令

GCV(h)=n(n−tr(L(h)))2∑i=1n(Yi−Y^i(h))2,{\rm GCV}(h)=\frac{n}{\left(n-tr(\boldsymbol L(h))\right)^2}\sum_{i=1}^n\left(Y_i-\hat{Y}_{i}(h)\right)^2,GCV(h)=(n−tr(L(h)))2n​i=1∑n​(Yi​−Y^i​(h))2,

则最优窗宽 h0h_0h0​ 的选择标准为:

h0=arg⁡min⁡h>0GCV(h)h_0=\arg\min\limits_{h>0} {\rm GCV}(h)h0​=argh>0min​GCV(h)

4.3. AICc信息准则(Corrected Akaike information criterion (AICc))

令 Y^(h)=L(h)Y\hat{\boldsymbol Y}(h)=\boldsymbol L(h)\boldsymbol YY^(h)=L(h)Y, ε^=YT(In−L(h))T(In−L(h))Y\hat{\boldsymbol\varepsilon}=\boldsymbol Y^{\rm T}(\boldsymbol I_n-\boldsymbol L(h))^{\rm T}(\boldsymbol I_n-\boldsymbol L(h))\boldsymbol Yε^=YT(In​−L(h))T(In​−L(h))Y,则有

AICc(h)=log⁡(1nε^Tε^)+n+tr(L(h))n−2−tr(L(h)).{\rm AICc}(h)=\log\left(\frac{1}{n}\hat{\boldsymbol\varepsilon}^{\rm T}\hat{\boldsymbol\varepsilon}\right)+\frac{n+tr(\boldsymbol L(h))}{n-2-tr(\boldsymbol L(h))}.AICc(h)=log(n1​ε^Tε^)+n−2−tr(L(h))n+tr(L(h))​.

最优窗宽 h0h_0h0​ 的选取如下:

h0=arg⁡min⁡h>0AICc(h)h_0=\arg\min\limits_{h>0}{\rm AICc}(h)h0​=argh>0min​AICc(h)

AICc\rm AICcAICc 准则选择最优窗宽如下所示:

注:模拟实验以及经验表明,CV\rm CVCV 和 GCV\rm GCVGCV 准则一般会趋于确定一个稍微偏小的窗宽h0h_0h0​,而较小的窗宽会使得回归函数的估计值偏差减小,但是方差会增大。因此,会出现过拟合现象。但是对于 AICc\rm AICcAICc 在很多情况下可以较好的克服过拟合现象,即趋于确定一个更合理的窗宽。

连享会计量方法专题……

4. 在 R 软件运行地理加权回归模型

在R软件中,可以调用 Rpacakge-GWmodel (Lu, B. B, et al. 2014) 来实现地理加权回归模型的参数过程。以都柏林 2014 年的选举数据为例,下面介绍 GWR 在 R 中的实现过程:

# 1. 加载 Rpacakge:
library("GWmodel")# 2. 加载数据
data(DubVoter)# 3. 选择最优窗宽
Dub<cbind(Dub.voter\$DiffAdd,Dub.voter\$LARent,Dub.voter\$SC1,Dub.voter\$Unempl,Dub.voter\$LowEduc,Dub.voter\$Age18_24,Dub.voter\$Age25_44,Dub.voter\$Age45_64,Dub.voter\$GenEl2004)
DubCoord<-cbind(Dub.voter\$X,Dub.voter\$Y) %地理位置
DIS<-gw.dist(dp.locat=DubCoord)% 计算距离矩阵
bw1<bw.gwr(GenEl2004~DiffAdd+LARent+SC1+Unempl+LowEduc+Age18_24+Age25_44+Age45_64, approach="AICc",adaptive=TRUE, data=Dub.voter, kernel = "bisquare",dMat=DIS) %选择bi-square函数作为核函数,使用AICc准则选择最优窗宽# 4. 拟合GWR模型
gwr.res1<gwr.basic(GenEl2004~DiffAdd+LARent+SC1+Unempl+LowEduc+Age18_24+Age25_44+Age45_64, data=Dub.voter, bw=bw1,adaptive=TRUE,kernel = "bisquare", dMat=DIS)# 5. 将局部估计值画在对应的地图上面
library("RColorBrewer")
Mcolor<-1;mypalette <- colorRampPalette(brewer.pal(9, "Greys"))(200)
map.na=list("SpatialPolygonsRescale", layout.north.arrow(),offset=c(329000, 261500), scale=4000,col=1)
map.scale.1=list("SpatialPolygonsRescale",layout.scale.bar(),offset=c(326500, 217000), scale=5000,col=1,fill=c("transparent","black"))
map.scale.2=list("sp.text",c(326500, 217900),"0",cex=0.9,col=1)
map.scale.3=list("sp.text",c(331500, 217900),"5km",cex=0.9,col=1)
map.layout<-list(map.na,map.scale.1,map.scale.2,map.scale.3)
mypalette.9<-brewer.pal(9,"Greys")
spplot(gwr.res1$SDF, "LowEduc",key.space="right",col.regions=mypalette.6, at=c(-8,-6,-4,-2,0,2,4),sp.layout=map.layout)

在都柏林 2014 年选择数据中,使用 AICc 准则确定的最优窗宽为 115,其中变量 LowEduc 的回归系数的局部估计值如下:

5. 参考文献

  • Brunsdon, C. E, Fotheringham, A. S. and Charlton, M. E., 1999. Some notes on parametric significance test for geographically weighted regression. Journal of Regional Science, 39 (3): 497–524. [PDF]
  • 梅长林, 王宁. 近代回归分析方法 [M]: 北京:科学出版社, 2012.
  • Lu, B. B., Harris, P., Charlton, M. and Brunsdon, C., 2014. The GWmodel R package: further topics for exploring spatial heterogeneity using geographically weighted models. Geo-spatial Information Science, 17 (2): 85–101. [PDF]

关于我们

  • 「Stata 连享会」 由中山大学连玉君老师团队创办,定期分享实证分析经验, 公众号:StataChina
  • 公众号推文同步发布于 CSDN 、简书 和 知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
  • 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
  • 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
  • E-mail: StataChina@163.com
  • 往期推文:计量专题 || 精品课程 || 简书推文 || 公众号合集


地理加权归回模型 (GWR) 参数估计相关推荐

  1. GWmodel | 地理加权模型(Ⅱ-1):地理加权主成分分析(GWPCA)

    地理加权回归(GWR)相比于普通的回归模型能够考虑到回归系数的空间异质性.但实际上,地理加权并非GWR模型所独有,其他数据分析方法同样也能通过加入地理权重进行改进.本篇介绍的就是地理加权主成分分析(G ...

  2. 地理加权回归 | 模型如何应用于新数据的预测?

    专注系列化.高质量的R语言教程 推文索引 | 联系小编 | 付费合集 有读者不知道如何用地理加权回归去预测新的数据.本篇以常用的两个工具包为例进行介绍. 本篇目录如下: 0 数据准备 1 spgwr工 ...

  3. R语言GWR地理加权回归

    最近需要用到GWR地理加权回归,数据量有5万条,使用了GIS.GWR4进行计算,但都没能成功.应该是数据量过大. 参考相关博客,还有一个方法是R语言的实现.因为没怎么接触过R语言,所有想请问一下各位, ...

  4. spgwr | R语言与地理加权回归(Ⅰ-2):广义线性地理加权回归

    本篇来介绍基于广义线性模型的地理加权模型.广义线性模型包括Logistic模型.泊松模型等系列回归模型,具体内容请查看数学模型专辑的相关系列推文. 广义线性GWR的使用方法与线性GWR类似: ggwr ...

  5. spgwr | R语言与地理加权回归(Ⅰ-1):线性地理加权回归

    地理加权回归(Geographically Weighted Regression, GWR)经过多年发展,已经具备了多种形式,在R语言中也对应着多个工具包,其中spgwr是一个开发较早.比较经典的工 ...

  6. ArcGIS与地理加权回归【三】

    开   工    大    急 原址链接: ArcGIS与地理加权回归[三]https://mp.weixin.qq.com/s/x85EXKImSHio1IZovW9qdA 接着5个月之前..... ...

  7. gis中的加权求和工具在哪里_干货分享 | 地理加权回归介绍及其arcgis软件操作

    一.地理加权回归模型概述 橘生淮南则为橘,生于淮北则为枳,叶徒相似,其实味不同.所以然者何?水土异也.--<晏子春秋·内篇杂下>这段文字很好的描述了空间异质性.从地理空间的角度,经济发展尤 ...

  8. 白话空间统计二十四:地理加权回归(八)结果解读(一)

    地理加权回归分析完成之后,与OLS不同的是会默认生成一张可视化图,像下面这张一样的: 这种图里面数值和颜色,主要是系数的标准误差.主要用来衡量每个系数估计值的可靠性.标准误差与实际系数值相比较小时,这 ...

  9. R语言地理加权回归数据分析

    在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力.以地理加权回归为基础的一系列方法:经典地理加权 ...

  10. 机器学习(一):模型的参数估计方法

    机器学习(一):模型的参数估计方法 前言:   之前在看李航的<统计学习方法>,思考的同时打算对于其中一些问题做一些总结和记录,希望以后再看的时候能够有更深入的理解. 文章目录 机器学习( ...

最新文章

  1. ui-router中使用ocLazyLoad和resolve
  2. css sprite技巧详解
  3. 数据治理的理论实践与发展趋势
  4. linux++tar打包目录,linux中tar命令打包目录与排除目录打包linux操作系统 -电脑资料...
  5. 从尾到头打印链表---剑指Offer
  6. UVAlive 6131 dp+斜率优化
  7. 正则表达式提取器_C++11新特性7 - 正则表达式
  8. 信息学奥赛一本通(1314:【例3.6】过河卒(Noip2002))
  9. 使用Elizabeth为您的应用程序生成随机数据
  10. c语言做心理测试程序,求各位大神赐教!我做了一个“心理测试的答题卷”编程,总共有1...
  11. 2如何看表分区字段_技术分享|Oracle分区技术的实现总结
  12. NOIP欢乐模拟赛 T1 解题报告
  13. CentOS7查看开放端口命令及开放端口号
  14. ArcGIS 泛克里金插值
  15. Visual Studio 2012 激活码
  16. 我读《DOOM启世录》——成为一个真正厉害的人
  17. [渝粤教育] 宁波财经学院 创业机会识别 参考 资料
  18. 白+黑(白利用)漏洞加载木马技术解析
  19. php js 美国时间转换,洛杉矶时间换算(世界时间换算器在线)
  20. 读书笔记:技术的本质-技术是什么,它是怎样进化的 (布莱恩•阿瑟)

热门文章

  1. win和linux双系统安装教程
  2. Java基础-API手册
  3. cron表达式解析生成网站
  4. 测试工程师Docker基础
  5. javaScript高级程序设计.pdf 你不知道的JavaScript
  6. 2021数据结构学习笔记(严蔚敏版)
  7. 互联网视频直播技术(广电总局、优酷土豆、XX直播)
  8. python训练聊天机器人词库_[ ChatterBot聊天机器人 ] ChatterBot训练数据以及使用三方语料库训练数据 - pytorch中文网...
  9. BIM族库下载——塔吊等垂直运输设备族库
  10. python贪心算法几个经典例子_贪心算法及几个经典例子