泰尔指数r语言_EG指数：从繁琐到简单

【导读】

前已述及计算产业空间集中度的区位基尼系数和泰尔指数。这两个指数有一个重大缺陷，即没有消除产业内企业规模分布的影响。EG指数针对这种缺陷，做了修正，从而能更为准确地衡量产业空间集中度。然而，它对数据提出了更高要求。

在测度产业空间集中度时，常用的指标是区位基尼系数和泰尔指数。这两个指数基本上是根据产业活动在各区域间分布的份额差异计算出的，忽略了产业内企业规模分布的影响。从微观角度来考察，产业活动在各区域间的分布份额如何，是产业内企业在各区域间进行区位选择的结果。这就带来一个问题，规模大的企业，无论其选址在哪个区域，都会造成那个区域的产业份额增大，从而使我们计算出的高基尼系数值或是高泰尔指数值，很有可能不是产业集聚的结果，而仅仅是该产业集中度很高的结果(注意区分高产业集中度和高产业空间集中度的涵义，前者指产业经济活动集中在少数几家大企业，后者指产业经济活动集中在少数几个区域)。让我们举一个夸张的例子，假设有10家企业，10个区域，其中一家企业的经济活动占据了该产业全部经济活动的90%，其他9家均摊剩下的10%，则就算在完全分散情况下(每家企业分属一个区域)，其区位基尼系数值仍高达0.8，这显然是不合理的。EG指数正是针对这种情况提出来的。

一、原理与公式

EG指数由Ellison & Glaeser(1997)提出。其原理大致为：假设行业内有n个企业，面向m个区域选址。随机状态下，单个企业的选址过程可想象为拿着一个飞镖，面对挂在墙上的一幅地图随机投掷(投掷点必须在地图内，该地图由m个区域分割)，其落点即为企业位置。所有企业这样投掷完后，就可以观察到产业内企业在区域间的分布情况，将各区域内的企业经济活动汇总，即可得到m个区域对该产业的空间分割，从而计算出产业在各区域间分布的空间不均衡度(即空间集中度)。在随机选址情况下，各企业的区位选择都是随机独立的，企业落点不会呈现出明显模式。

在集聚力影响下，企业会倾向在某地选址，从而呈现出空间上明显的不均衡格局。Ellison & Glaeser (1997)区分了两种集聚力：一是自然优势造成的。如造船业，倾向集聚在港口城市。因此，在有港口的区域，造船企业选择的概率要高很多，从而造成这些企业在港口区域的集中。二是企业集聚外部性造成的。企业集聚在一起，会享有其他企业所带来的好处，如在知识学习、劳动力聘解、产品贸易方面的低代价、高效率和便利性等。这种外部性使得企业选址不是独立的，而是相互影响的。如果已经有相当数量的企业选址在了某地，形成了集聚外部性，则其他企业同样选择在该地的概率就会增高。

根据以上思想，Ellison & Glaeser (1997)将企业视为追求利润最大化的个体，在选址时，其将选择能给它带来最大利润的区域。而其利润如何，主要取决于三方面因素：一是区域本身的自然条件，而是区域内企业“抱团”形成的集聚经济，三是企业自身特征。据此Ellison & Glaeser

(1997)构造了企业选址的数理公式，然后根据一定的统计模型和假设，推出了以下计算产业空间集中度的EG公式(具体过程见Ellison & Glaeser, 1997)：

其中M为地理单元的个数，Si为第i个地理单元中某行业就业人数占该行业总就业人数的比重；Xi为第i个地理单元所有行业就业人数占整个地区所有行业就业人数的比重，代表总体集聚程度，反映的是某行业相对于全体行业地理分布的偏离程度。N为企业个数，Zj为第j个企业就业人数占该行业所有就业人数的比重，用来计算产业的赫芬达尔指数，反映企业的规模分配情况。一般认为EG指数>0.05时，产业高度集聚，小于0.02时，产业集聚度低。

EG指数是根据企业选址的关联性得出的，其衡量的是企业“共同选址”的关系强弱，因此可有效地避免企业规模差异对总体集聚程度的影响。

二、R程序计算

根据以上公式，编写计算区位基尼系数的函数geo.eg()，其参数设定说明如下：

geo.eg(s, x, h)

其中，s为各区域产业经济活动规模数值向量，x为各区域总体经济活动规模数值向量，h为赫芬达尔指数，均需要事前计算获得。

如同geo.gini()和geo.theil()一样，s、x向量不能含缺失值，且和大于0。

数据“ind2007.csv”为中国2007年规模以上制造业企业劳动力数据，包含三列：第一列region为各省二位数行政区划代码，第二列industry为制造业二位数行业代码，第三列employees为单个企业的劳动力人数。根据这三列数据，即可批量计算出各制造业的EG指数，代码如下：

代码

# 设置代码和数据所在的工作文件夹

# 可在D盘下设一文件夹eg,将代码和数据拷入其中，从而工作文件夹可设为"D:\\eg"

# 注意地址分隔符用"\\"而不是"\"

> setwd("D:\\eg")

> source("geo_eg.R")

> mydata

read.csv("ind2007.csv", stringsAsFactors = F)

> head(mydata)

region industry employees

1 11 41 521

2 11 39 241

3 11 23 593

4 11 40 777

5 11 36 643

6 11 42 770

# 首先计算各制造业的赫芬达尔指数

> h

# 得到省份和行业的交叉汇总表，便于计算各省份的行业占比和全部行业占比

> twoway.table

> twoway.table[is.na(twoway.table)]

# x为各省份的全部行业劳动力数占比向量

> row.s

> x

# s为矩阵，每列为各省份的某行业占比向量

> s

function(emp) emp / sum(emp))

> s

# 批量计算各行业的EG指数

> egs

= list(x = x))

> print(egs)

13 14 15 16 17

0.066578414 0.028285242 0.035770456

0.068807238 0.019751212

18 19 20 21 22

0.015454212 0.063899927 0.023599381

0.038373143 0.005789296

23 24 25 26 27

0.019424511 0.097786016 0.100835132

0.023442235 0.026277910

28 29 30 31 32

0.052550547 0.007726546 0.025463659

0.019161619 0.058925452

33 34 35 36 37

0.032086577 0.015058101 0.024160381

0.007889176 0.021896267

39 40 41 42 43

0.036569502 0.084458795 0.027174038 0.032228545

0.031459727

参考文献：

[1] Ellison, G., & Glaeser, E. L. 1997. Geographic

concentration in U.S. manufacturing industries: A dartboard approach. Journal

of Political Economy, 105(5): 889-927.

数据和代码下载请关注微信公众号：“思达区域经济研究方法”，SDAR-workshop

扫码或长按，关注该微信号

网络链接

3、人大经济论坛账号：R语言区域经济

4、知乎账号：sdar

泰尔指数r语言_EG指数：从繁琐到简单相关推荐

【视频】Python和R语言使用指数加权平均(EWMA)，ARIMA自回归移动平均模型预测时间序列...
原文链接:http://tecdat.cn/?p=21773 时间序列(从现在起称为TS)被认为是数据科学领域中鲜为人知的技能之一(点击文末"阅读原文"获取完整代码数据). 视频: ...
R语言学习：数据读取以及简单运算
这是去年业余时间学到的R语言基础知识,打算入门的朋友可以进来看看,大佬请绕道. 这一章记录的是关于R语言数据的读取和一些简单的运算方法. 如有疑问,欢迎留言说明. 数组的基础知识判断是否是数组is. ...
泰尔指数r语言_还在用Excel算区位基尼系数？用geo.gini吧！
区域经济研究中,经常需要测度产业空间集中的程度,常用的指标有区位基尼系数(Locational GiniCoefficient).泰尔指数(Theil Index)和EG指数等.这一期先讲区位基尼系数 ...
泰尔指数r语言_【数学建模】泰尔指数及分解的计算方法与Matlab实现
补充更方便使用的R语言版本:张敬信:[R语言]泰尔指数及其分解zhuanlan.zhihu.com 前言最近查一点泰尔指数的资料,发现无论是公式还是软件实现,都说的特别乱,看不出所以然. 特整理了 ...
泰尔指数r语言_一招搞定泰尔指数及其分解
上期讲了区位基尼系数,这期讲讲泰尔指数. 泰尔指数的原理同基尼系数,都是在测度一组数据分布的差异性.但是其有着良好的可分解性质,因此当需要考察产业空间集中度在不同区域层面的差异来源时,比较常用. 一. ...
泰尔指数r语言_科学网-一招搞定泰尔指数及其分解-王庆喜的博文
一招搞定泰尔指数及其分解上期讲了区位基尼系数,这期讲讲泰尔指数. 泰尔指数的原理同基尼系数,都是在测度一组数据分布的差异性.但是其有着良好的可分解性质,因此当需要考察产业空间集中度在不同区域层面的差 ...
moran指数 r语言_新版白话空间统计（19）空间关系对莫兰指数的影响
前文再续,书接上一回. 上一回我们说到用GeoDa可以自定义空间权重矩阵和空间关系,那么空间关系到底在我们的分析中,会产生什么样的影响呢?今天我们通过一个简单的例子来给大家示例一下: 首先我们用常规的 ...
moran指数 r语言_白话空间统计之二十五：空间权重矩阵（四）R语言中的空间权重矩阵(2)：不同空间关系对莫兰指数的影响...
原标题:白话空间统计之二十五:空间权重矩阵(四)R语言中的空间权重矩阵(2):不同空间关系对莫兰指数的影响上一篇,讲了R语言中的空间权重矩阵的结构,这一节讲讲R语言里面空间权重矩阵的自定义. 与Ar ...
R语言 Hurst指数计算
GPS filenum=c(11:15,19:24) roads=c("鞍山西道","白堤路","保山道","复康路", ...
r语言C指数的置信区间,用R语言求置信区间
<用R语言求置信区间>由会员分享,可在线阅读,更多相关<用R语言求置信区间(2页珍藏版)>请在人人文库网上搜索. 1.用R语言求置信区间如果你要求的只是95%的置信度的话,那么 ...

泰尔指数r语言_EG指数：从繁琐到简单

泰尔指数r语言_EG指数：从繁琐到简单相关推荐

最新文章

热门文章