数据获取

2020年初全国省市县行政区划数据矢量

网址:www.shengshixian.com或者shengshixian.ruiduobao.com

百度云
链接:https://pan.baidu.com/s/1rXzkX8pNBhmxJQ_QZP6sQw?pwd=4444 提取码:4444
阿里云
链接 https://www.aliyundrive.com/s/RFUJzXQ76vA 提取码: 8ve5

背景介绍

行政区划数据是重要的基础地理信息数据,但目前市面上能使用的行政区域数据问题颇多。我这里列出几种大家常用的行政区划数据供大家参考:

名称 时间 优点 缺点 来源
国家基础地理信息的行政区划数据 2019年 权威 缺乏属性、时间序列 ngcc.cn
中科资环行政区划数据 2015年 权威、准确 数据老旧、矢量错误多 resdc.cn
天地图爬取的矢量数据 不统计 权威、准确 仅能按省份下载 tianditu.gov.cn
民政部区划数据 2018年 权威、准确 非公开下载、仅线矢量 dmfw.mca.gov.cn
gadm数据 2022年 下载便捷 地图不完整、非权威 gadm.org
高德行政区划数据 2022年 及时性 非权威、缺乏属性、下载不方便 datav.aliyun.com
爱好者整理(数读城事) 2018-2022年 属性完整 非权威、非公开下载 公众号 数读城事
加州伯克利大学行政区划数据 1949-2013年 长时间序列 不权威、不准确

基于上述问题,我想基于权威的行政区划数据,制作一套长时间序列的、具有符合民政部属性的开放获取的行政区划数据。目前最权威的区划数据是国家基础地理信息中心于2022年1月发布的国家基础地理信息,该数据的现势性为2019年,但该数据也存在诸多问题。

因此,基于1比100万的行政区划数据、民政部地名数据以及其他矢量数据,我制作了2020年初的行政区划数据。接下来一段时间,我将基于这套2020年区划数据与民政部历年来行政区划资料,陆续更新2015年-2022年的行政区划数据。

数据处理原则

(1)尽可能少地改动矢量数据;

(2)国界、南海诸岛的矢量绝不修改,一律以国家基础地理信息2022年发布的数据为准;

(3)各地属性、统辖信息一律以民政部2019年的数据为准

制作流程

基础地理信息数据的处理

我之前写过一篇博客用来处理该数据库,具体参考:1:100w基础地理信息数据的镶嵌(zhuanlan.zhihu.com/p/458211981)

上述步骤处理完之后,数据是分块的。

进行县名称的数据融合,以消除下面的方块状组合,再最后选择中国区域,获得的行政区划数据如下所示。

属性匹配

写到这里,首先感谢公众号数读城事继续几年的区划数据更新,这套数据的属性信息是最全的,而且是和民政部代码相契合的。这里我直接使用了这套数据进行了基于县名称的空间连接。由此我们的区划数据初步具有了各县的属性信息。

区划矢量修改

数据修复

由于这套数据存在多处数据的矢量拓扑错误,我们首先使用arcgis自带的修复几何功能进行修复。然后不能修复的位置,我们进行空间地位,通过编辑矢量功能进行修复。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h2W3GnKD-1659336788823)(https://pics.landcover100.com/pics/image/image-20220713164537-shr98wr.png “矢量修复”)]

无矢量区域

在制作过程中,也遇到了民政部有行政代码,但并国家基础地理信息数据无矢量的情况,比如深圳的坪山区。如果遇到这样的问题,我会首先参考天地图行政区划、民政部的矢量区划,如果没有则参考高德地图的适量区划。比如深圳的坪山区并无矢量:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZTVhakWH-1659336788824)(https://pics.landcover100.com/pics/image/image-20220801011454-w5ef9ks.png)]

又如没有勾画的区域,比如胡杨河市、昆玉市等。这些地方就直接勾绘相关矢量并添加属性。

矢量多余区域

另外,也遇到了民政部无代码,但有矢量的情况,比如说甘肃太子山天然林有区划矢量,但行政级别上又属于几地管辖:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RlJpHzmN-1659336788826)(https://pics.landcover100.com/pics/image/image-20220719024057-0gz13vk.png)]

又如莲花山风景保护区无行政区划代码,参考高德地图区划数据,并入康乐县:

另外比较特殊的地区是台湾省,有县级矢量,但在民政部的行政区划中只有省级代码。为保证本数据的所有属性数据以民政部为准,这里对台湾省的所有县级数据进行了合并,只保存省级矢量。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bJ9KADxO-1659336788830)(https://pics.landcover100.com/pics/image/image-20220801013133-8jy0lht.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LRkzowWj-1659336788831)(https://pics.landcover100.com/pics/image/image-20220801013219-f4qh9kx.png)]

属性数据修改

这部分也是耗时最长的步骤,即使在大部分数据有属性数据的情况下,依然问题较多。

代码、名称等错误

与民政部的区划代码进行300余个市级别的对比,若有不同行政区域,则找相关原因。有可能市字段匹配错误,比如石家庄的新华区、沧州市的新华区字段匹配错误(这种最多)。也有可能是被遗漏掉了,比如温州市的龙港市。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EdHNnVd1-1659336788834)(https://pics.landcover100.com/pics/image/image-20220719031448-7o71f7l.png “逐个对比示意图”)]

地级为空区域

另外就是我国还有一些特殊的行政单位,比如省直辖市、省直辖县行政级别上属于县级单位,但又无地级单位。

比如湖北省的潜江市、天门市、仙桃市,河南的济源市, 海南的临高县、东方市等,具体分布图如下所示,这部分区域统一将地级属性命名为空

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iBFU4JSE-1659336788837)(https://pics.landcover100.com/pics/image/image-20220801012859-hw8k5xh.png “省直辖市、县分布图”)]

县级为空区域

还有一些比较特殊的地区,是地级市,但截止2019年末,该地区又无县级行政单位,比如海南儋州市、广东东莞市等。这部分区域统一将县级属性命名为空。

地名 县级 县级码 县级类 地级 地级码 地级类 省级
儋州市 不统计 0 不统计 儋州市 460400 地级市 海南省
东莞市 不统计 0 不统计 东莞市 441900 地级市 广东省
嘉峪关市 不统计 0 不统计 嘉峪关市 620200 地级市 甘肃省
三沙市 不统计 0 不统计 三沙市 460300 地级市 海南省
中山市 不统计 0 不统计 中山市 442000 地级市 广东省
海西蒙古族藏族自治州直辖 不统计 0 不统计 海西蒙古族藏族自治州 632800 自治州 青海省

省级为空区域

这个地区叫中朝共有领土,在国家基础地理信息数据上有该矢量,但民政部没有相关区划代码,且不能修改,因此该地区的所有相关属性皆为空,仅保留矢量信息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UUCTlkNW-1659336788838)(https://pics.landcover100.com/pics/image/image-20220801014717-prn58r7.png “中朝共有领土”)]

数量检查

检查前提

在进行检查前,首先普及一下我国大体的行政区划级别。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tKHrmiUo-1659336788839)(https://pics.landcover100.com/pics/image/image-20220801020905-h7nrh5t.png “我国大体的行政区划级别”)]

林区,是中国行政区划之一,行政地位与市辖区、县级市、县、自治县、旗、自治旗、特区相同,属县级行政区,现仅有一个,为湖北省直辖的神农架林区

特区,这里指六枝特区属六盘水市辖区域,位于贵州省西部,现仅有一个。

因此:

省级行政单位有:省、直辖市、自治区、特区

市级行政单位有:地级市、自治州、地区、盟

县级行政单位有:区、县级市、县、自治县、旗、自治旗、直辖县、省直辖市、林区、特区

此外,还有省直辖县、省直辖市。在民政部的行政区划等级中不属于任何地级行政区划代管。属于县级行政区,不经地级行政区代管或管辖,由省级行政区直接管辖,独立于地级行政区之外单独建制,由所在的省或自治区直接领导和管理。因此省直辖县、省直辖市无地级行政区,也属于县级行政区。

基于此,我们查询相关的2019年民政部的行政区划统计如下表所示:

合计 行政区划单位 合计 行政区划单位 合计 行政区划单位
34 4直辖市
23省
5自治区
2特别行政区
333 293 地级市
7 地区
30 自治州
3 盟
2846 965 市辖区
387 县级市
1323 县
117 自治县
49 旗
3 自治旗
1 特区
1 林区

县级数量检查

逐个省份进行县级数量检查,检查表格如下:

地区 县级数量 地区 县级数量
北京市 16 市辖区 湖南省 36 市辖区
18 县级市
61 县
7 自治县
天津市 16 市辖区 广东省 65 市辖区
20 县级市
34 县
3 自治县
河北省 47 市辖区
21 县级市
94 县
6 自治县
广西壮族自治区 41 市辖区
9 县级市
49 县
12 自治县
山西省 26 市辖区
11 县级市
80 县
海南省 8 市辖区
5 县级市
4 县
6 自治县
内蒙古自治区 23 市辖区
11 县级市
17 县
49 旗
3 自治旗
重庆市 26 市辖区
8 县
4 自治县
辽宁省 59 市辖区
16 县级市
17 县
8 自治县
四川省 54 市辖区
18 县级市
107 县
4 自治县
吉林省 21 市辖区
20 县级市
16 县
3 自治县
贵州省 15 市辖区
9 县级市
52 县
11 自治县
1 特区
黑龙江省 54 市辖区
21 县级市
45 县
1 自治县
云南省 17 市辖区
17 县级市
66 县
29 自治县
上海市 16 市辖区 西藏自治区 8 市辖区
66 县
江苏省 55 市辖区
22 县级市
19 县
陕西省 30 市辖区
6 县级市
71 县
浙江省 37 市辖区
20 县级市
32 县
1 自治县
甘肃省 17 市辖区
5 县级市
57 县
7 自治县
安徽省 44 市辖区
9 县级市
52 县
青海省 7 市辖区
4 县级市
26 县
7 自治县
福建省 29 市辖区
12 县级市
44 县
宁夏回族自治区 9 市辖区
2 县级市
11 县
江西省 27 市辖区
11 县级市
62 县
新疆维吾尔自治区 13 市辖区
26 县级市
61 县
6 自治县
山东省 57 市辖区
27 县级市
53 县
香港特别行政区
河南省 53 市辖区
22 县级市
83县
澳门特别行政区
湖北省 39 市辖区
25 县级市
36 县
2 自治县
1 林区
台湾省

在检查过程中,将错误的县级类型属性改为正确的,最后我国县级类型分布图如下所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OfllcrbQ-1659336788841)(https://pics.landcover100.com/pics/image/image-20220801022249-o6wn69v.png “我国县级类型分布图”)]

地级数量检查

这一步是在数据合并完成后进行的,是对逐个省份进行市级类型检查,主要注意几个无县级行政区的地级市,以及直辖市无地级行政单位。最后我国市级类型分布图如下所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sTi0ZalT-1659336788842)(https://pics.landcover100.com/pics/image/image-20220801023046-oj9m12v.png “我国市级类型分布图”)]

数据合并

在检查完矢量与属性信息之后,使用数据融合工具进行地级和省级的数据合并。

我国的市级数据如图所示:

我国的省级数据如图所示:

英文属性添加

参考GADM属性信息,给矢量数据添加数据的英文属性,各个属性名称对应的名称如下:

中文 英文属性名
地名 NAME
县级 NAME_3
县级码 GID_3
县级类 TYPE_3
地级 NAME_2
地级码 GID_2
地级类 TYPE_2
省级 NAME_1
省级码 GID_1
省级类 TYPE_1
地名的中文拼音标注 VAR_NAME
县级的中文拼音标注 VAR_NAME3
地级的中文拼音标注 VAR_NAME2
省级的中文拼音标注 VAR_NAME1

省市县的类型英文名对应为:

中文名 英文名 中文名 英文名
County 地级市 Prefecture City
县级市 County City 自治州 Autonomous Prefecture
自治县 Autonomous County 地区 Prefecture
市辖区 District League
Banner 直辖市 Municipality
自治旗 Autonomous Banner Province
林区 Forestry Area 自治区 Autonomous Region
特区(县级) Special District 特区 Special District
不统计 NULL

另外,考虑到汉语拼音是表述普通话语音的拼音系统,后被用作对外宣传的拼写法则,这也就是我们看到大部分省市英文为拼音的原因。也有部分地区是非拼音,使用的是邮政式拼音。例如广东、广西、福建有一部分地区的地名已经有了拉丁字母的习惯拼法,例如Amoy(厦门)、Canton(广州)、Foochow(福州)等。

但考虑到我国一直使用的拼音代表地名,联合国也于1977年起正式改用汉语拼音拼写中国大陆地名,因此本数据全部采用拼音系统代表地名。但单个字的地区,比如广西横县、山西临县等,保留县名称,再命名。带民族的,保留民族的英文名字。

自此,我们获得了完整的具有英文属性的省市县行政区划矢量数据。

写在最后

我为什么会选做这样的事?是因为我在搭建自己的网站(landcover100.com)中,经常遇到行政区划数据的问题。到底该用哪一套行政区划数据深深困扰着我。天地图数据?不完整。中科资环数据?太旧。高德地图数据?属性不够。

因此,我准备自己做一套能够使用的数据。最开始有两个思路,一个是使用民政部的区划数据,该数据的边界精度非常高,且没有数据加偏。但该数据有个问题,民政部并未发布该数据,数据来源的声明不太好写,难道说是通过爬虫获取,哈哈哈。另外一个数据就是该文的思路,基于国家基础地理信息中心发布的县矢量数据,这个数据虽然精度不高,但胜在权威,且可以声明数据来源。

因此我打算基于该数据,参考民政部历年行政区划变化情况,做一套长时间序列的行政区划数据。2020年初(截至2019年12月31日)的行政区划数据是基础,将以此为扩展,在半年内构建2015年-2022年的行政区划数据,欢迎持续关注。

参考

国家基础地理信息中心.https://www.ngcc.cn/ngcc/html/1/index.html

中国科学院资源环境科学与数据中心.https://www.resdc.cn/

公众号 数读城事(2021年度行政区划调整的数据更新与分享(省市县截至2021年12月31日).https://mp.weixin.qq.com/s/KtYlB2jA67jvdcE9fKyEPQ

公众号 点点GIS.2022年7月5日最新全国行政区划数据.https://mp.weixin.qq.com/s/KJnHD45QdqXdmHVuHZA9d

2019年12月中华人民共和国县以上行政区划代码.https://www.mca.gov.cn/article/sj/xzqh/1980/2019/202002281436.html

中国国家地名信息数据库.https://dmfw.mca.gov.cn/index.html

gadm.https://gadm.org/

datav.http://datav.aliyun.com/portal/school/atlas/area_selector

2020年初全国行政区划矢量数据相关推荐

  1. xpath爬虫-抓取全国行政区划和城乡区划数据

    数据来源地址:2020年度全国行政区划和城乡划 代码示例:以安徽省合肥市为例 import requests from lxml import etree import pandas as pddef ...

  2. 广西行政村数据shp_全国 shp 矢量数据汇总(四):全国行政区划基础矢量数据(精确到乡镇级别)...

    本文将汇总一些全国行政区划基础矢量数据,该版本是从其他途径抓取得到的数据,数据精细.时间新.属性表详尽.分类规范,可极好的满足大比例尺小范围制图使用. 数据坐标系统: WGS-84: 获取时间:201 ...

  3. 城市筛选数据(根据2020年度全国统计用区划代码和城乡划分代码更新维护的标准)

    根据2020年度全国统计用区划代码和城乡划分代码更新维护的标准,整理的城市联动筛选数据: /* 根据2020年度全国统计用区划代码和城乡划分代码更新维护的标准 */ var cityList = [{ ...

  4. 2020最新全国省市区街道居委会五级地址

    (1)2020最新全国省市区街道居委五级区划代码数据库(来自国家统计局2020年6月20日爬取数据)绝对真实完整 (2)2020-9-19日青风百草修定版 (3)如果您发现了地址库存在的问题,也请加以 ...

  5. 华为5G通讯基站于2020年全国普及

    华为5G通讯基站于2020年全国普及 就在前段时间,国家工信部颁发给三大运营商5G牌照已经落实,预计在2020进行全国5G商用,那么5g商用离我们不远了.杨超斌表示,华为公司和中国移动.LG等公司已经 ...

  6. 2020年全国信息安全标准化技术委员会大数据安全标准特别工作组全体会议即将召开...

    全国信息安全标准化技术委员会(TC260)(以下简称:委员会)大数据安全标准特别工作组(SWG-BDS)2020年首次全体会议即将在5月13-15日召开,会议由清华大学组织开展,工作组320多家成员单 ...

  7. 2020年全国大学生智能汽车竞赛山东赛区比赛专家组工作方案

    ■ 2020年全国大学生智能汽车竞赛山东赛区比赛专家组工作方案 2020年全国大学生智能汽车竞赛山东赛区比赛定于2020年8月12日-8月15日举行.根据疫情防控需要,避免大规模人员聚集,为了保证比赛 ...

  8. 2020年全国大学生智能车竞赛华南赛区线上比赛高校组合

    作者:卓晴博士,清华大学自动化系 更新时间:2020-07-31 Friday □ 高校组合1 序号 高校名称 1 海南大学 2 海南师范大学 队伍数量:10 证书下载: 链接: https://pa ...

  9. 极客大挑战2020_五省同燃,千人开赛。2020年全国轮滑大联动暨MX名星轮滑伴我行城市轮滑挑战赛——扬州站、襄阳站、南宁站、潍坊站、沈阳站完美收官...

    新力量,星未来.强健体魄,有氧健康,阳光轮滑,赛事先行.2020年全国轮滑大联动暨MX名星轮滑伴我行城市挑战赛全国巡回持续进行中.先后于8月26日收官江苏扬州站.8月27日收官山东潍坊站.8月30日收 ...

  10. 2020年全国压岁钱榜单出炉,今年小朋友压岁钱归谁?

    明天除夕啦!对于小朋友们来说,最有"年味"的莫过于兜里有--压岁钱. 你被妈妈收走过压岁钱吗?有网友表示,压岁钱都是父母和亲戚朋友的人情往来,拿走很正常.也有网友评论,小时候认为压 ...

最新文章

  1. QT的QRegExpValidator类的使用
  2. Android官方开发文档Training系列课程中文版:动画视图之转场框架介绍
  3. 机器学习难?那是你没看过这张路线图!
  4. 史上最全的程序猿工具集(辅助工具、开发工具、技术栈、学习网站、博客论坛)
  5. 「洛谷P3469」[POI2008]BLO-Blockade 解题报告
  6. docker容器部署的应用启动日志在哪里看_在SAP云平台上部署和运行Docker应用
  7. 基于PaddleOCR实现车牌识别
  8. 2022最新独立版智狐聚合支付V1.0.5.21+聚合支付系统源码
  9. 小米笔记本安装原生win7
  10. 液晶屏背光LED驱动电路设计参考
  11. (实测有用)登录Github显示“您的连接不是专用连接”和”GitHub.com拒绝了我们的连接请求“解决办法!!!
  12. 重走机器学习之路——形而上者谓之道
  13. C# WPF、Winform中Show()和ShowDialog()区别
  14. 2004古墓丽影黄金关卡——Lara在电影中:二号门
  15. 水源井群远程监测系统解决方案
  16. C/C++实现你的浪漫表白:浪漫流星雨表白程序,
  17. LM个人发卡网系统开源源码「免授权」
  18. dataTables国际化
  19. 长沙尚学堂python培训学校
  20. 王老师拼音输入法的算法

热门文章

  1. Maple 全面基础
  2. 如何使用c语言制作微信小程序,不懂代码如何制作微信小程序?微信小程序的步骤?...
  3. asp.net中配置使用Sqlite轻型数据库
  4. Javascript视频教程全集,基础入门学习-动力节点
  5. wps里面的流程图怎样更改_wps中流程图如何制作
  6. 操作系统分区原理(笔记)
  7. linux命令 视频教程,常用的linux命令视频教程
  8. 人狠话不多,细说大牛直播SDK之RTMP播放器和RTSP播放器
  9. 数据库系统基础教程复习
  10. 数据库系统基础教程一:关系数据库与关系代数