数据源:中华人民共和国国家统计局官方网站

统计局数据特点描述

  1. 统计局每年10月31日更新一次数据。
  2. 统计局的数据分为省,市,区县、乡,街道、镇,村、居委会共五级。
  3. 省级编码为两位,其余均为12位。前六位编码规则与身份证相同,其余编码规则不明,欢迎知道的朋友补充。
  4. 村、居委会的城乡编码具体业务含义不清楚,欢迎知道的朋友补充。

系统设计特点

  1. 完全按照统计局的数据编码规则,不做任何转换。

  2. 按照统计局页面命名,分别将数据编码为:

    级别 省(区、直辖市) 区县、乡 街道、镇 村、居委会
    编码 PROVINCE CITY COUNTY TOWN VILLAGE
  3. 提供json(children标识主子结构)和flatten(code,pCode标识主子关系)两种输出结构。

  4. 静态方法直接调用。

    // 获取json格式的数据,2021年的,到街道级别
    AreaReptileUtil.doCrawlJson("2021", AreaLevel.TOWN);
    // 获取flatten格式的数据,2021年的,到街道级别
    AreaReptileUtil.doCrawlFlat("2021", AreaLevel.TOWN);
  5. 轻量级,依赖仅有hutool(用于发http请求)和jsoup(用于解析html)。

  6. 提供debug模式(仅解析北京、天津、河北三省的详细数据)用于调试。 注意,该配置全局有效,默认为关闭状态

    AreaReptileUtil.setDebugMode(true);
    List<AreaNode> areaNode = AreaReptileUtil.doCrawlJson("2009", AreaLevel.COUNTY);
    
  7. 有下级数据的,会附带下级数据的对应页面。

  8. 输出结果为utf-8编码

注意

  1. 统计局网站有防ddos攻击,所以没有采用并发http请求方式,抓取效率一般。(基础数据一年更新一次,慢点应该也可以忍,关键是快了人家就把咱封了)

  2. http请求失败会重试3次,抓取过程只能全部完成才算完成,中间有错误只能从头开始。

  3. 抓取级别调细之后,需要很长时间抓取,且需要占用大量内存,请按需抓取。

  4. 本程序没有考虑多线程并发调用过程中的线程安全问题。(基础数据一年更新一次,没必要并发触发吧)

  5. 样例数据位于项目的data-examples目录,目前提供如下的几个结果:

    • 2021年,json形式,区县级别的txt格式数据

    • 2021年,flatten形式,街道级别的csv格式数据

    • 2009年,json形式,区县级别的txt格式数据

      欢迎大家继续提供样例数据。互帮互助,节省宝贵时间。

许可证

hutool和本程序采用木兰公共许可证, 第2版

jsoup采用MIT许可证

对商业项目友好。

其他

数据不涉密,都是统计局网站上的公开数据。程序只是负责整理了一下。

项目地址:https://github.com/zhiguangliu/area-reptile-from-stats-gov-cn

中国大陆五级行政区划数据爬虫相关推荐

  1. 爬取2017年底最新中国全国五级行政区划代码省市区县乡镇村MySQL数据库

    刚开始学习爬虫,学了pyspider,就想练练手.想到不久前需要一些云南地区的行政数据,还是在网络百度半天才下载的.现在既然会爬虫了,那就自己动手,随时可以用相对新的数据了(因为统计局最新的才更新到2 ...

  2. 全国行政区划数据——五级(省市区县乡镇村),74万条数据

    用了将近2周的时间,整理了全国五级行政区划数据(省市区县乡镇村),稍后回在下方提供下载地址,记得关注.点赞哦!! 下载地址:https://download.csdn.net/download/jat ...

  3. 中国行政区划数据爬取并层级体系与编码标准

    中国行政区域划分,既行政区划,大体上分省.市.区县.乡镇街道四级,行政区划的勘界.调整.命名等,由国家各级民政部门负责. 每个月,国家民政部会在官网上公示全部县以上行政区划编码和县以下行政区划变更情况 ...

  4. BigData之matplotlib:爬虫2018年福布斯中国富豪榜进行数据统计分析,大数据告诉你一些不可思议的事情

    BigData之matplotlib:爬虫2018年福布斯中国富豪榜进行数据统计分析,大数据告诉你一些不可思议的事情 目录 数据统计分析 1.2018年福布斯中国富豪榜(资产≥60亿美元)财富地区分布 ...

  5. python爬虫,2020年《财富》中国500强排行榜数据爬取源码

    一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也比较清 ...

  6. 2022年最新全国各省五级行政区划代码及名称数据(省-市-区县-乡镇-村)

    1.数据来源:国家统计局 2.官方更新时间:2021年10月31日 3.数据样例: 包括字段:省份名称.城市代码.城市名称.区县代码.区县名称.乡镇街道代码.乡镇街道名称.居委会村代码.城乡分类代码. ...

  7. python爬虫获取中国天气网天气数据 requests BeautifulSoup re

    python获取中国天气网天气数据:http://www.weather.com.cn/textFC/henan.shtml main.py # -*- coding: utf-8 -*- impor ...

  8. 中国行政区划数据下载

    本文的源数据通过天地图的行政边界数据接口,在QGIS软件当中获得.获得的行政边界数据在ArcGIS中转成面数据后,根据国家民政部网站在2019年7月发布的截止2019年5月份全国行政区域数据进行标注. ...

  9. 奥维查看行政边界_全国乡镇行政区划数据乡镇边界数据查询获取方式

    原标题:全国乡镇行政区划数据乡镇边界数据查询获取方式 北京揽宇方圆信息技术有限公司提供全国遥感影像数据,全国乡镇行政区划数据,是结合野外实测资料,同时参照有关地理图件,采用人机交互的方式开展行政区划地 ...

  10. 1000w+条中国大陆企业工商注册信息数据集

    项目地址 https://github.com/imhuster/Enterprise-Registration-Data-of-Chinese-Mainland 今天逛github看到一个名叫Ent ...

最新文章

  1. Python 基础 - Day 5 Learning Note - 模块 之 标准库:xml (9)
  2. 内存分配的几个函数的简单对比分析
  3. PHP命令注入 Command injection
  4. 安卓使用JNI-NDK
  5. angular i18n 国际化 多语言
  6. HTML5能为我们带来什么?(一)
  7. 10步骤优化SQL Server 数据库性能
  8. python3 线程隔离_Python的线程隔离实现方法
  9. 【POJ - 2318】TOYS(计算几何,叉积判断点与直线位置关系,二分)
  10. QML笔记-Particle的基本使用(粒子系统的基本使用)
  11. java drawstring字体大小_java – 不同大小的JLabel中心drawString()文本
  12. 【To Do 难点】最大搜索二叉树
  13. 常用tab选项卡代码
  14. flask不运行主函数解决方法
  15. 只要你想要,世界尽在眼前 —— 超级搜索术之资源搜索
  16. java创建动态数组_动态数组java实现
  17. 1013_MISRA C规范学习笔记9
  18. 2021年塔式起重机司机考试报名及塔式起重机司机免费试题
  19. 通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
  20. 计算机的硬盘如何查看,怎样查看电脑硬盘信息 电脑中的硬盘信息

热门文章

  1. css实现div半透明而文字不透明
  2. java layoutinflater_安卓 LayoutInflater详解
  3. weblogic静默安装
  4. 三星笔记本BIOS文件提取 三星笔记本BIOS降级
  5. Windows.ScreenToClient
  6. iOS之healthKit
  7. Android:GPS卫星定位
  8. php 开发模式 自定义,smartprinter虚拟打印机 smarty+adodb+部分自定义类的php开发模式...
  9. tf卡量产工具万能版_「新物」1TB TF卡正式开卖!容量大得惊人,售价也同样不菲...
  10. 基于深度学习的图像文字识别技术