注意:如果想要保存到数据库或者导出Excel,直接在每个print()处进行保存即可。

import re
import urllib.requestINDEX_URL = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/"def get_province_code():"""获取省份名称:return:"""# 获取省级初始页province_response = urllib.request.urlopen(INDEX_URL + "index.html").read().decode("utf-8")# 获取省份名称+城市初始页数据province_data = re.findall(r"<td><a href=\"(.*?)\">(.*?)<br /></a></td>", province_response)# 获取城市名称 + 省份代码 + 城市代码for url, name in province_data:# 拼接省份代码code = url.replace(".html", "") + "0" * 10print("省份:%s 代码:%s" % (name, code))get_city_code(url)def get_city_code(province_url):"""获取城市名称+代码:return:"""# 获取城市初始页city_response = urllib.request.urlopen(INDEX_URL + province_url).read().decode("utf-8")# 获取城市名称+城市code+地区初始页数据city_data = re.findall(r"<tr class=\"citytr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", city_response)# 获取地区名称 + 地区代码for url, code, _url, name in city_data:print("城市:%s 代码:%s" % (name, code))get_area_code(url)def get_area_code(city_url):"""获取区县名称+代码:return:"""# 获取区县初始页area_response = urllib.request.urlopen(INDEX_URL + city_url).read().decode("utf-8")# 获取区县名称+区县code+街道初始页数据area_data = re.findall(r"<tr class=\"countytr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", area_response)# 获取街道名称 + 街道代码for url, code, _url, name in area_data:print("区县:%s 代码:%s" % (name, code))get_street_code(url)def get_street_code(area_url):"""获取街道名称+代码:return:"""# 获取街道初始页street_response = urllib.request.urlopen(INDEX_URL + area_url[3:5] + "/" + area_url).read().decode("utf-8")# 获取街道名称+街道code+社区初始页数据street_data = re.findall(r"<tr class=\"towntr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", street_response)# 获取社区名称 + 社区代码for url, code, _url, name in street_data:print("街道:%s 代码:%s" % (name, code))get_community_code(url)def get_community_code(street_url):"""获取社区名称+代码:return:"""# 获取社区初始页community_response = urllib.request.urlopen(INDEX_URL + street_url[3:5] + "/" + street_url[5:7] + "/" + street_url)\.read().decode("utf-8")community_data = re.findall(r"<tr class=\"villagetr\"><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>", community_response)for code, _type, name in community_data:print("社区:%s 代码:%s" % (name, code))def main():"""主启动函数:return:"""# 获取省份名称get_province_code()if __name__ == "__main__":main()

Python爬取行政区划代码(最新版)相关推荐

  1. python爬取文献代码_使用python爬取MedSci上的影响因子排名靠前的文献

    使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

  2. python爬取网页代码-python爬虫爬取网页所有数据详细教程

    Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...

  3. python爬取ppt代码_Python爬取PPT模板小工具

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  4. python爬取小说代码bs4和_使用python爬虫,requests(夹带BeautifulSoup的使用)爬取网络小说...

    由于本人也是初学者,算是小白一枚,这里跟大家分享一下爬取网站上的小说的过程. 第一步我们需要导入我们需要的模块,比如requests,BeautifulSoup,还有正则模块re. 代码如下:impo ...

  5. python爬取豆瓣代码_python爬取豆瓣视频信息代码

    [TOC] 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote from pyquery impo ...

  6. python爬取豆瓣代码_python爬取豆瓣

    在上课时,有时需要显示一个倒计时时钟,让学生做题. PPT 没有简单有效的方法实现倒计时时钟,参考了多个方案,最终决定采用 GIF 动画来实现. 这样使用起来很简单,只要把事先做好的各个时长的倒计时动 ...

  7. python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本

    Abstract 本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法. Introducti ...

  8. python爬取豆瓣代码_小白的python爬虫,40代码教你爬取豆瓣小说

    这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...

  9. python爬取小说代码_Python scrapy爬取小说代码案例详解

    scrapy是目前python使用的最广泛的爬虫框架 架构图如下 解释: Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间 ...

  10. java爬取行政区划代码

    1.导入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifac ...

最新文章

  1. windbg学习-------.expr和masm表达式
  2. INPUT type=password 元素 | input type=password 对象
  3. 活动选择的贪心算法与动态规划
  4. 连接mysql超时时间设置多少_怎么设置数据库的连接数和连接超时时间
  5. 渗透测试岗位面试题(重点:渗透测试思路)
  6. mysql约束类型 A P_mysql笔记: 数据类型、约束、范式
  7. Docker拉取Redis镜像安装运行
  8. c语言读取excel表格_利用pandas处理excel表格
  9. Javascript第五章document对象获取标签节点-第六课
  10. dnfdpl服务器维护了,2019DNF心悦DPL赛事活动地址 强化器和时空石没了
  11. .net 这些年发展 参考资料
  12. jquer添加和插入元素技巧:
  13. 你为什么人到中年还是个普通员工?
  14. 基于jenkins的自动化部署实现
  15. perfectmoney php接口_兑换paypal PerfectMoney(转载)
  16. 台式计算机的电流是多少,电脑台式机一天耗电大概是多少
  17. zynq7020的arm A9核降频实录
  18. java数据结构运动会分数统计,数据结构实验报告(运动会分数统计系)..doc
  19. Python re模块 —— 从零基础开始入门正则表达式
  20. 利用七牛存储7天远程自动备份LINUX服务器

热门文章

  1. Spring(16) 获得bean的id
  2. java 环境配置(详细教程)
  3. c语言必背100代码,C语言代码大全(c语言必背项目代码)
  4. jQuery 文档操作方法大全(也适用于 XML 文档和 HTML 文档)
  5. Java题库(为了这辈子能吃上俩个菜好好学Java)
  6. Linux运维面试题
  7. mysql省市区递归查询_mysql递归查询
  8. AXURE 9 # 汉化教程
  9. python将xml写入excel_Python实现将xml导入至excel
  10. layDate时间控件