Python爬取行政区划代码(最新版)
注意:如果想要保存到数据库或者导出Excel,直接在每个print()处进行保存即可。
import re
import urllib.requestINDEX_URL = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/"def get_province_code():"""获取省份名称:return:"""# 获取省级初始页province_response = urllib.request.urlopen(INDEX_URL + "index.html").read().decode("utf-8")# 获取省份名称+城市初始页数据province_data = re.findall(r"<td><a href=\"(.*?)\">(.*?)<br /></a></td>", province_response)# 获取城市名称 + 省份代码 + 城市代码for url, name in province_data:# 拼接省份代码code = url.replace(".html", "") + "0" * 10print("省份:%s 代码:%s" % (name, code))get_city_code(url)def get_city_code(province_url):"""获取城市名称+代码:return:"""# 获取城市初始页city_response = urllib.request.urlopen(INDEX_URL + province_url).read().decode("utf-8")# 获取城市名称+城市code+地区初始页数据city_data = re.findall(r"<tr class=\"citytr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", city_response)# 获取地区名称 + 地区代码for url, code, _url, name in city_data:print("城市:%s 代码:%s" % (name, code))get_area_code(url)def get_area_code(city_url):"""获取区县名称+代码:return:"""# 获取区县初始页area_response = urllib.request.urlopen(INDEX_URL + city_url).read().decode("utf-8")# 获取区县名称+区县code+街道初始页数据area_data = re.findall(r"<tr class=\"countytr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", area_response)# 获取街道名称 + 街道代码for url, code, _url, name in area_data:print("区县:%s 代码:%s" % (name, code))get_street_code(url)def get_street_code(area_url):"""获取街道名称+代码:return:"""# 获取街道初始页street_response = urllib.request.urlopen(INDEX_URL + area_url[3:5] + "/" + area_url).read().decode("utf-8")# 获取街道名称+街道code+社区初始页数据street_data = re.findall(r"<tr class=\"towntr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", street_response)# 获取社区名称 + 社区代码for url, code, _url, name in street_data:print("街道:%s 代码:%s" % (name, code))get_community_code(url)def get_community_code(street_url):"""获取社区名称+代码:return:"""# 获取社区初始页community_response = urllib.request.urlopen(INDEX_URL + street_url[3:5] + "/" + street_url[5:7] + "/" + street_url)\.read().decode("utf-8")community_data = re.findall(r"<tr class=\"villagetr\"><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>", community_response)for code, _type, name in community_data:print("社区:%s 代码:%s" % (name, code))def main():"""主启动函数:return:"""# 获取省份名称get_province_code()if __name__ == "__main__":main()
Python爬取行政区划代码(最新版)相关推荐
- python爬取文献代码_使用python爬取MedSci上的影响因子排名靠前的文献
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
- python爬取网页代码-python爬虫爬取网页所有数据详细教程
Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...
- python爬取ppt代码_Python爬取PPT模板小工具
由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...
- python爬取小说代码bs4和_使用python爬虫,requests(夹带BeautifulSoup的使用)爬取网络小说...
由于本人也是初学者,算是小白一枚,这里跟大家分享一下爬取网站上的小说的过程. 第一步我们需要导入我们需要的模块,比如requests,BeautifulSoup,还有正则模块re. 代码如下:impo ...
- python爬取豆瓣代码_python爬取豆瓣视频信息代码
[TOC] 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote from pyquery impo ...
- python爬取豆瓣代码_python爬取豆瓣
在上课时,有时需要显示一个倒计时时钟,让学生做题. PPT 没有简单有效的方法实现倒计时时钟,参考了多个方案,最终决定采用 GIF 动画来实现. 这样使用起来很简单,只要把事先做好的各个时长的倒计时动 ...
- python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本
Abstract 本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法. Introducti ...
- python爬取豆瓣代码_小白的python爬虫,40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...
- python爬取小说代码_Python scrapy爬取小说代码案例详解
scrapy是目前python使用的最广泛的爬虫框架 架构图如下 解释: Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间 ...
- java爬取行政区划代码
1.导入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifac ...
最新文章
- windbg学习-------.expr和masm表达式
- INPUT type=password 元素 | input type=password 对象
- 活动选择的贪心算法与动态规划
- 连接mysql超时时间设置多少_怎么设置数据库的连接数和连接超时时间
- 渗透测试岗位面试题(重点:渗透测试思路)
- mysql约束类型 A P_mysql笔记: 数据类型、约束、范式
- Docker拉取Redis镜像安装运行
- c语言读取excel表格_利用pandas处理excel表格
- Javascript第五章document对象获取标签节点-第六课
- dnfdpl服务器维护了,2019DNF心悦DPL赛事活动地址 强化器和时空石没了
- .net 这些年发展 参考资料
- jquer添加和插入元素技巧:
- 你为什么人到中年还是个普通员工?
- 基于jenkins的自动化部署实现
- perfectmoney php接口_兑换paypal PerfectMoney(转载)
- 台式计算机的电流是多少,电脑台式机一天耗电大概是多少
- zynq7020的arm A9核降频实录
- java数据结构运动会分数统计,数据结构实验报告(运动会分数统计系)..doc
- Python re模块 —— 从零基础开始入门正则表达式
- 利用七牛存储7天远程自动备份LINUX服务器