Python爬取行政区划代码（最新版）

注意：如果想要保存到数据库或者导出Excel，直接在每个print()处进行保存即可。

import re
import urllib.requestINDEX_URL = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/"def get_province_code():"""获取省份名称:return:"""# 获取省级初始页province_response = urllib.request.urlopen(INDEX_URL + "index.html").read().decode("utf-8")# 获取省份名称+城市初始页数据province_data = re.findall(r"<td><a href=\"(.*?)\">(.*?)<br /></a></td>", province_response)# 获取城市名称 + 省份代码 + 城市代码for url, name in province_data:# 拼接省份代码code = url.replace(".html", "") + "0" * 10print("省份：%s 代码：%s" % (name, code))get_city_code(url)def get_city_code(province_url):"""获取城市名称+代码:return:"""# 获取城市初始页city_response = urllib.request.urlopen(INDEX_URL + province_url).read().decode("utf-8")# 获取城市名称+城市code+地区初始页数据city_data = re.findall(r"<tr class=\"citytr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", city_response)# 获取地区名称 + 地区代码for url, code, _url, name in city_data:print("城市：%s 代码：%s" % (name, code))get_area_code(url)def get_area_code(city_url):"""获取区县名称+代码:return:"""# 获取区县初始页area_response = urllib.request.urlopen(INDEX_URL + city_url).read().decode("utf-8")# 获取区县名称+区县code+街道初始页数据area_data = re.findall(r"<tr class=\"countytr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", area_response)# 获取街道名称 + 街道代码for url, code, _url, name in area_data:print("区县：%s 代码：%s" % (name, code))get_street_code(url)def get_street_code(area_url):"""获取街道名称+代码:return:"""# 获取街道初始页street_response = urllib.request.urlopen(INDEX_URL + area_url[3:5] + "/" + area_url).read().decode("utf-8")# 获取街道名称+街道code+社区初始页数据street_data = re.findall(r"<tr class=\"towntr\"><td><a href=\"(.*?)\">(.*?)</a></td><td><a href=\"(.*?)\">("r".*?)</a></td></tr>", street_response)# 获取社区名称 + 社区代码for url, code, _url, name in street_data:print("街道：%s 代码：%s" % (name, code))get_community_code(url)def get_community_code(street_url):"""获取社区名称+代码:return:"""# 获取社区初始页community_response = urllib.request.urlopen(INDEX_URL + street_url[3:5] + "/" + street_url[5:7] + "/" + street_url)\.read().decode("utf-8")community_data = re.findall(r"<tr class=\"villagetr\"><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>", community_response)for code, _type, name in community_data:print("社区：%s 代码：%s" % (name, code))def main():"""主启动函数:return:"""# 获取省份名称get_province_code()if __name__ == "__main__":main()

Python爬取行政区划代码（最新版）相关推荐

python爬取文献代码_使用python爬取MedSci上的影响因子排名靠前的文献
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取网页代码-python爬虫爬取网页所有数据详细教程
Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...
python爬取ppt代码_Python爬取PPT模板小工具
由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...
python爬取小说代码bs4和_使用python爬虫，requests(夹带BeautifulSoup的使用)爬取网络小说...
由于本人也是初学者,算是小白一枚,这里跟大家分享一下爬取网站上的小说的过程. 第一步我们需要导入我们需要的模块,比如requests,BeautifulSoup,还有正则模块re. 代码如下:impo ...
python爬取豆瓣代码_python爬取豆瓣视频信息代码
[TOC] 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote from pyquery impo ...
python爬取豆瓣代码_python爬取豆瓣
在上课时,有时需要显示一个倒计时时钟,让学生做题. PPT 没有简单有效的方法实现倒计时时钟,参考了多个方案,最终决定采用 GIF 动画来实现. 这样使用起来很简单,只要把事先做好的各个时长的倒计时动 ...
python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本
Abstract 本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法. Introducti ...
python爬取豆瓣代码_小白的python爬虫，40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...
python爬取小说代码_Python scrapy爬取小说代码案例详解
scrapy是目前python使用的最广泛的爬虫框架架构图如下解释: Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间 ...
java爬取行政区划代码
1.导入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifac ...

Python爬取行政区划代码（最新版）

Python爬取行政区划代码（最新版）相关推荐

最新文章

热门文章