之前爬取过2017年的数据 详见

Python爬虫练习五:爬取 2017年统计用区划代码和城乡划分代码(附代码与全部数据)

,下面有评论说广东省的数据缺少了东莞与中山两个市的数据,检查网页结构发现确实是代码没考虑到,这两个市没有区级,直接到街道、办事处级了。考虑到代码的复用性、以及唯独此两个市的特殊性,(其实是懒),在源码不变的情况下,添加以下代码处理此两市的数据。

在Spiders.py 下 添加以下函数

def getfourth_special(lists):town = {}for i in lists:# print(url+i[0:2]+'/'+i[2:4]+'/'+i+'.html')soup = getsoup(i)for j in soup.select('.towntr '):# print(j)id = str(j.select('td')[0].text)  # 130202001000town[id[0:9]] = {'qhdm': id, 'name': j.select('td')[1].text, 'cxfldm': '0'}# 130202001return towndef getfifth_special(url,lists):village = {}for i in lists:soup = getsoup(url+i[0:2]+'/'+i[2:4]+'/'+i+'.html')for j in soup.select('.villagetr '):# print(j)id = str(j.select('td')[0].text)  # 110101001001village[id[0:12]] = {'qhdm': id, 'name': j.select('td')[2].text, 'cxfldm': j.select('td')[1].text}# 110101001001return village

新建special_html.py,程序代码如下:

import Spidersaimurl="http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/"
city=['http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/44/4419.html','http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/44/4420.html']town = Spiders.getfourth_special(city)
village = Spiders.getfifth_special(aimurl, town)
print(village)
path = r'E:\tjyqhdmhcxhfdm2018\tjyqhdmhcxhfdm2018_' + 'special' + '.txt'
dic = { **town, **village}#字典合并
for i in dic.values():with open(path, 'a', encoding='utf-8') as f:f.write('"' + i['qhdm'] + '","' + i['name'] + '","' + i['cxfldm'] + '"' + '\n')
print(" write finished!")

执行special_html.py即可得到两市的结果,补进44文档。

注意:如果要爬取最新的统计用区划代码和城乡划分代码,请参照 python爬虫练习五 ,将源码中的2017替换为2018即可正常执行。

最后,附上全部2018年统计用区划代码和城乡划分代码(截止2018年10月31日)数据,链接如下。

有积分的给点~: https://download.csdn.net/download/weixin_41710905/11037573

没积分的网盘 链接:  https://pan.baidu.com/s/1Or6yfKzDvccpuEUBSs7Oag  提取码:p6i9

如果代码、数据有问题,还请多多指正!

python爬虫练习五(补充): 2018年统计用区划代码和城乡划分代码(附代码与全部数据)相关推荐

  1. Python爬虫练习五:爬取 2017年统计用区划代码和城乡划分代码(附代码与全部数据)

    本文仅供学习,需要数据的文末有链接下载,请不要重复爬取. 最近工作中,因为统计用区划代码和城乡划分代码更新了最新的2017版,需要爬取最新的数据.于是乎,本次花了一定精力,将整个2017版数据完完整整 ...

  2. Python爬虫进阶五之多线程的用法

    前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...

  3. Python爬虫入门五之URLError异常处理

    Python爬虫入门五之URLError异常处理 参考文章: (1)Python爬虫入门五之URLError异常处理 (2)https://www.cnblogs.com/pxuan/p/647362 ...

  4. 浅谈Python爬虫(五)【网易云热评爬取实例】

    浅谈Python爬虫(五) 目的:爬取网易云歌单所有歌曲的信息及热评 Python环境:3.7 编译器:PyCharm2019.1.3专业版 存储格式:JSON 1.分析网页 进入网易云音乐首页,点击 ...

  5. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  6. Python获取[2016年统计用区划代码和城乡划分代码(截止2016年07月31日)]

    #!usr/bin/env python #-*- coding:utf-8 -*- import requests import re import time ##系统初始化 urlHeader=& ...

  7. 获取全国统计用区划代码和城乡划分代码并写入数据库

    背景:业务需要全国省市区的划分以及3级级联,正好想起2018年曾经抓取过国家统计局网站的去全国统计用区划代码和城乡划分代码,原资源的地址:2018年全国统计用区划代码和城乡划分代码.sql-MySQL ...

  8. 城市筛选数据(根据2020年度全国统计用区划代码和城乡划分代码更新维护的标准)

    根据2020年度全国统计用区划代码和城乡划分代码更新维护的标准,整理的城市联动筛选数据: /* 根据2020年度全国统计用区划代码和城乡划分代码更新维护的标准 */ var cityList = [{ ...

  9. [数据][json格式] 2016年统计用区划代码和城乡划分代码

    [数据][json格式] 2016年统计用区划代码和城乡划分代码 2013 年的时候写过一篇 [数据][xml格式] 2012年统计用区划代码和城乡划分代码. 到了今天,我需要某省的省市县乡村五级数据 ...

最新文章

  1. web服务器的文档的部分路径是如何工作的,FinderWeb - 文档中心
  2. DropdownList 赋初始值问题
  3. 洛谷P2995奇数偶数
  4. 新华计算机学校环境好吗,新华电脑校园环境好不好?(二)
  5. openwrt 编译时提示缺少libstdc++,libpthread.so.0文件
  6. Div+CSS教程----DivCSS布局绝对定位和浮动
  7. mysql脚本中如何写判断_mysql中如何写判断语句
  8. ./mysql-bin.index_MySQL 启动报错:File ./mysql-bin.index not found (Errcode: 13)
  9. 一起谈.NET技术,asp.net控件开发基础(13)
  10. Oracle的安装步骤(详细图示)
  11. InisghtFace 制作自定义数据集和模型训练评估
  12. win10 + ubuntu20.04 双系统卸载(删除) ubuntu20.04 (图文)
  13. matlab 光线追踪 渲染,光线追踪(Ray tracing)渲染器工作原理
  14. win8计算机休眠的区别,win8系统的休眠和睡眠有什么区别?如何用?
  15. Syzmlw蜗居在线播放
  16. signature=45f2913b66c5b2ae668a6622be005d65,国开大《商务英语4》自测试题及答案
  17. python剔除数据_python实现对excel进行数据剔除操作实例
  18. Elasticsearch 7.10 之 Indexing pressure
  19. 乐行天下激光雷达SDK介绍
  20. 虚拟机环境安装 | 查看修改主机名

热门文章

  1. 日期格式小练笔“2012-3-17“到“2012-4-6“ 中间有多少天?
  2. SAR图像之斑点噪声
  3. nginx配置监听443端口,开启ssl协议,走 https 访问
  4. C++ MFC棋牌类小游戏day1
  5. 3Dmax合并不同模型的UV和贴图
  6. libvlc获取一帧_android - 从android vlc媒体播放器获取当前帧 - 堆栈内存溢出
  7. uni-app VLC多媒体播放器、支持rtsp、rtmp、mms、ftp、udp/rtp等等大多数格式、截图、录制、速率、快进、倒退、音量、视频缩放、视频纵横比、音轨、亮度、全屏
  8. php网站源码 闪拍拍卖转拍 微拍堂自动挂售竞拍程序 H5拍卖商城系统+app
  9. freekan5.9电影网站安装及源码分享
  10. noip day2 聪明的质检员