搜狗·疫情数据爬取(Python)
上周已经分享过搜狗·疫情数据爬取(R语言),这次分享一下搜狗·疫情数据爬取(Python)
不说废话,直接上代码。有什么问题,可以在留言区讨论。
from urllib import request from lxml import etree import re import pandas as pd import json url="http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB" response = request.urlopen(url) #请求 html = response.read()#获取 html = html.decode("utf-8")#解码 xml = etree.HTML(html) datas = xml.xpath('//html/body/script[1]/text()') datas=re.sub('window.type_page = \"WEB\"\n window.__INITIAL_STATE__ = ',"",datas[0]) area=json_data["data"]["area"] citytempdate = [] provincetempdate = [] for i in area:provinceShortName = i["provinceShortName"]confirmedCount = i["confirmedCount"]curedCount = i["curedCount"]deadCount = i["deadCount"]provincetempdate.append([provinceShortName,confirmedCount,curedCount,deadCount])for j in i["cities"]:cityName = j["cityName"]confirmedCount=j["confirmedCount"]curedCount=j["curedCount"]deadCount=j["deadCount"]citytempdate.append([provinceShortName,cityName,confirmedCount,curedCount,deadCount])dt_city = pd.DataFrame(citytempdate,columns=["PROVINCESHORTNAME","CITYNAME","CONFIRMEDCOUNT","CUREDCOUNT","DEADCOUNT"]) dt_province = pd.DataFrame(provincetempdate,columns=["PROVINCESHORTNAME","CONFIRMEDCOUNT","CUREDCOUNT","DEADCOUNT"])
各城市(部分)数据如下:
PROVINCESHORTNAME | CITYNAME | CONFIRMEDCOUNT | CUREDCOUNT | DEADCOUNT | |
---|---|---|---|---|---|
0 | 湖北 | 武汉 | 41152 | 3507 | 1309 |
1 | 湖北 | 孝感 | 3279 | 449 | 70 |
2 | 湖北 | 黄冈 | 2831 | 839 | 78 |
3 | 湖北 | 荆州 | 1501 | 305 | 37 |
4 | 湖北 | 鄂州 | 1274 | 244 | 35 |
5 | 湖北 | 随州 | 1267 | 140 | 24 |
6 | 湖北 | 襄阳 | 1155 | 151 | 20 |
各省分总体(部分)数据如下:
PROVINCESHORTNAME | CONFIRMEDCOUNT | CUREDCOUNT | DEADCOUNT | |
---|---|---|---|---|
0 | 湖北 | 58182 | 6693 | 1696 |
1 | 广东 | 1322 | 524 | 4 |
2 | 河南 | 1246 | 509 | 16 |
3 | 浙江 | 1171 | 507 | 0 |
4 | 湖南 | 1006 | 498 | 3 |
5 | 安徽 | 973 | 280 | 6 |
6 | 江西 | 930 | 275 | 1 |
7 | 江苏 | 626 | 258 | 0 |
8 | 重庆 | 552 | 211 | 5 |
9 | 山东 | 541 | 191 | 2 |
转载请注明:
微信公众号:数据志
简书:数据志
博客园:https://www.cnblogs.com/wheng/
CSDN:https://blog.csdn.net/wzgl__wh
GitHub(数据、代码):https://github.com/hellowangheng/datazhi/tree/master/2019-nCoV
搜狗·疫情数据爬取(Python)相关推荐
- 每日一练:Python国内疫情数据爬取与地图绘制
Python 国内疫情数据爬取与地图绘制 效果图 累计确诊疫情地图绘制 ① 时时数据抓取 ② 获取省份疫情数据 ③ 视觉配置项分段颜色数据设置 ④ 累计确诊疫情地图绘制 现存确诊疫情地图绘制 ① 获取 ...
- 疫情数据爬取,可视化及其预测
疫情数据爬取及可视化 数据爬取及保存(provinceDataGet.py) import requests import json import pandas as pd# 地区 areas = [ ...
- UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码
目录 Python代码 根据需求改写url 报错应对办法 UN Comtrade数据库关于中国台湾的数据 2021/9/28更新:最近有用户反馈下载会出现错误内容如下图,感谢用户@三眼皮138帮忙找出 ...
- UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码——使用动态IP
目录 Virtual Private Network 代理服务器 测试代理IP是否生效 上一篇博文UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码讲了如何使用Python爬取 ...
- 起点中文网月票等字体数据爬取Python
起点中文网收藏量等数据爬取 1.难点分析 通过chrome开发工具分析我么可以得出结论,月票数量不是html文本,而是通过字体生成出来的数字,这时候的爬虫就要复杂一些了. 2.思路分析 先爬取目标网页 ...
- 新冠肺炎疫情数据爬取以及几种简单的地图可视化方法
众所周知,新冠肺炎疫情是一次很流行的全球性公共卫生事件.如今我国疫情已经好了许多,但世界各国的疫情依然严峻.特殊时期,正好尝试一下疫情网络数据的抓取,并用几种python库对数据进行简单的地图可视化( ...
- 全国地铁数据爬取-python
介绍爬取全国地铁站点.地铁线路和发车时刻的方法. 一.两种爬取方法概述 (一)html页面爬取 1. 为了收集全国地铁线路的发车时刻信息,刚开始尝试的方法如下: (1)找到每个城市的地铁官网,如&qu ...
- Java爬虫简解-疫情数据爬取
首先在爬取数据之前需要先找到对应的数据接口,腾讯疫情数据接口 之后会获取到一个json数据, 可以使用json解析工具把json数据格式化,之后就可以使用Java来解析该网站中的数据了,在解析之前需要 ...
- Scrapy爬取1——接口数据爬取准备
本文爬取网页:https://spa1.scrape.center/ 爬取流程: 1.检查页面: 检查网页源代码,查看数据是在网页HTML源代码中还是调用了接口 右键检查页面源代码,未在页面中发现任何 ...
最新文章
- java出现令牌语法错误_java – 令牌“;”,“{”在此令牌之后的语法错误
- centos 6.4 更新163源
- 个人站点提高访问量七大方案
- 【收藏】Zeppelin与Linkis、Scriptis的实践对比
- SSM实现个人博客-day04
- 通向架构师的道路(第十一天)之Axis2 Web Service(二)
- 初识WINCE的HIVE注册表
- mysql 工具 08s01_Mysql管理必备工具Maatkit详解之十四(mk-kill)
- 百度AI实力响应“新基建”号召 Q1财报智能交通成绩亮眼
- 关于代码控制管理的一些想法
- SSH三大框架的工作原理及流程
- 理解Iass Pass SasS三种云服务区别
- 证券公司信息化7-资产管理业务的沿革。为什么要有资产管理系统?
- Shape—自定义图片(详细讲解)
- Markdown详细教程+技巧总结
- CSS - 知识清单(自用)
- 计算机按电源键无法反应,笔记本无法正常开机,按下电源键无任何反应要过一段时间才可以开机...
- 超级内存NVDIMM
- Android 答题
- 三菱PLC以太网MC通讯协议模块