搜狗·疫情数据爬取（Python）

上周已经分享过搜狗·疫情数据爬取（R语言），这次分享一下搜狗·疫情数据爬取（Python）

不说废话，直接上代码。有什么问题，可以在留言区讨论。

from urllib import request
from lxml import etree
import re
import pandas as pd
import json

url="http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB"
response = request.urlopen(url)      #请求

html = response.read()#获取
html = html.decode("utf-8")#解码

xml = etree.HTML(html)
datas = xml.xpath('//html/body/script[1]/text()')

datas=re.sub('window.type_page = \"WEB\"\n      window.__INITIAL_STATE__ = ',"",datas[0])

area=json_data["data"]["area"]

citytempdate = []
provincetempdate = []
for i in area:provinceShortName = i["provinceShortName"]confirmedCount = i["confirmedCount"]curedCount = i["curedCount"]deadCount = i["deadCount"]provincetempdate.append([provinceShortName,confirmedCount,curedCount,deadCount])for j in i["cities"]:cityName = j["cityName"]confirmedCount=j["confirmedCount"]curedCount=j["curedCount"]deadCount=j["deadCount"]citytempdate.append([provinceShortName,cityName,confirmedCount,curedCount,deadCount])dt_city = pd.DataFrame(citytempdate,columns=["PROVINCESHORTNAME","CITYNAME","CONFIRMEDCOUNT","CUREDCOUNT","DEADCOUNT"])
dt_province = pd.DataFrame(provincetempdate,columns=["PROVINCESHORTNAME","CONFIRMEDCOUNT","CUREDCOUNT","DEADCOUNT"])

各城市（部分）数据如下：

	PROVINCESHORTNAME	CITYNAME	CONFIRMEDCOUNT	CUREDCOUNT	DEADCOUNT
0	湖北	武汉	41152	3507	1309
1	湖北	孝感	3279	449	70
2	湖北	黄冈	2831	839	78
3	湖北	荆州	1501	305	37
4	湖北	鄂州	1274	244	35
5	湖北	随州	1267	140	24
6	湖北	襄阳	1155	151	20

各省分总体（部分）数据如下：

	PROVINCESHORTNAME	CONFIRMEDCOUNT	CUREDCOUNT	DEADCOUNT
0	湖北	58182	6693	1696
1	广东	1322	524	4
2	河南	1246	509	16
3	浙江	1171	507	0
4	湖南	1006	498	3
5	安徽	973	280	6
6	江西	930	275	1
7	江苏	626	258	0
8	重庆	552	211	5
9	山东	541	191	2

转载请注明：

微信公众号：数据志

简书：数据志

博客园：https://www.cnblogs.com/wheng/

CSDN：https://blog.csdn.net/wzgl__wh

GitHub（数据、代码）：https://github.com/hellowangheng/datazhi/tree/master/2019-nCoV

搜狗·疫情数据爬取（Python）相关推荐

每日一练：Python国内疫情数据爬取与地图绘制
Python 国内疫情数据爬取与地图绘制效果图累计确诊疫情地图绘制 ① 时时数据抓取 ② 获取省份疫情数据 ③ 视觉配置项分段颜色数据设置 ④ 累计确诊疫情地图绘制现存确诊疫情地图绘制 ① 获取 ...
疫情数据爬取，可视化及其预测
疫情数据爬取及可视化数据爬取及保存(provinceDataGet.py) import requests import json import pandas as pd# 地区 areas = [ ...
UN Comtrade（联合国商品贸易统计数据库）数据爬取Python代码
目录 Python代码根据需求改写url 报错应对办法 UN Comtrade数据库关于中国台湾的数据 2021/9/28更新:最近有用户反馈下载会出现错误内容如下图,感谢用户@三眼皮138帮忙找出 ...
UN Comtrade（联合国商品贸易统计数据库）数据爬取Python代码——使用动态IP
目录 Virtual Private Network 代理服务器测试代理IP是否生效上一篇博文UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码讲了如何使用Python爬取 ...
起点中文网月票等字体数据爬取Python
起点中文网收藏量等数据爬取 1.难点分析通过chrome开发工具分析我么可以得出结论,月票数量不是html文本,而是通过字体生成出来的数字,这时候的爬虫就要复杂一些了. 2.思路分析先爬取目标网页 ...
新冠肺炎疫情数据爬取以及几种简单的地图可视化方法
众所周知,新冠肺炎疫情是一次很流行的全球性公共卫生事件.如今我国疫情已经好了许多,但世界各国的疫情依然严峻.特殊时期,正好尝试一下疫情网络数据的抓取,并用几种python库对数据进行简单的地图可视化( ...
全国地铁数据爬取-python
介绍爬取全国地铁站点.地铁线路和发车时刻的方法. 一.两种爬取方法概述 (一)html页面爬取 1. 为了收集全国地铁线路的发车时刻信息,刚开始尝试的方法如下: (1)找到每个城市的地铁官网,如&qu ...
Java爬虫简解-疫情数据爬取
首先在爬取数据之前需要先找到对应的数据接口,腾讯疫情数据接口之后会获取到一个json数据, 可以使用json解析工具把json数据格式化,之后就可以使用Java来解析该网站中的数据了,在解析之前需要 ...
Scrapy爬取1——接口数据爬取准备
本文爬取网页:https://spa1.scrape.center/ 爬取流程: 1.检查页面: 检查网页源代码,查看数据是在网页HTML源代码中还是调用了接口右键检查页面源代码,未在页面中发现任何 ...

搜狗·疫情数据爬取（Python）

搜狗·疫情数据爬取（Python）相关推荐

最新文章

热门文章