上周已经分享过搜狗·疫情数据爬取(R语言),这次分享一下搜狗·疫情数据爬取(Python)

不说废话,直接上代码。有什么问题,可以在留言区讨论。

from urllib import request
from lxml import etree
import re
import pandas as pd
import json
​
url="http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB"
response = request.urlopen(url)      #请求
​
html = response.read()#获取
html = html.decode("utf-8")#解码
​
xml = etree.HTML(html)
datas = xml.xpath('//html/body/script[1]/text()')
​
datas=re.sub('window.type_page = \"WEB\"\n      window.__INITIAL_STATE__ = ',"",datas[0])
​
area=json_data["data"]["area"]
​
citytempdate = []
provincetempdate = []
for i in area:provinceShortName = i["provinceShortName"]confirmedCount = i["confirmedCount"]curedCount = i["curedCount"]deadCount = i["deadCount"]provincetempdate.append([provinceShortName,confirmedCount,curedCount,deadCount])for j in i["cities"]:cityName = j["cityName"]confirmedCount=j["confirmedCount"]curedCount=j["curedCount"]deadCount=j["deadCount"]citytempdate.append([provinceShortName,cityName,confirmedCount,curedCount,deadCount])dt_city = pd.DataFrame(citytempdate,columns=["PROVINCESHORTNAME","CITYNAME","CONFIRMEDCOUNT","CUREDCOUNT","DEADCOUNT"])
dt_province = pd.DataFrame(provincetempdate,columns=["PROVINCESHORTNAME","CONFIRMEDCOUNT","CUREDCOUNT","DEADCOUNT"])
​
​

各城市(部分)数据如下:

  PROVINCESHORTNAME CITYNAME CONFIRMEDCOUNT CUREDCOUNT DEADCOUNT
0 湖北 武汉 41152 3507 1309
1 湖北 孝感 3279 449 70
2 湖北 黄冈 2831 839 78
3 湖北 荆州 1501 305 37
4 湖北 鄂州 1274 244 35
5 湖北 随州 1267 140 24
6 湖北 襄阳 1155 151 20

各省分总体(部分)数据如下:

  PROVINCESHORTNAME CONFIRMEDCOUNT CUREDCOUNT DEADCOUNT
0 湖北 58182 6693 1696
1 广东 1322 524 4
2 河南 1246 509 16
3 浙江 1171 507 0
4 湖南 1006 498 3
5 安徽 973 280 6
6 江西 930 275 1
7 江苏 626 258 0
8 重庆 552 211 5
9 山东 541 191 2

转载请注明:

微信公众号:数据志

简书:数据志

博客园:https://www.cnblogs.com/wheng/

CSDN:https://blog.csdn.net/wzgl__wh

GitHub(数据、代码):https://github.com/hellowangheng/datazhi/tree/master/2019-nCoV

搜狗·疫情数据爬取(Python)相关推荐

  1. 每日一练:Python国内疫情数据爬取与地图绘制

    Python 国内疫情数据爬取与地图绘制 效果图 累计确诊疫情地图绘制 ① 时时数据抓取 ② 获取省份疫情数据 ③ 视觉配置项分段颜色数据设置 ④ 累计确诊疫情地图绘制 现存确诊疫情地图绘制 ① 获取 ...

  2. 疫情数据爬取,可视化及其预测

    疫情数据爬取及可视化 数据爬取及保存(provinceDataGet.py) import requests import json import pandas as pd# 地区 areas = [ ...

  3. UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码

    目录 Python代码 根据需求改写url 报错应对办法 UN Comtrade数据库关于中国台湾的数据 2021/9/28更新:最近有用户反馈下载会出现错误内容如下图,感谢用户@三眼皮138帮忙找出 ...

  4. UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码——使用动态IP

    目录 Virtual Private Network 代理服务器 测试代理IP是否生效 上一篇博文UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码讲了如何使用Python爬取 ...

  5. 起点中文网月票等字体数据爬取Python

    起点中文网收藏量等数据爬取 1.难点分析 通过chrome开发工具分析我么可以得出结论,月票数量不是html文本,而是通过字体生成出来的数字,这时候的爬虫就要复杂一些了. 2.思路分析 先爬取目标网页 ...

  6. 新冠肺炎疫情数据爬取以及几种简单的地图可视化方法

    众所周知,新冠肺炎疫情是一次很流行的全球性公共卫生事件.如今我国疫情已经好了许多,但世界各国的疫情依然严峻.特殊时期,正好尝试一下疫情网络数据的抓取,并用几种python库对数据进行简单的地图可视化( ...

  7. 全国地铁数据爬取-python

    介绍爬取全国地铁站点.地铁线路和发车时刻的方法. 一.两种爬取方法概述 (一)html页面爬取 1. 为了收集全国地铁线路的发车时刻信息,刚开始尝试的方法如下: (1)找到每个城市的地铁官网,如&qu ...

  8. Java爬虫简解-疫情数据爬取

    首先在爬取数据之前需要先找到对应的数据接口,腾讯疫情数据接口 之后会获取到一个json数据, 可以使用json解析工具把json数据格式化,之后就可以使用Java来解析该网站中的数据了,在解析之前需要 ...

  9. Scrapy爬取1——接口数据爬取准备

    本文爬取网页:https://spa1.scrape.center/ 爬取流程: 1.检查页面: 检查网页源代码,查看数据是在网页HTML源代码中还是调用了接口 右键检查页面源代码,未在页面中发现任何 ...

最新文章

  1. java出现令牌语法错误_java – 令牌“;”,“{”在此令牌之后的语法错误
  2. centos 6.4 更新163源
  3. 个人站点提高访问量七大方案
  4. 【收藏】Zeppelin与Linkis、Scriptis的实践对比
  5. SSM实现个人博客-day04
  6. 通向架构师的道路(第十一天)之Axis2 Web Service(二)
  7. 初识WINCE的HIVE注册表
  8. mysql 工具 08s01_Mysql管理必备工具Maatkit详解之十四(mk-kill)
  9. 百度AI实力响应“新基建”号召 Q1财报智能交通成绩亮眼
  10. 关于代码控制管理的一些想法
  11. SSH三大框架的工作原理及流程
  12. 理解Iass Pass SasS三种云服务区别
  13. 证券公司信息化7-资产管理业务的沿革。为什么要有资产管理系统?
  14. Shape—自定义图片(详细讲解)
  15. Markdown详细教程+技巧总结
  16. CSS - 知识清单(自用)
  17. 计算机按电源键无法反应,笔记本无法正常开机,按下电源键无任何反应要过一段时间才可以开机...
  18. 超级内存NVDIMM
  19. Android 答题
  20. 三菱PLC以太网MC通讯协议模块

热门文章

  1. fwrite ,fprintf的作用与区别
  2. C++递归与非递归实现全排列
  3. list保留小数位数
  4. jittor和pytorch生成网络对比之wgan
  5. MySQL之慢查询日志分析
  6. Linux之因BASH造成的键盘错误和环境问题
  7. 标准模板库(STL)学习指南之map映射
  8. shell定时执行hive脚本文件
  9. 迅雷“星域”打通最后一公里重新定义CDN
  10. Oracle中数据导出成CVS,EXCEL