2020年美国新冠肺炎疫情数据分析
US_2019COVID
介绍
2020年美国新冠肺炎疫情数据分析–截止2020年9月9日
- 数据处理
- 使用Spark对数据进行分析
- 数据可视化
一、数据处理
1. 数据集分析
数据包含以下字段,具体含义:
date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数
将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。
转换代码见 csv_txt.py
2. 上传文件到HDFS文件系统
hdfs dfs -mkdir /tmp
hdfs dfs -put us-counties.txt /tmp
二、使用Spark对数据进行分析
这里使用spark SQL对数据进行分析,因数据集是txt文件,需要从RDD转换得到DataFrame。
从RDD转换得到DataFrame有两种方法,因不知道数据结构,使用第二种编程方式定义RDD模式。
#生成表头
fields=[StructField("date",DateType(),False),StructField("county",StringType(),False),StructField("state",StringType(),False),StructField("cases",IntegerType(),False),StructField("deaths",IntegerType(),False)]
schema=StructType(fields)#生成表中记录
rdd0=spark.sparkContext.textFile("/tmp/us-counties.txt")
rdd1=rdd0.map(lambda x:x.split("\t")).map(lambda p:Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
#拼接
schemaUsCovid=spark.createDataFrame(rdd1,schema)
#注册临时表
schemaUsCovid.createOrReplaceTempView("usInfo")
其中主要统计了一下8个指标,分别是:
- 计算每日累计确诊病例数和死亡数
- 计算每日较昨日新增确诊病例数和死亡数
- 统计截止9月9日 美国各州累计确诊人数和死亡人数 病死率=死亡率/确诊率
- 统计截止9月9日 美国确诊最多的10个州
- 统计截止9月9日 美国国死亡最多的10个州
- 统计截止9月9日 美国确诊最少的10个州
- 统计截止9月9日 美国死亡最少的10个州
- 统计截止9月9日全美和各州病死率
将结果存储在本地文件系统中。
hdfs dfs -get /tmp/us/result1.json ./result/result1
剩下result文件类似。
完整代码见 dataAnalyst.py
三、数据可视化
使用python第三方库pyecharts作为可视化工具
具体代码见 show.py
具体截图如下:
1.计算每日累计确诊病例数和死亡数
2.计算每日较昨日新增确诊病例数
死亡数
3.统计截止9月9日 美国各州累计确诊人数和死亡人数
4.统计截止9月9日 美国确诊最多的10个州
5.统计截止9月9日 美国国死亡最多的10个州
6.统计截止9月9日 美国确诊最少的10个州
7.统计截止9月9日 美国死亡最少的10个州
8.统计截止9月9日全美和各州病死率
代码地址:https://gitee.com/yxuan-cs/us_2019-covid
参考:http://dblab.xmu.edu.cn/blog/2636-2/
2020年美国新冠肺炎疫情数据分析相关推荐
- 【Python】2020年美国新冠肺炎疫情数据分析
2020年美国新冠肺炎疫情数据分析 一. 需求描述 二. 环境介绍 三. 数据来源描述 四. 数据上传及上传结果查看 五.数据处理过程描述 1.数据集下载 2.格式转换 3.启动Hadoop集群 4. ...
- 【大数据基础】2020年美国新冠肺炎疫情数据分析
https://dblab.xmu.edu.cn/blog/2738 https://dblab.xmu.edu.cn/blog/2636/ spark 安装 安装 Spark2.4.0 sudo t ...
- 【大数据平台】基于Spark的美国新冠肺炎疫情数据分析及预测
(本实验系中国地质大学(武汉)2022年秋期大数据平台及应用课程设计) 一.选题背景 新型冠状病毒疫情是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)导致的2019冠状病毒病(COVID- ...
- 大数据分析实训——使用Spark SQL分析美国新冠肺炎疫情
项目思路: 使用Spark SQL读取文件数据集来生成Data Frame对象,再利用Spark SQL函数对Data Frame对象进行数据分析,并将结果存入MySQL数据库,再以Web网页的形式对 ...
- 新冠肺炎疫情数据可视化分析-FineBI
目录 一.实验(实训)目的 二.实验(实训)原理或方法 三.仪器设备.材料 四.实验(实训)步骤 五.实训记录及结果 <------------------------------------- ...
- 最新!兰州大学发布对上海市的新冠肺炎疫情预测!
这段时间,上海市疫情牵动着所有人的心.据数据显示,自 2022 年 3 月 1 日上海市报告新冠肺炎本土确诊病例和本土无症状感染者以来,截至 2022 年 4 月 10 日 24 时,上海市已累计报告 ...
- Covid-19新冠肺炎疫情相关数据集
亚洲国家最新 Covid-19 新冠疫情数据 亚洲国家 Covid-19 数据,包含国家.总案例.总死亡人数.现有案例.国家人口等详细数据. 数据说明: 1.Country 国家 - 亚洲国家的名 ...
- 爬取并处理中国新冠肺炎疫情数据
项目名称: 爬取并处理中国新冠肺炎疫情数据 目的: 通过Python爬取中国新冠肺炎疫情数据,存入Excel,对此数据分析并进行可视化,制作查询中国疫情情况的GUI界面. 具体内容: 通过Python ...
- 浅析面对新冠肺炎疫情,如何通过供应链弹性管理应对风险?
源于湖北武汉的新冠肺炎,使得2020年春节全国都在抗击疫情的氛围中渡过,随着封城.隔离.返工延迟等各种防疫措施的推进,社会各界产生了对企业生存发展的担忧和焦虑,这种忧虑主要是对企业能否开工.生存的担忧 ...
- 新冠肺炎疫情把科研推上“云端”
来源:新华网 美国威斯康星国家灵长类动物研究中心的戴夫·奥康纳清晨收到在伦敦的一名合作伙伴发来的论文预印本.这项研究在中国完成,两人通过企业协同云端办公软件Slack讨论了一上午.下午2点,奥康纳打开 ...
最新文章
- SlackTextViewController
- 云计算技术 — 云计算的商业模式与部署模式
- 【Arduino】库分析及如何编写自己的Arduino库
- 使用异步Servlet改进应用性能
- 服务器端Session和客户端Session
- OpenShift 4 - 验证 Pod 内部容器 使用 CA 和 ServiceAccount Token访问API服务
- Nginx 基于nginx-sticky-module模块进行会话保持
- [译] 通过官网 Go 语言学习笔记 | How to Write Go Code
- 互联网专用计算机屏保,5款屏保,让你的电脑在闲置时也与众不同。
- IReport导出PDF字体加粗失效
- 批量导出word中的清晰图片
- 照片变老html源码,变老教程,利用ps把年轻人变成老年人效果
- matplotlib如何绘制圆
- 法官的假发是用来吓人的?
- flex little know
- 程序员外包被骂:以为自己是开发?你就是打杂的杂狗!
- 5款工具彻底帮你解决百度网盘限速问题!
- 设计模式全解析(一)——带你搞懂设计模式
- 一个屌丝程序猿的人生(一百二十一)
- entware无法正常安装或路由器重启后环境丢失——梅林entware环境与软件中心“虚拟内存”的冲突