US_2019COVID

介绍

2020年美国新冠肺炎疫情数据分析–截止2020年9月9日

数据处理

使用Spark对数据进行分析

数据可视化

一、数据处理

1. 数据集分析

数据包含以下字段，具体含义：
date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数
将csv文件转为txt文件，方便spark读取生成RDD和DataFrame。
转换代码见 csv_txt.py

2. 上传文件到HDFS文件系统

hdfs dfs -mkdir /tmp
hdfs dfs -put us-counties.txt /tmp

二、使用Spark对数据进行分析

这里使用spark SQL对数据进行分析，因数据集是txt文件，需要从RDD转换得到DataFrame。
从RDD转换得到DataFrame有两种方法，因不知道数据结构，使用第二种编程方式定义RDD模式。

#生成表头
fields=[StructField("date",DateType(),False),StructField("county",StringType(),False),StructField("state",StringType(),False),StructField("cases",IntegerType(),False),StructField("deaths",IntegerType(),False)]
schema=StructType(fields)#生成表中记录
rdd0=spark.sparkContext.textFile("/tmp/us-counties.txt")
rdd1=rdd0.map(lambda x:x.split("\t")).map(lambda p:Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
#拼接
schemaUsCovid=spark.createDataFrame(rdd1,schema)
#注册临时表
schemaUsCovid.createOrReplaceTempView("usInfo")

其中主要统计了一下8个指标，分别是：

计算每日累计确诊病例数和死亡数
计算每日较昨日新增确诊病例数和死亡数
统计截止9月9日美国各州累计确诊人数和死亡人数病死率=死亡率/确诊率
统计截止9月9日美国确诊最多的10个州
统计截止9月9日美国国死亡最多的10个州
统计截止9月9日美国确诊最少的10个州
统计截止9月9日美国死亡最少的10个州
统计截止9月9日全美和各州病死率

将结果存储在本地文件系统中。

hdfs dfs -get /tmp/us/result1.json ./result/result1

剩下result文件类似。

完整代码见 dataAnalyst.py

三、数据可视化

使用python第三方库pyecharts作为可视化工具
具体代码见 show.py
具体截图如下：
1.计算每日累计确诊病例数和死亡数

2.计算每日较昨日新增确诊病例数

死亡数

3.统计截止9月9日美国各州累计确诊人数和死亡人数

4.统计截止9月9日美国确诊最多的10个州

5.统计截止9月9日美国国死亡最多的10个州

6.统计截止9月9日美国确诊最少的10个州

7.统计截止9月9日美国死亡最少的10个州

8.统计截止9月9日全美和各州病死率

代码地址：https://gitee.com/yxuan-cs/us_2019-covid

参考：http://dblab.xmu.edu.cn/blog/2636-2/

2020年美国新冠肺炎疫情数据分析相关推荐

【Python】2020年美国新冠肺炎疫情数据分析
2020年美国新冠肺炎疫情数据分析一. 需求描述二. 环境介绍三. 数据来源描述四. 数据上传及上传结果查看五.数据处理过程描述 1.数据集下载 2.格式转换 3.启动Hadoop集群 4. ...
【大数据基础】2020年美国新冠肺炎疫情数据分析
https://dblab.xmu.edu.cn/blog/2738 https://dblab.xmu.edu.cn/blog/2636/ spark 安装安装 Spark2.4.0 sudo t ...
【大数据平台】基于Spark的美国新冠肺炎疫情数据分析及预测
(本实验系中国地质大学(武汉)2022年秋期大数据平台及应用课程设计) 一.选题背景新型冠状病毒疫情是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)导致的2019冠状病毒病(COVID- ...
大数据分析实训——使用Spark SQL分析美国新冠肺炎疫情
项目思路: 使用Spark SQL读取文件数据集来生成Data Frame对象,再利用Spark SQL函数对Data Frame对象进行数据分析,并将结果存入MySQL数据库,再以Web网页的形式对 ...
新冠肺炎疫情数据可视化分析-FineBI
目录一.实验(实训)目的二.实验(实训)原理或方法三.仪器设备.材料四.实验(实训)步骤五.实训记录及结果 <------------------------------------- ...
最新！兰州大学发布对上海市的新冠肺炎疫情预测！
这段时间,上海市疫情牵动着所有人的心.据数据显示,自 2022 年 3 月 1 日上海市报告新冠肺炎本土确诊病例和本土无症状感染者以来,截至 2022 年 4 月 10 日 24 时,上海市已累计报告 ...
Covid-19新冠肺炎疫情相关数据集
亚洲国家最新 Covid-19 新冠疫情数据亚洲国家 Covid-19 数据,包含国家.总案例.总死亡人数.现有案例.国家人口等详细数据. 数据说明: 1.Country 国家 - 亚洲国家的名 ...
爬取并处理中国新冠肺炎疫情数据
项目名称: 爬取并处理中国新冠肺炎疫情数据目的: 通过Python爬取中国新冠肺炎疫情数据,存入Excel,对此数据分析并进行可视化,制作查询中国疫情情况的GUI界面. 具体内容: 通过Python ...
浅析面对新冠肺炎疫情，如何通过供应链弹性管理应对风险？
源于湖北武汉的新冠肺炎,使得2020年春节全国都在抗击疫情的氛围中渡过,随着封城.隔离.返工延迟等各种防疫措施的推进,社会各界产生了对企业生存发展的担忧和焦虑,这种忧虑主要是对企业能否开工.生存的担忧 ...
新冠肺炎疫情把科研推上“云端”
来源:新华网美国威斯康星国家灵长类动物研究中心的戴夫·奥康纳清晨收到在伦敦的一名合作伙伴发来的论文预印本.这项研究在中国完成,两人通过企业协同云端办公软件Slack讨论了一上午.下午2点,奥康纳打开 ...

2020年美国新冠肺炎疫情数据分析