US_2019COVID

介绍

2020年美国新冠肺炎疫情数据分析–截止2020年9月9日


  • 数据处理
  • 使用Spark对数据进行分析
  • 数据可视化

一、数据处理

1. 数据集分析


数据包含以下字段,具体含义:
date 日期; county 区县; state 州; cases 截止该日期确诊人数; deaths 截止该日期死亡人数
将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。
转换代码见 csv_txt.py

2. 上传文件到HDFS文件系统

hdfs dfs -mkdir /tmp
hdfs dfs -put us-counties.txt /tmp

二、使用Spark对数据进行分析

这里使用spark SQL对数据进行分析,因数据集是txt文件,需要从RDD转换得到DataFrame。
从RDD转换得到DataFrame有两种方法,因不知道数据结构,使用第二种编程方式定义RDD模式。

#生成表头
fields=[StructField("date",DateType(),False),StructField("county",StringType(),False),StructField("state",StringType(),False),StructField("cases",IntegerType(),False),StructField("deaths",IntegerType(),False)]
schema=StructType(fields)#生成表中记录
rdd0=spark.sparkContext.textFile("/tmp/us-counties.txt")
rdd1=rdd0.map(lambda x:x.split("\t")).map(lambda p:Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
#拼接
schemaUsCovid=spark.createDataFrame(rdd1,schema)
#注册临时表
schemaUsCovid.createOrReplaceTempView("usInfo")

其中主要统计了一下8个指标,分别是:

  1. 计算每日累计确诊病例数和死亡数
  2. 计算每日较昨日新增确诊病例数和死亡数
  3. 统计截止9月9日 美国各州累计确诊人数和死亡人数 病死率=死亡率/确诊率
  4. 统计截止9月9日 美国确诊最多的10个州
  5. 统计截止9月9日 美国国死亡最多的10个州
  6. 统计截止9月9日 美国确诊最少的10个州
  7. 统计截止9月9日 美国死亡最少的10个州
  8. 统计截止9月9日全美和各州病死率

将结果存储在本地文件系统中。

hdfs dfs -get /tmp/us/result1.json ./result/result1

剩下result文件类似。

完整代码见 dataAnalyst.py

三、数据可视化

使用python第三方库pyecharts作为可视化工具
具体代码见 show.py
具体截图如下:
1.计算每日累计确诊病例数和死亡数

2.计算每日较昨日新增确诊病例数

死亡数

3.统计截止9月9日 美国各州累计确诊人数和死亡人数

4.统计截止9月9日 美国确诊最多的10个州

5.统计截止9月9日 美国国死亡最多的10个州

6.统计截止9月9日 美国确诊最少的10个州

7.统计截止9月9日 美国死亡最少的10个州

8.统计截止9月9日全美和各州病死率

代码地址:https://gitee.com/yxuan-cs/us_2019-covid

参考:http://dblab.xmu.edu.cn/blog/2636-2/

2020年美国新冠肺炎疫情数据分析相关推荐

  1. 【Python】2020年美国新冠肺炎疫情数据分析

    2020年美国新冠肺炎疫情数据分析 一. 需求描述 二. 环境介绍 三. 数据来源描述 四. 数据上传及上传结果查看 五.数据处理过程描述 1.数据集下载 2.格式转换 3.启动Hadoop集群 4. ...

  2. 【大数据基础】2020年美国新冠肺炎疫情数据分析

    https://dblab.xmu.edu.cn/blog/2738 https://dblab.xmu.edu.cn/blog/2636/ spark 安装 安装 Spark2.4.0 sudo t ...

  3. 【大数据平台】基于Spark的美国新冠肺炎疫情数据分析及预测

    (本实验系中国地质大学(武汉)2022年秋期大数据平台及应用课程设计) 一.选题背景 新型冠状病毒疫情是由严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)导致的2019冠状病毒病(COVID- ...

  4. 大数据分析实训——使用Spark SQL分析美国新冠肺炎疫情

    项目思路: 使用Spark SQL读取文件数据集来生成Data Frame对象,再利用Spark SQL函数对Data Frame对象进行数据分析,并将结果存入MySQL数据库,再以Web网页的形式对 ...

  5. 新冠肺炎疫情数据可视化分析-FineBI

    目录 一.实验(实训)目的 二.实验(实训)原理或方法 三.仪器设备.材料 四.实验(实训)步骤 五.实训记录及结果 <------------------------------------- ...

  6. 最新!兰州大学发布对上海市的新冠肺炎疫情预测!

    这段时间,上海市疫情牵动着所有人的心.据数据显示,自 2022 年 3 月 1 日上海市报告新冠肺炎本土确诊病例和本土无症状感染者以来,截至 2022 年 4 月 10 日 24 时,上海市已累计报告 ...

  7. Covid-19新冠肺炎疫情相关数据集

    ​ 亚洲国家最新 Covid-19 新冠疫情数据 亚洲国家 Covid-19 数据,包含国家.总案例.总死亡人数.现有案例.国家人口等详细数据. 数据说明: 1.Country 国家 - 亚洲国家的名 ...

  8. 爬取并处理中国新冠肺炎疫情数据

    项目名称: 爬取并处理中国新冠肺炎疫情数据 目的: 通过Python爬取中国新冠肺炎疫情数据,存入Excel,对此数据分析并进行可视化,制作查询中国疫情情况的GUI界面. 具体内容: 通过Python ...

  9. 浅析面对新冠肺炎疫情,如何通过供应链弹性管理应对风险?

    源于湖北武汉的新冠肺炎,使得2020年春节全国都在抗击疫情的氛围中渡过,随着封城.隔离.返工延迟等各种防疫措施的推进,社会各界产生了对企业生存发展的担忧和焦虑,这种忧虑主要是对企业能否开工.生存的担忧 ...

  10. 新冠肺炎疫情把科研推上“云端”

    来源:新华网 美国威斯康星国家灵长类动物研究中心的戴夫·奥康纳清晨收到在伦敦的一名合作伙伴发来的论文预印本.这项研究在中国完成,两人通过企业协同云端办公软件Slack讨论了一上午.下午2点,奥康纳打开 ...

最新文章

  1. SlackTextViewController
  2. 云计算技术 — 云计算的商业模式与部署模式
  3. 【Arduino】库分析及如何编写自己的Arduino库
  4. 使用异步Servlet改进应用性能
  5. 服务器端Session和客户端Session
  6. OpenShift 4 - 验证 Pod 内部容器 使用 CA 和 ServiceAccount Token访问API服务
  7. Nginx 基于nginx-sticky-module模块进行会话保持
  8. [译] 通过官网 Go 语言学习笔记 | How to Write Go Code
  9. 互联网专用计算机屏保,5款屏保,让你的电脑在闲置时也与众不同。
  10. IReport导出PDF字体加粗失效
  11. 批量导出word中的清晰图片
  12. 照片变老html源码,变老教程,利用ps把年轻人变成老年人效果
  13. matplotlib如何绘制圆
  14. 法官的假发是用来吓人的?
  15. flex little know
  16. 程序员外包被骂:以为自己是开发?你就是打杂的杂狗!
  17. 5款工具彻底帮你解决百度网盘限速问题!
  18. 设计模式全解析(一)——带你搞懂设计模式
  19. 一个屌丝程序猿的人生(一百二十一)
  20. entware无法正常安装或路由器重启后环境丢失——梅林entware环境与软件中心“虚拟内存”的冲突

热门文章

  1. python学习笔记——语法基础
  2. 了解 InfoPath 2007十大优势
  3. vue3.0 前进刷新后退缓存
  4. 蓝牙Beacon广播数据包格式以及解析
  5. jar包太大?手把手教你分析 Maven 依赖,完成瘦身优化!
  6. html语言星号,DIV+CSS 星号*
  7. html登陆没反应,ipad屏幕输入密码没反应
  8. Plotting timeseries
  9. 408计算机组成原理学习笔记——存储系统
  10. iOS 实现3Dtouch