#a.数据获取与基本统计分析
#安装并引入COVID19包
##install.packages(“COVID19”)
library(COVID19)

#提取截止至2020年5月31号数据
library(dplyr)
library(lubridate)

rawdata <- data.frame(covid19())
df <- filter(rawdata,month(date)<6)
df <- filter(df,confirmed>1000)
#对国家分组求出确诊人数最大值
group<- df %>% group_by(id)
rank_country <- summarise(group,
max_confirmed=max(confirmed)
)
#按照确诊人数进行排序,rank_country为i的output
rank_country <- arrange(rank_country,desc(max_confirmed))

#计算各个国家的日新增
new <- mutate(rawdata,
lag_1=dplyr::lag(confirmed)
)
new <- mutate(new,
diff_1=confirmed-lag_1)
new <- filter(new,month(date)<6)
new <- filter(new,confirmed>1000)
new <- mutate(new,
day_after=rank(date)
)
new<- new %>% group_by(id)
#计算各个国家最大日新增(max_diff)以及所对应的日期(max_date),max_increase为ii的output
max_increase <- summarise(new,
max_diff=max(diff_1,na.rm = FALSE),
max_date=new[which.max(diff_1),“date”])

#选取有二级单位的国家
unique(rawdata$administrative_area_level_2) #数据集中并未包含二级单位地区
area_level2 <- new[!is.na(new$administrative_area_level_2),] #二级单位地区一列(administrative_area_level_2)为空
#即iiioutput 为空

#b.各国确诊人数时间累计图
library(ggplot2)
library(reshape2)
#提取确诊超过3000的国家数量为78
df2 <- filter(rawdata,month(date)<6)
df2 <- filter(df,confirmed>3000)
country_over_3000 <- unique(df2$id)
length(country_over_?000)
#plot_data为国家为列名,day_after到达1000例后的天数,值为确诊数。
plot_data <- select(new,id,confirmed,day_after)
plot_data <- dcast(plot_data,day_after~id,value.var = “confirmed”)

b <- new[which(new$id %in% country_over_3000),]
#将国家作为因子进行画???
a <- select(b,id,confirmed,day_after)
p <- ggplot(b, aes(x = day_after, y = confirmed , colour = factor(id)))
p + geom_line()

#从上图可知USA确认人数过多,不方便查看,现在剔除USA,画出P2
c <- b[which(!(b$id %in% “USA”)),]
p2 <- ggplot(c, aes(x = day_afte?, y = confirmed , colour = factor(id)))
p2 + geom_line()

###自主分析部分
#c.数据的图形展示
#c-1对截止至2020年5月31日,对美国的确诊,治愈,死亡人数进行绘图泡p3
plot_data2 <- rawdata[which((rawdata$id %in% “USA”)),][,c(2,4:6)]
plot_data2 <- melt(data=plot_?ata2,id.vars=“date”)
p3 <- ggplot(plot_data2,aes(x=date,y=value,colour=factor(variable)))
p3 + geom_line()+labs(tittle=“USA CONDITION”,x=“TIME”,y=“AMOUNT”)
#p3展现了美国确诊,治愈,死亡随时间变化的增长趋势,可以看出确诊人数暂无下降势头,
#同时确诊人数曲线,康复人数曲线,说明由于医疗环境,人员配合等原因,治疗水平较低。

#c-2#c-1对截止至2020年5月31日,对韩国,日本,新加坡三个重点亚洲国际的确诊,治愈,死亡人数进行绘图对比p4
asian_3=c(“JPN”,“KOR”,“SGP”)
plot_data3 <- summarise(group,
max_c?nfirmed=max(confirmed),
max_recover=max(recovered),
max_deaths=max(deaths)
)

plot_data3 <- plot_data3[which(plot_data3$id %in% asian_3),]
plot_data3 <- melt(data=plot_data3,id.vars=“i?”)
col <- c(‘red’,‘green’,‘black’)
p4 <- ggplot(data = plot_data3, mapping =aes(x =id , y = value, fill = factor(variable)))
p4+ geom_bar(stat = ‘identity’, colour= ‘black’, position = ‘dodge’)+scale_fill_manual(values = col, limits=c(“max_confirmed”,“max?recover”,“max_deaths”))+labs(x=“COUNTRY”,y=“AMOUNT”)
#P4展现了韩国,日本,新加坡的确诊,治愈,死亡人数,此图可以直观的对比各国的不同
##相比与JPN与KOR,SPG有更高的确诊人数,却有极低的死亡人数,但治愈人数却远低于确诊人数,说明SPG的医疗水平有限。
##反观JPN与KOR将存量患病人数(确诊-治愈-死亡)保持在很低的水平上,有助于疫情防控。

#d.数据的统计检验
#检验死亡人数与确诊人数是否存在线性关系(只考虑截止至2020年5月31号,确诊人数大于1000的国家)
#计算各个国家确诊人数,死亡人数
tem <- summarise(group,
max_confirmed=max(confirmed),
population=mean(population),
max_deaths=max(deaths)
)
#cor.test()函数进行相关性系数的计算和检验,使用pearson相关性检验
cor.test(tem$max_confirmed,tem$max_deaths,method = “pearson”) #检验结果p<0.05,存在相关性
#单因素方差分析,结果里面还有t值,以及两个P值,P值越小,回归效果越显著.
#倒数第二行R-squared数字越接近于1,回归效果越好。
lm_rel <- lm(max_deaths~max_confirmed,data = tem)
summary(lm_rel)

#var.test()方差检验,检验双样本方差,p值很小
var.test(tem$max_confirmed,tem$max_deaths)

#e.最近7日或7日以上新增确诊为0,判定为疫情得到有效控制
tem2 <- mutate(rawdata,
lag_1=dplyr::lag(confirmed)
)
tem2<- tem2 %>% group_by(id)
tem2 <- mutate(tem2,
diff_1=confirmed-lag_1,
? max_confirm= max(confirmed))
tem3 <- tem2[which(tem2$confirmed==tem2$max_confirm),]
#计算连续0增长天数,保留连续0增长天数大于等于7的国家
tem3<- tem3 %>% group_by(id)
country_list <- summarise(tem3,
count=n()
)
country_list <- country_list[which(country_lis\t$count>=7),]
#回推计算0新增开始日期,得到country_list,列date为起始时间
country_list$date <- Sys.Date()-country_list$count

R语言对COVID19分析作业相关推荐

  1. R语言量化技术分析的百度指数关注度交易策略可视化

    全文链接:http://tecdat.cn/?p=31556 传统的经济理论认为股票市场是有效的,价格波动是对市场信息的反应,投资者能够及时处理所有实时信息并做出最优决策(点击文末"阅读原文 ...

  2. R语言亚组分析 (Subgroup Analysis)及森林图绘制实战

    R语言亚组分析 (Subgroup Analysis)及森林图绘制实战 目录 R语言亚组分析 (Subgroup Analysis)及森林图绘制实战 #亚组分析

  3. R语言伪相关性分析(Spurious Correlation)、相关关系不是因果关系:以哺乳动物数据集msleep为例

    R语言伪相关性分析(Spurious Correlation):相关关系不是因果关系.相关关系不是因果关系.相关关系不是因果关系 #correlation doesn't means causatio ...

  4. R语言伪相关性分析(Spurious Correlation)、相关关系不是因果关系:以缅因州离婚率数据集为例

    R语言伪相关性分析(Spurious Correlation).相关关系不是因果关系:以缅因州离婚率数据集为例 #correlation doesn't means causation 目录

  5. R语言构建生存分析(survival analysis)模型示例

    R语言构建生存分析(survival analysis)模型示例 生存分析处理的是预测特定事件将要发生的时间.它也被称为失败时间分析或死亡时间分析.例如,预测癌症患者存活的天数,或者预测机械系统将要失 ...

  6. pvrect r语言 聚类_技术贴 | R语言——肠型分析:介绍、方法

    点击蓝字↑↑↑"微生态",轻松关注不迷路 导读 2011年,肠型(Enterotypes)的概念首次在<自然>杂志上由Arumugam等[1]提出,该研究发现可以将人类 ...

  7. R语言实现单因素方差分析

    1.方差分析基本原理:是一种分析各类别自变量对数值因变量影响的一种统计方法.自变量对因变量的影响也称为自变量效应.由于影响效应的大小体现为因变量的误差里有多少是由自变量造成的,因此,方差分析通过对数据 ...

  8. R语言逻辑回归预测分析付费用户

    原文链接:http://tecdat.cn/?p=967 对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率(点击文末& ...

  9. r语言实现关联分析--关联规则挖掘(Apriori算法) (r语言预测学习笔记)

    r语言实现关联分析–关联规则挖掘 关联分析: 引子: 我们一般把一件事情发生,对另一间事情也会产生影响的关系叫做关联.而关联分析就是在大量数据中发现项集之间有趣的关联和相关联系(形如"由于某 ...

最新文章

  1. 双屏鼠标经常跑到副屏_1+1gt;2,让ipad变成你的电脑副屏
  2. OpenFace学习(2):FaceNet+SVM匹配人脸
  3. 虚拟化 php性能测试,KVM的一些基准测试和性能测试数据分享
  4. JZOJ 5630. 【NOI2018模拟4.4】Connection
  5. Java学习笔记_字符串/静态static
  6. LeetCode 252. Meeting Rooms (会议室)$
  7. Netsparker超轻量级Web安全漏洞扫描工具使用教程介绍
  8. 【体系结构】Oracle体系结构的独特理解
  9. CentOs虚拟机NAT模式下静态IP的配置
  10. UE4 挂载在Actor上的ParticleSystem特效无法与Actor的RootComponent对齐的问题
  11. 清华大学软件工程课程总结
  12. 推荐6款神器软件,你用过哪些?
  13. zh-CN、zh-Hans区别
  14. springboot整合log4j2报错Unexpected filename extension of file[file__E__classes_log4j2.yml].Should be .xm
  15. 抓取腾讯动漫app的插图链接
  16. 天嵌科技为E9卡片电脑Qt快速入门攻略
  17. 研究生如何进行文献检索和文献阅读
  18. 第二届“长安杯”电子数据竞赛试题wp
  19. 信贷违约风险预测(四)训练模型
  20. java 除以1000,为什么24 * 60 * 60 * 1000 * 1000除以24 * 60 * 60 * 1000在Java中不等于1000?...

热门文章

  1. 全国计算机高新技术bim应用等级,BIM有等级考试吗?BIM等级考试有几种形式?
  2. Linux 命令缩写及参数
  3. Git Cheat Sheet——Git的常用命令和最佳做法
  4. 交通外场及内场设备 前端中端后端设备
  5. OSPF特殊区域之 完全NSSA区域
  6. win7远程桌面怎么关闭计算机,win7系统远程桌面功能关闭掉的操作方法
  7. 手机显示屏二维码读取,产品视觉定位,外观视觉检测方案设计
  8. 财物机器人英文ppt演讲课件_机器人总动员英文ppt
  9. v-cut改善案例_改善开发人员的工作环境-仅分三个阶段
  10. 爱奇艺qsv格式转mp4