1、背景简介

在数据分析工作中,经常需要对原始的数据集进行清洗、整理以及变换。常用的数据整理与变换工作主要包括:特定分析变量的选取、满足条件的数据记录的筛选、按某一个或几个变量排序、对原始变量进行加工处理并生成新的变量、对数据进行汇总以及分组汇总,比如计算各组的平均值等。

其实,上述的数据处理与变换工作在任何一种SQL语言(如Oracle,MySQL)中都非常容易处理,但是R语言作为一门编程语言,如何高效地完成上述类似SQL语言的数据处理功能?本文介绍的R语言dplyr包正是这方面工作的有力武器之一。

dplyr包是 Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)的杰作, 并自称 a grammar of data manipulation, 他将原本plyr 包中的ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口。

本文试图对该dplyr包的一些基础且常用的功能做简要介绍。主要包括:

  1. 变量筛选函数 select
  2. 记录筛选函数 filter
  3. 排序函数 arrange
  4. 变形(计算)函数 mutate
  5. 汇总函数 summarize
  6. 分组函数 group_by
  7. 多步操作连接符 %>%
  8. 随机抽样函数 sample_n,sample_frac
001.png

2、dplyr包使用介绍

2.1 dplyr包的安装加载与示例数据准备

安装dplyr包。

install.packages("dplyr")
library(dplyr)

安装hflights包,该软件包中的飞机航班数据将用于本文中dplyr包各个函数的演示。

install.packages("hflights")
library(hflights)

通过以下代码,简单了解示例数据集hflights

class(hflights);dim(hflights)
head(hflights)

输出结果如下:
hflights是一个data.frame类型的对象,包含227496条数据记录、21个变量,head函数展示了前6条数据记录。

03.png

在利用dplyr包处理数据之前,需要将数据装载成dplyr包的一个特定对象类型(data frame tbl / tbl_df),也称作 tibble 类型,可以用 tbl_df函数将数据框类型的数据装载成 tibble 类型的数据对象。

packageVersion("dplyr")
tbl_hflights<-tbl_df(hflights)
class(tbl_hflights) tbl_hflights 

输出结果如下:可以看到,将hflights转换成tbl_df类型后,R语言打印数据集tbl_hflights的数据时,仅打印了适合屏幕宽度的数据,屏幕显示不下的剩余两个变量的数据(CancellationCode , Diverted )并没有打印出来,这使得屏幕上打印出来的数据可读性更强,也更美观。此外,还在每一列变量名称的下面显示了变量的类型。

04.png

==p.s. 可以用packageVersion函数查看dplyr包的版本==

2.2 变量筛选select

select函数可以通过指定列名选择指定的变量进行分析。

# 选择制定的变量
select(tbl_hflights,Year,Month,DayofMonth,FlightNum,Distance)
# 用类似于生成数字序列的方式选择变量
# 选择Year开始一直到ArrTime结束的所有变量
3:10
select(tbl_hflights,Year:ArrTime)
# 也可以按照倒过来的顺序选择
select(tbl_hflights,ArrTime:Year)
# 除了选择变量,也可以删除指定的变量 select(tbl_hflights,-Year,-Month,-DayofMonth,-FlightNum,-Distance) select(tbl_hflights,-(Year:ArrTime)) 
05.png

06.png

07.png

08.png

09.png

2.3 数据记录筛选filter

filter函数按照指定的条件筛选符合条件中逻辑判断要求的数据记录,类似于SQL语句中的where语句中的筛选条件。

# 选择2011年1月而且起飞时间为1400的所有数据记录
filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
# '且'的关系也可以用&符号表示,也就是列出的所有条件同时满足
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)
# 选择起飞时间在1400之前的航班
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)
# '或'的关系用|符号表示。选择起飞时间为1400或者1430的航班,且UniqueCarrier为'AA'
filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA') 

上述R语句输出结果如下:

10.png

11.png

12.png

13.png

2.4 数据排序arrange

arrange函数按给定的列名进行排序,默认为升序排列,也可以对列名加desc()进行降序排序。

tbl_hflights1<-select(filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime) # 将数据按照ArrTime升序排序 arrange(tbl_hflights1,ArrTime) # 将数据先按照AirTime降序,再按照ArrTime升序排列 arrange(tbl_hflights1,desc(AirTime),ArrTime) 

上述R语句输出结果如下:

14.png

15.png

2.5 变量变换/重构mutate

mutate函数可以基于原始变量重新计算得到新的变量,在做数据分析预处理的时候经常会用到该功能。

# 由ArrTime-DepTime得到航班的飞行所用时长,并存储在DurTime变量中
# 飞行所用时长(单位:分钟)的计算方式为:小时数*60+分钟数
# 同时将飞行的分钟数,换算成秒。
# 优势在于可以在同一语句中对刚增加的列进行操作。 tbl_hflights2<-mutate(tbl_hflights1, DurTime = (as.numeric(substr(ArrTime,1,2)) - as.numeric(substr(DepTime,1,2)))*60 + as.numeric(substr(ArrTime,3,4)) , Dur_Time1 = DurTime * 60) tbl_hflights2 

上述R语句输出结果如下:

16.png

2.6 数据汇总summarize

summarize函数实现对数据的汇总,比如求和、计算平均值等。

# 计算航班平均飞行时长
summarize(tbl_hflights2,avg_dur = mean(DurTime),sum_air = sum(AirTime))

上述R语句输出结果如下:

18.png

2.7 数据分组group_by

group_by函数实现对数据进行分组,结合summarize函数,可以对分组数据进行汇总统计。

# 按照航空公司分组进行汇总
summarise(group_by(tbl_hflights, UniqueCarrier), m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE), cnt = n(), me = median(AirTime,na.rm = TRUE))

上述R语句输出结果如下:

19.png

2.8 多步操作连接符%>%

dplyr包里还新引进了一个操作符,%>%, 使用时把数据集名作为开头, 然后依次对此数据进行多步操作。
这种运算符的编写方式使得编程者可以按数据处理时的思路写代码, 一步一步操作不断叠加,在程序上就可以非常清晰的体现数据处理的步骤与背后的逻辑。

# 对数据进行分布处理:分组-汇总-排序-打印
tbl_hflights %>%group_by(UniqueCarrier) %>%summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%arrange(desc(m),sd) %>%head(10)

上述R语句输出结果如下:

20.png

2.9 挑选随机样本sample_n, sample_frac

sample_n随机选出指定个数(样本容量)的样本数;sample_frac随机选出指定百分比(占整个数据集总体百分比)的样本数。

# 随机抽取10个样本
sample_n(tbl_hflights,10)
# 随机抽取10%的样本
tbl_hflights %>% sample_frac(0.1) %>%select(Year:UniqueCarrier) %>%group_by(UniqueCarrier) %>%summarize(m = mean(ArrTime,na.rm = TRUE), cnt = n()) %>% arrange(desc(m)) 

上述R语句输出结果如下:

21.png

22.png

3、参考文献与其他学习资料

3.1 dplyr包中自带的参考资料查看

可以通过如下名称查看dplyr包中自带的参考资料。

# 查看自带的参考资料
vignette(package = "dplyr")
vignette("introduction", package = "dplyr")
23.png

24.png

3.2 本文写作用到的参考链接

R语言扩展包dplyr笔记
R语言扩展包dplyr——数据清洗和整理

3.3 RStudio官网的cheatsheet

data-wrangling-cheatsheet

26.png

25.png

作者:monkeylan
链接:https://www.jianshu.com/p/b2abad66cb01
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

转载于:https://www.cnblogs.com/nkwy2012/p/9236933.html

dplyr-高效的数据变换与整理工具--转载相关推荐

  1. 正版推荐 - Fences 4 – 让你的桌面更加整洁与高效的桌面图标文件整理工具软件!

    你的电脑桌面总是杂乱无序?你需要专业的整理工具来帮你管理桌面图标和文件?Fences 4 是你的最佳选择! Fences 4 是一款功能强大.多样化的桌面图标整理工具软件.它可以帮助你轻松整理和管理桌 ...

  2. 机器学习中原始数据处理的常用数据变换方法整理汇总

    在机器学习进行数据处理前,首先要保证所有数据是无量纲的,并且数据是可以比较的,需要采用标准化方法来消除不同数据之间存在的差异.将原始数据进行处理,变为无量纲可比较的过程实际可以看做是归一化的过程. 目 ...

  3. R实战 第六篇:数据变换(aggregate+dplyr)

    数据分析的工作,80%的时间耗费在处理数据上,而数据处理的主要过程可以分为:分离-操作-结合(Split-Apply-Combine),也就是说,首先,把数据根据特定的字段分组,每个分组都是独立的:然 ...

  4. Javascript代码在线整理工具源码

    有些人在写Javascript时并不会去缩进代码,导致代码的可读性非常差,下面这个源码就是专为没有缩进过的JS代码所准备的,他可以将JS代码由杂乱无章变得井井有条,好了话不多说上源码. <!DO ...

  5. R语言dplyr数据变换

    "dplyr数据变换" 这一章主要介绍 filter():筛选 mutate():建立新的变量 group_by(): summarise(): %>%:管道操作 1.fil ...

  6. 山东大学软件学院数据可视化知识点整理

    数据可视化知识点整理 数据可视化主要工具: Google Refine Echarts Pyecharts Tableau R Rrocessing D3(JS) 主要编程工具: Python Lec ...

  7. 常看网页表单数据_数据收集、整理低效繁琐?WPS表单帮你轻松解决

    在21世纪这个高速发展的信息时代,不管我们从事何种职业,身处哪个岗位,几乎都会遇到数据收集及整理这类工作,比如收集用户问题反馈.组织活动报名.投票统计.销售数据统计以及学生/员工资料收集等等. 遇到上 ...

  8. R语言dplyr包学习笔记(吐血整理宇宙无敌详细版)

    出处:AI入门学习 dplyr包主要用于数据清洗和整理,主要功能有:行选择.列选择.统计汇总.窗口函数.数据框交集等是非常高效.友好的数据处理包,学清楚了,基本上数据能随意玩弄,对的,随意玩弄,简直大 ...

  9. 史上最全大数据学习资源整理

    史上最全大数据学习资源整理 ----------------------------------------------------------------------------------- 转载 ...

最新文章

  1. C#学习基本概念之结构与类
  2. 3、编写一个prod()函数,可以接受一个list并利用reduce()求积
  3. 【Paper】2019_Bearing-only circumnavigation control of the multi-agent system around a moving target
  4. 轻松搞懂sscanf和sprintf
  5. 2-3 人工智能需要的基本数学知识|人工智能框架TensorFlow应用实践
  6. Subversion 错误信息一览表
  7. 上百个Android开源项目分享
  8. php文本框输入内容过滤,为什么没能过滤掉文本框输入的所有反斜杠?
  9. C++ 3D物理引擎库BulletPhysics基本使用
  10. 一文带你认清数据仓库“维度模型设计”与“分层架构” | 原力计划
  11. datagridview滚动条自动滚动_一个自适应滚动条的实现
  12. 计算机应用唐家琪,基于机器学习的蛋白质相互作用预测研究
  13. 什么叫结构化程序设计?它的主要内容是什么
  14. linux系统下安装摄像头,Linux下安装摄像头驱动程序的三种方法
  15. torch.nn模块 池化层
  16. 关于Render在不同情况的用法
  17. 编程语言和开发环境的选择
  18. 电子电路:电流镜电路
  19. KSO-sqlserver跨服务器查询方法
  20. Python超市管理系统毕业设计源码111042

热门文章

  1. uos应用_UOS指标的应用详解
  2. nginx的反向代理proxy_pass指令
  3. 项目经理的能力模型和能力提升的方法
  4. HUAWEI华为MateBook X Pro 2020 i7 16GB+512GB (MACHC-WAE9LP)原装出厂系统恢复原厂系统(送解压密码)
  5. 网络攻防技术——嗅探与欺骗
  6. 不带搜索框,数据同步请求,产品按字母分组组件
  7. 左手读红楼梦,右手写 BUG,闲快活
  8. python编程练习--跑马灯
  9. Systemd 技术原理实践
  10. java mock私有方法_JMockit Mock 私有方法和私有属性