出处:AI入门学习

dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等是非常高效、友好的数据处理包,学清楚了,基本上数据能随意玩弄,对的,随意玩弄,简直大大提高数据处理及分析效率。我以为,该包是数据分析必学包之一。学习过程需要大量试验,领悟其中设计的精妙之处。欢迎交流

包安装与加载

install.packages("dplyr")

library(dplyr)

调用mtcars数据&数据集介绍

data(mtcars)

str(mtcars)

本文案例使用数据集 mtcars 具体结构如下,直接加载即可共11个字段,32条数据,每个字段的含义如下:mpg-百公里油耗;cyl-气缸数;disp-排量;hp-马力;drat-轴距;wt-重量; qsec-百公里时间 ;vs-发动机类型

按行筛选: filter()

按给定的逻辑判断筛选出符合要求的子数据集, 类似于 subset() 函数

filter(mtcars, mpg>=22)

filter(mtcars, cyl == 4 | gear == 3)

filter(mtcars, cyl == 4 & gear == 3)

注意: 表示 AND 时要使用 & 而避免 &&

按列筛选:select

select()用列名作参数来选择子数据集。dplyr包中提供了些特殊功能的函数与select函数结合使用,用于筛选变量,包括starts_with,ends_with,contains,matches,one_of,num_range和everything等。用于重命名时,select()只保留参数中给定的列,rename()保留所有的列,只对给定的列重新命名。原数据集行名称会被过滤掉。

data(iris)

iris = tbl_df(iris)

选取变量名前缀包含Petal的列

select(iris, starts_with("Petal"))

选取变量名前缀不包含Petal的列

select(iris, -starts_with("Petal"))

选取变量名后缀包含Width的列

select(iris, ends_with("Width"))

选取变量名后缀不包含Width的列

select(iris, -ends_with("Width"))

选取变量名中包含etal的列

select(iris, contains("etal"))

选取变量名中不包含etal的列

select(iris, -contains("etal"))

正则表达式匹配,返回变量名中包含t的列

select(iris, matches(".t."))

正则表达式匹配,返回变量名中不包含t的列

select(iris, -matches(".t."))

直接选取列

select(iris, Petal.Length, Petal.Width)

返回除Petal.Length和Petal.Width之外的所有列

select(iris, -Petal.Length, -Petal.Width)

使用冒号连接列名,选择多个列

select(iris, Sepal.Length:Petal.Width)

选择字符向量中的列,select中不能直接使用字符向量筛选,需要使用one_of函数

vars <- c("Petal.Length", "Petal.Width")

select(iris, one_of(vars))

返回指定字符向量之外的列

select(iris, -one_of(vars))

返回所有列,一般调整数据集中变量顺序时使用

select(iris, everything())

调整列顺序,把Species列放到最前面

select(iris, Species, everything())

神奇变形函数:mutate()transmute()

mutate()和transmute()函数对已有列进行数据运算并添加为新列,类似于transform() 函数,不同的是可以在同一语句中对刚增添加的列进行操作,mutate()返回的结果集会保留原有变量,transmute()只返回扩展的新变量,原数据集行名称会被过滤掉

1、mutate变量变形

1.1 单个变量操作:mutate可以对数据框中已有的变量进行操作或者增加变量,值得称赞的是,一段mutate的代码中,靠后的变量操作可以操作前期新添加或改变的变量,这是transform所不具备的特性。

1.1.1新增列

mtcars%>% mutate(cyl2 = cyl * 2,cyl4 = cyl2 * 2)

编辑搜图

请点击输入图片描述

1.1.2删除列

mtcars %>% mutate(mpg = NULL,disp = disp * 0.0163871)

mtcars %>% mutate(cyl = NULL)

不需要的列不在了

1.1.3窗口函数应用

mtcars %>% group_by(cyl) %>% mutate(rank = min_rank(desc(mpg)))

mtcars %>% group_by(cyl) %>% mutate(mpg_max = max(mpg))

原来的明细还保留,同时每个分组的统计值算出来了,是不是很方便

1.2 批量操作

同时若你嫌麻烦一个个地对变量进行操作,还可以使用mutate_each函数对数据框中的变量批量操作,通过调整funs(即functions)和vars(variables)参数控制functions的数量,以及参与变形的variables,这里控制variables的技巧与select函数相似。

对每个变量进行排名

mtcars%>%mutate_each(funs(dense_rank))

mpg cyl disp hp drat wt qsec vs am gear carb

1 16 2 13 11 16 9 6 1 2 2 4

2 16 2 13 11 16 12 10 1 2 2 4

3 19 1 6 6 15 7 22 2 2 2 1

4 17 2 16 11 5 16 24 2 1 1 1

5 13 3 23 15 6 18 10 1 1 1 2

对disp的变量进行排名

mtcars%>%mutate_each(funs(dense_rank,min_rank),disp)

mpg cyl disp hp drat wt qsec vs am gear carb dense_rank min_rank

1 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 13 13

2 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 13 13

3 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 6 6

4 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 16 18

5 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 23 27

6 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 15 17

7 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 23 27

对除了disp的变量进行排名

mtcars%>%mutate_each(funs(dense_rank,min_rank),-disp)

2、transmute

返回值中不包含原数据集变量,只保留计算转换后的变量。

mtcars%>%mutate(wt_log=log(wt))

mtcars%>%transmute(wt_log=log(wt))

mtcars %>%mutate(displ_l = disp / 61.0237)

mtcars %>%transmute(displ_l = disp / 61.0237)

排名函数 :ranking

row_number 通用排名,并列的名次结果按先后顺序不一样,靠前出现的元素排名在前

min_rank 通用排名,并列的名次结果一样,占用下一名次。

dense_rank 中国式排名,并列排名不占用名次,如:无论有几个并列第2名,之后的排名仍应该是第3名

percent_rank 按百分比的排名

cume_dist 累计分布区间的排名

ntile 粗略地把向量按堆排名,n即是堆的数量

x = c(5, 1, 3, 2, 2, NA)

row_number(x)

min_rank(x)

dense_rank(x)

percent_rank(x)

cume_dist(x)

ntile(x, 2)

mtcars%>%mutate(dense_rank=cume_dist(cyl))

排序函数: arrange()

注意,排序与排名的区别,结合rank函数理解

按给定的列名依次对行进行排序.

arrange(mtcars, mpg)

arrange(mtcars, mpg,disp)

对列名加 desc() 进行倒序 或者负数:

arrange(mtcars, desc(mpg))

arrange(mtcars, -mpg)

去重函数:distinct

distinct()用于对输入的tbl进行去重,返回无重复的行,类似于 base::unique() 函数,但是处理速度更快。原数据集行名称会被过滤掉。

df <- data.frame( x = sample(10, 100, rep = TRUE),

y = sample(10, 100, rep = TRUE) )

以全部两个变量去重,返回去重后的行数

nrow(distinct(df))

nrow(distinct(df, x, y))

以变量x去重,只返回去重后的x值

distinct(df, x)

以变量y去重,只返回去重后的y值

distinct(df, y)

以变量x去重,返回所有变量

distinct(df, x, .keep_all = TRUE)

以变量y去重,返回所有变量

distinct(df, y, .keep_all = TRUE)

对变量运算后的结果去重

distinct(df, diff = abs(x - y))

汇总函数:summarise

1、直接汇总

返回数据框中变量disp的均值

summarise(mtcars, mean(disp))

返回数据框中变量disp的标准差

summarise(mtcars, sd(disp))

返回数据框中变量disp的最大值及最小值

summarise(mtcars, max(disp), min(disp))

返回数据框mtcars的行数

summarise(mtcars, n())

返回unique的gear数

summarise(mtcars, n_distinct(gear))

返回disp的第一个值

summarise(mtcars, first(disp))

返回disp的最后个值

summarise(mtcars, last(disp))

2、分组统计

按变量cyl分组,求disp的均值和个数

mtcars %>%group_by(cyl) %>%

summarise(mean = mean(disp), n = n())

按变量cyl, vs分组,求每个组的记录数

mtcars %>%

group_by(cyl, vs) %>%

summarise(cyl_n = n()) %>%

group_vars()

按变量cyl分组,求disp的均值和标准差

group_by(cyl) %>%

summarise(disp = mean(disp), sd = sd(disp))

数据匹配函数:join 系列

数据框中经常需要将多个表进行连接操作, 如左连接、右连接、内连接等,dplyr包也提供了数据集的连接操作,

类似于 base::merge() 函数。语法如下:

内连接,合并数据仅保留匹配的记录

inner_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

左连接,向数据集x中加入匹配的数据集y记录

left_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

右连接,向数据集y中加入匹配的数据集x记录

right_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

全连接,合并数据保留所有记录,所有行

full_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

返回能够与y表匹配的x表所有记录

semi_join(x,y, by = NULL, copy = FALSE, ...)

返回无法与y表匹配的x表的所有记录

anti_join(x, y, by = NULL, copy = FALSE, ...)

df1 = data.frame(CustomerId=c(1:6), sex = c("f", "m", "f", "f", "m", "m"), Product=c(rep("Toaster",3), rep("Radio",3)))

df2 = data.frame(CustomerId=c(2,4,6,7),sex = c( "m", "f", "m", "f"), State=c(rep("Alabama",3), rep("Ohio",1)))

内连接,默认使用"CustomerId"和"sex"连接

inner_join(df1, df2)

左连接,默认使用"CustomerId"和"sex"连接

left_join(df1, df2)

右连接,默认使用"CustomerId"和"sex"连接

right_join(df1, df2)

全连接,默认使用"CustomerId"和"sex"连接

full_join(df1, df2)

内连接,使用"CustomerId"连接,同名字段sex会自动添加后缀

inner_join(df1, df2, by = c("CustomerId" = "CustomerId"))

以CustomerId连接,返回df1中与df2匹配的记录

semi_join(df1, df2, by = c("CustomerId" = "CustomerId"))

以CustomerId和sex连接,返回df1中与df2不匹配的记录

anti_join(df1, df2)

集合操作函数: set

dplyr也提供了集合操作函数,实际上是对base包中的集合操作的重写,但是对数据框和其它表格形式的数据操作更加高效。语法如下:

取两个集合的交集

intersect(x,y, ...)

取两个集合的并集,并进行去重

union(x,y, ...)

取两个集合的并集,不去重

union_all(x,y, ...)

取两个集合的差集

setdiff(x,y, ...)

判断两个集合是否相等

setequal(x, y, ...)

mtcars$model <- rownames(mtcars)

first <- mtcars[1:20, ]

second <- mtcars[10:32, ]

intersect(first, second)

取两个集合的并集,并去重

union(first, second)

取两个集合的差集,返回first中存在但second中不存在的记录

setdiff(first, second)

取两个集合的交集,返回second中存在但first中不存在的记录

setdiff(second, first)

取两个集合的交集, 不去重

union_all(first, second)

判断两个集合是否相等,返回TRUE

setequal(mtcars, mtcars[32:1, ])

汇总函数:tally系列

tally是一个很方便的计数函数,其根据最初的调用而决定下一次调用n或者sum(n)。它还有其他的小伙伴比如count和n,都是计数家族的。

iris%>%group_by(Species)%>%tally

抽样函数:sample系列

此sample系列是对数据框进行随机抽样,只作用于数据框和dplyr自带的tbl等格式的数据。sample_n为按行数随机抽样,而sample_frac为按比例抽样;其weight参数可以设置抽样的权重而replace参数为有放回抽样。

sample_n(mtcars,2,replace=TRUE)

sample_n(mtcars,2,weight=mpg/mean(mpg))

sample_frac(mtcars,0.1)

sample_frac(mtcars,0.1,weight=1/mpg)

http://www.taodudu.cc/news/show-4160110.html

相关文章:

  • R基本操作
  • C++相关问题笔记(一)
  • HDU 5441并查集 by cyl
  • HDU 5437by cyl优先队列
  • 汇编启蒙题--by cyl老师
  • solaris linux 计算磁盘容量 cyl alt sec
  • Cyl
  • iOS-CYLTabBarController【好用的TabbarController】
  • HTML总结【详细】
  • 两年数据对比柱形图_办公小技巧:让Excel图表对比更轻松
  • 两年数据对比柱形图_同期数据对比,你会做这样特殊的柱形图吗?趋势、差异值一目了然...
  • 大数据与传统数据对比
  • MySQL数据对比
  • 两年数据对比柱形图_【系列课程】用Excel进行数据可视化组合图表的制作lt;二gt;...
  • 差异数据的对比和整理
  • KEIL MDK5 更好用 更简洁 的ARM开发环境
  • 日本最惨数学天才!37岁裸辞,房子被政府没收,向全村人乞讨,一家五口只能吃野菜.........
  • JAVA Swing主题 简洁扁平化苹果风格主题
  • CollapsingToolbarLayout用法详解(简洁易懂)
  • 比官方更简洁的Tensorflow入门教程
  • 使用Word Embedding构造简洁有效的文本摘要系统
  • 浅谈Retrofit封装-让框架更加简洁易用
  • MYSQL 命令行大全 (简洁、明了、全面)
  • 简洁Python命名规范
  • 简洁风个人主页(1) html 静态布局
  • Jupyter Notebook简洁教程
  • 洁厕灵的工作原理、使用方法和危害 //2021-1-27
  • html5星空效果图,HTML5 canvas炫酷星空背景特效
  • echarts (二) 之canvas设置地图背景图
  • VSCode_VS2019体验背景靓图

R语言dplyr包学习笔记(吐血整理宇宙无敌详细版)相关推荐

  1. 【转载】R语言dplyr包学习笔记(吐血整理宇宙无敌详细版)

    出处:AI入门学习 dplyr包介绍 dplyr包主要用于数据清洗和整理,主要功能有:行选择.列选择.统计汇总.窗口函数.数据框交集等是非常高效.友好的数据处理包,学清楚了,基本上数据能随意玩弄,对的 ...

  2. R语言ggplot2包学习笔记

    声明 本系列是跟着<R数据科学>来学习的. aes内外使用color的差别 ggplot2自带的数据框 > str(mpg) Classes 'tbl_df', 'tbl' and ...

  3. 语言 提取列名_学习健明老师发布的R语言练习题的学习笔记(二)

    学习者:骆栢维 题目来源:生信基石之R语言 中级10 个题目:http://www.bio-info-trainee.com/3750.html 备注:本文为笔者学习健明老师GitHub答案代码的学习 ...

  4. R语言与机器学习学习笔记(分类算法)

    转载自:http://www.itongji.cn/article/0P534092014.html 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经 ...

  5. R语言dplyr包超完整版函数指南

    R语言dplyr包的使用 一.常用函数功能速查 二.常用函数详解 iris数据集 1. 取子集 filter/distinct slice select 2. 窗口函数 3. 连接合并 left_jo ...

  6. R语言dplyr包通过数据列的索引重命名数据列实战(Rename Column by Index Position)

    R语言dplyr包通过数据列的索引重命名数据列实战(Rename Column by Index Position) 目录 R语言dplyr包通过数据列的索引重命名数据列实战(Rename Colum ...

  7. R语言dplyr包使用bind_rows函数纵向合并两个dataframe(行生长)、使用bind_cols函数横向合并两个dataframe(列生长)

    R语言dplyr包使用bind_rows函数纵向合并两个dataframe(行生长).使用bind_cols函数横向合并两个dataframe(列生长) 目录

  8. R语言dplyr包的top_n函数返回dataframe或tibble的前N行数据、dplyr包的top_frac函数返回dataframe或tibble的前百分之N(N%)的数据

    R语言dplyr包的top_n函数返回dataframe或tibble的前N行数据.dplyr包的top_frac函数返回dataframe或tibble的前百分之N(N%)的数据 目录

  9. R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:基于条件判断创建布尔型指示变量、将异常离散编码转化为NA值

    R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:基于条件判断创建布尔型指示变量.将异常离散编码转化为NA值 目录

最新文章

  1. LabVIEW跳转访问网页
  2. spring-session源码解读 sesion
  3. wpf prism IRegionManager 和IRegionViewRegistry
  4. nGQL中vid值过长被截断的处理方法
  5. 您的MyFitnessPal帐户几乎肯定已被黑客入侵,请立即更改密码
  6. 可怕的北京大学出版社--javascript也叫java
  7. 雷军恭喜苏炳添全运会夺冠:你是小米精神的最好代言
  8. py2exe支持python3.6_使用Py2Exe for Python3创建自己的exe程序示例
  9. 608. 两数和-输入已排序的数组
  10. kmz文件转为arcgis的图层(制作底图)
  11. 【linux】du命令
  12. 制造企业年终仓库盘点有哪些好的方法
  13. 循环el-color-picker修改echarts饼图配色
  14. c语言致命错误无法打开网页,电脑中IE浏览器显示异常或无法打开网页崩溃的解决方法...
  15. 漫天繁星构成文字情话
  16. signature=9aadee6a3f882c84134bf5f6f04d2c93,Fw: Updated Scor Input Requirements
  17. MySql基础篇---004 其它数据库对象篇:视图,存储过程与函数,变量、流程控制与游标 ,触发器
  18. Restful API 生成复杂Json数据结构及使用客户端解析该数据结构(三)
  19. macos U盘引导安装
  20. 西门子1200PLC模板通讯程序,包含多种通讯Modbus-RTU(485),S7通讯

热门文章

  1. floor()函数与round()函数
  2. R语言使用dcauchy函数生成柯西分布密度函数数据、使用plot函数可视化柯西分布密度函数数据(Cauchy distribution)
  3. DearMob iPhone Manager for Mac(iPhone手机数据加密传输软件)
  4. PMP项目管理证书有用吗?
  5. KOG注释[Ubuntu 15.10系统]
  6. 网易云信 UI 开发
  7. LeCo-142. 环形链表 II
  8. 软件推荐!真正免费的思维导图软件,全在这里了!
  9. css背景图片高斯模糊_CSS3 filter(滤镜) 制作图片高斯模糊无需JS
  10. relative的使用