R语言dplyr包:高效数据处理函数arrange、sample_n、n_distinct、select、compute等
今天是个特别的日子,小编在这里祝大家情人节快乐!本篇文章继续之前文章提到的关于dplyr包数据处理的函数。错了,小编是准备那天发的,忘发了
R语言在数据整理、分析上面的方法是很多的,并且通俗易懂,相信热衷于用R语言处理数据的同仁也深有体会。
1、数据排序函数
arrange()函数其实和大家经常用的EXCEL中的降序、升序相似,但该函数的功能肯定更便捷、强大,可以按照多列(有序的列)进行排序,函数的基本形式为arrange(data,var1,var2,var3,...),函数默认排序为升序,若需要按照某列降序排序,那么可以在变量名前加desc。
另外当变量众多的时候可以采用延伸的函数arrange_all(data)
下面以R中自带的数据集mtcars、iris为例:
arrange(mtcars,cyl,mpg)arrange(iris,Sepal.Length,Sepal.Width)
2、样本(随机)选取函数
sample_n((tbl, size, replace = FALSE)
参数说明:tbl数据,size选取的数据行数,replace=true/false是否替换样本(主要参数)
sample_n(iris,8,replace=FALSE)
3、计算向量唯一值数量函数
n_distinct(...,na.rm=FALSE)函数是更快且简洁,等同于unique
参数说明:na.rm=FALSE缺失值不会计入
n_distinct(iris$Sepal.Length,na.rm=FALSE)
4、数据选取函数select
select(.data,...)函数按照名称选择变量,同时select中可以使用的函数有starts_with(), ends_with(), contains(),matches(),num_range(),one_of(),everything();rename(.data,...)函数重命名变量
select(mtcars,cyl:drat)
select(mtcars,starts_with("c"))
select(mtcars,contains("m"))
此外还有一些延伸的函数,也很实用select_all(), select_if() and select_at()) and rename_all(), rename_if(), rename_at()
当你越来越熟悉这些函数后,你会发现其实和SQL里面的操作同理,而dplyr包对于sql里面的功能很多都可以实现,在有时候更加高效,你也可以下载dplyr包的原文档,里面还有许多有意思的函数。
下一篇预告:tidyr包中的有趣函数,来一起修行啊
R语言dplyr包:高效数据处理函数arrange、sample_n、n_distinct、select、compute等相关推荐
- R语言dplyr包使用group_by函数、arrange函数和filter函数获取每个分组的第一个、第N个、最后一个记录实战
R语言dplyr包使用group_by函数.arrange函数和filter函数获取每个分组的第一个.第N个.最后一个记录实战 目录
- R语言dplyr包使用bind_rows函数纵向合并两个dataframe(行生长)、使用bind_cols函数横向合并两个dataframe(列生长)
R语言dplyr包使用bind_rows函数纵向合并两个dataframe(行生长).使用bind_cols函数横向合并两个dataframe(列生长) 目录
- R语言dplyr包的top_n函数返回dataframe或tibble的前N行数据、dplyr包的top_frac函数返回dataframe或tibble的前百分之N(N%)的数据
R语言dplyr包的top_n函数返回dataframe或tibble的前N行数据.dplyr包的top_frac函数返回dataframe或tibble的前百分之N(N%)的数据 目录
- R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:基于条件判断创建布尔型指示变量、将异常离散编码转化为NA值
R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:基于条件判断创建布尔型指示变量.将异常离散编码转化为NA值 目录
- R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值、负收入替换为NA值
R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值.负收入替换为NA值 目录
- R语言dplyr包使用anti_join()函数返回在一个dataframe中存在而在另一个dataframe中没有匹配值的所有行实战
R语言dplyr包使用anti_join()函数返回在一个dataframe中存在而在另一个dataframe中没有匹配值的所有行实战 目录
- R语言dplyr包使用case_when函数和mutate函数生成新的数据列实战:基于单列生成新的数据列、基于多列生成新的数据列
R语言dplyr包使用case_when函数和mutate函数生成新的数据列实战:基于单列生成新的数据列.基于多列生成新的数据列 目录
- R语言dplyr包使用recode函数进行数据列内容编码、转换实战:类似于pandas中的map函数(例如,将内容从字符串映射到数值)
R语言dplyr包使用recode函数进行数据列内容编码.转换实战:类似于pandas中的map函数(例如,将内容从字符串映射到数值) 目录
- R语言dplyr包的slice函数提取数据集的数据行实战
R语言dplyr包的slice函数提取数据集的数据行实战 目录 R语言dplyr包的slice函数提取数据集的数据行实战 #导入dplyr包
- R语言dplyr包as.tbl函数(转化为tibble类型)和is.tbl函数(检查数据是否为tibble类型)实战
R语言dplyr包as.tbl函数(转化为tibble类型)和is.tbl函数(检查数据是否为tibble类型)实战 目录
最新文章
- ATS线上报告个别日志过大无法写入问题的解决方法
- 深入理解argparse模块中的add_argument的参数(如action等)
- Linux系统入门之如何安装Linux系统
- Oracle放大招:MySQL 即将支持 Hash Join
- iframe之间操作记录
- 2016-2017中国房地产走势大数据报告亮相
- select2插件+ajax笔记
- NOIP 2005 等价表达式 (TYVJ P1060)
- 怎样做终端安全防御?
- android手机微信收藏功能实现,微信小程序收藏功能的实现代码
- 哪个一键重装电脑系统工具好用些?
- 地理坐标系介绍:国家2000、西安80、WGS84、火星GCJ02、百度BD09
- 从 .NET 开发人员的角度理解 Excel 对象模型 (From MSDN)
- 一分钟解决Springboot响应报错:would dispatch back to the current handler URL [/index] agai
- java将map转json字符串
- mysql goldengate_Goldengate完成Mysql到Mysql的数据同步
- HTTP请求报文和响应报文信息
- MATLAB常用函数(不定时更新)
- 《VS2015运行程序时拒绝访问》
- seo优化-SEO实战密码—60天网站流量提高20倍