今天是个特别的日子,小编在这里祝大家情人节快乐!本篇文章继续之前文章提到的关于dplyr包数据处理的函数。错了,小编是准备那天发的,忘发了

R语言在数据整理、分析上面的方法是很多的,并且通俗易懂,相信热衷于用R语言处理数据的同仁也深有体会。

1、数据排序函数

arrange()函数其实和大家经常用的EXCEL中的降序、升序相似,但该函数的功能肯定更便捷、强大,可以按照多列(有序的列)进行排序,函数的基本形式为arrange(data,var1,var2,var3,...),函数默认排序为升序,若需要按照某列降序排序,那么可以在变量名前加desc。

另外当变量众多的时候可以采用延伸的函数arrange_all(data)

下面以R中自带的数据集mtcars、iris为例:

arrange(mtcars,cyl,mpg)arrange(iris,Sepal.Length,Sepal.Width)

2、样本(随机)选取函数

sample_n((tbl, size, replace = FALSE)

参数说明:tbl数据,size选取的数据行数,replace=true/false是否替换样本(主要参数)

sample_n(iris,8,replace=FALSE)

3、计算向量唯一值数量函数

n_distinct(...,na.rm=FALSE)函数是更快且简洁,等同于unique

参数说明:na.rm=FALSE缺失值不会计入

n_distinct(iris$Sepal.Length,na.rm=FALSE)

4、数据选取函数select

select(.data,...)函数按照名称选择变量,同时select中可以使用的函数有starts_with(), ends_with(), contains(),matches(),num_range(),one_of(),everything();rename(.data,...)函数重命名变量

select(mtcars,cyl:drat)
select(mtcars,starts_with("c"))
select(mtcars,contains("m"))

此外还有一些延伸的函数,也很实用select_all(), select_if() and select_at()) and rename_all(), rename_if(), rename_at()

当你越来越熟悉这些函数后,你会发现其实和SQL里面的操作同理,而dplyr包对于sql里面的功能很多都可以实现,在有时候更加高效,你也可以下载dplyr包的原文档,里面还有许多有意思的函数。

下一篇预告:tidyr包中的有趣函数,来一起修行啊

R语言dplyr包:高效数据处理函数arrange、sample_n、n_distinct、select、compute等相关推荐

  1. R语言dplyr包使用group_by函数、arrange函数和filter函数获取每个分组的第一个、第N个、最后一个记录实战

    R语言dplyr包使用group_by函数.arrange函数和filter函数获取每个分组的第一个.第N个.最后一个记录实战 目录

  2. R语言dplyr包使用bind_rows函数纵向合并两个dataframe(行生长)、使用bind_cols函数横向合并两个dataframe(列生长)

    R语言dplyr包使用bind_rows函数纵向合并两个dataframe(行生长).使用bind_cols函数横向合并两个dataframe(列生长) 目录

  3. R语言dplyr包的top_n函数返回dataframe或tibble的前N行数据、dplyr包的top_frac函数返回dataframe或tibble的前百分之N(N%)的数据

    R语言dplyr包的top_n函数返回dataframe或tibble的前N行数据.dplyr包的top_frac函数返回dataframe或tibble的前百分之N(N%)的数据 目录

  4. R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:基于条件判断创建布尔型指示变量、将异常离散编码转化为NA值

    R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:基于条件判断创建布尔型指示变量.将异常离散编码转化为NA值 目录

  5. R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值、负收入替换为NA值

    R语言dplyr包的mutate函数将列添加到dataframe中或者修改现有的数据列:使用na_if()函数将0值替换为NA值.负收入替换为NA值 目录

  6. R语言dplyr包使用anti_join()函数返回在一个dataframe中存在而在另一个dataframe中没有匹配值的所有行实战

    R语言dplyr包使用anti_join()函数返回在一个dataframe中存在而在另一个dataframe中没有匹配值的所有行实战 目录

  7. R语言dplyr包使用case_when函数和mutate函数生成新的数据列实战:基于单列生成新的数据列、基于多列生成新的数据列

    R语言dplyr包使用case_when函数和mutate函数生成新的数据列实战:基于单列生成新的数据列.基于多列生成新的数据列 目录

  8. R语言dplyr包使用recode函数进行数据列内容编码、转换实战:类似于pandas中的map函数(例如,将内容从字符串映射到数值)

    R语言dplyr包使用recode函数进行数据列内容编码.转换实战:类似于pandas中的map函数(例如,将内容从字符串映射到数值) 目录

  9. R语言dplyr包的slice函数提取数据集的数据行实战

    R语言dplyr包的slice函数提取数据集的数据行实战 目录 R语言dplyr包的slice函数提取数据集的数据行实战 #导入dplyr包

  10. R语言dplyr包as.tbl函数(转化为tibble类型)和is.tbl函数(检查数据是否为tibble类型)实战

    R语言dplyr包as.tbl函数(转化为tibble类型)和is.tbl函数(检查数据是否为tibble类型)实战 目录

最新文章

  1. ATS线上报告个别日志过大无法写入问题的解决方法
  2. 深入理解argparse模块中的add_argument的参数(如action等)
  3. Linux系统入门之如何安装Linux系统
  4. Oracle放大招:MySQL 即将支持 Hash Join
  5. iframe之间操作记录
  6. 2016-2017中国房地产走势大数据报告亮相
  7. select2插件+ajax笔记
  8. NOIP 2005 等价表达式 (TYVJ P1060)
  9. 怎样做终端安全防御?
  10. android手机微信收藏功能实现,微信小程序收藏功能的实现代码
  11. 哪个一键重装电脑系统工具好用些?
  12. 地理坐标系介绍:国家2000、西安80、WGS84、火星GCJ02、百度BD09
  13. 从 .NET 开发人员的角度理解 Excel 对象模型 (From MSDN)
  14. 一分钟解决Springboot响应报错:would dispatch back to the current handler URL [/index] agai
  15. java将map转json字符串
  16. mysql goldengate_Goldengate完成Mysql到Mysql的数据同步
  17. HTTP请求报文和响应报文信息
  18. MATLAB常用函数(不定时更新)
  19. 《VS2015运行程序时拒绝访问》
  20. seo优化-SEO实战密码—60天网站流量提高20倍

热门文章

  1. 将应用程序11M内存占用,降至500K
  2. 微型计算机典型组成原理图,51单片机最小系统原理图、PCB及组成原理详解
  3. oracle 谓词推入失效,oracle view 谓词推入
  4. 日本NEC公司确认2016年国防业务部门内部服务器存在安全漏洞
  5. 参加军事夏令营对孩子有没有帮助?
  6. 教师节这天,马云宣布传承计划!六大关键问题首次揭秘
  7. 远程登录Ubuntu
  8. 编译原理——lex 与yacc实例剖析
  9. linux grep显示一行,Linux shell 之grep
  10. 软件项目 风险管理用到的实践_软件项目风险管理方案