R语言中dim函数_R语言常见函数知识点梳理与解析

目录

1、str() 显示数据集和变量类型，并简要展示数据集情况

2、subset() 取子集

3、which.min(), which.max()和which()

4、pmin( )/ pmax( )

5、complete.cases( ) 判断对象中是否数据完全

6、grep()找出所数据框中元素所在的列值(仅数据框中)

7、assign()通过变量名的字符串来赋值

8、 split()根据因子变量拆分数据框/向量

9、unique()返回 x 但是省去重复的数值

10、round()，floor()和ceiling()

11、sign() 符号函数

12、%in% 检验x是否为集合y中的元素(x%in%y )

13、ls( )用来列出现存的所有对象

常见函数列表

14、数据管理相关

15、字符串处理函数

16、因子

17、数学计算

18、数组相关

19、逻辑运算

20、控制结构相关

21、自定义函数相关

22、输入输出

23、工作环境

24、简单统计量

25、时间序列

【往期回顾】

R语言 | 第一部分：数据预处理

R语言|第2讲：生成数据

R语言常用的数据输入与输出方法 | 第三讲

R语言数据管理与dplyr、tidyr | 第4讲

R语言控制流：for、while、ifelse和自定义函数function|第5讲

正文

1、str() 显示数据集和变量类型，并简要展示数据集情况

> data(mtcars)> str(mtcars)'data.frame':   32 obs. of  11 variables: $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... $ cyl : num  6 6 4 6 8 6 8 4 4 6 ... $ disp: num  160 160 108 258 360 ... $ hp  : num  110 110 93 110 175 105 245 62 95 123 ... $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... $ wt  : num  2.62 2.88 2.32 3.21 3.44 ... $ qsec: num  16.5 17 18.6 19.4 17 ... $ vs  : num  0 0 1 1 0 1 0 1 1 1 ... $ am  : num  1 1 1 0 0 0 0 0 0 0 ... $ gear: num  4 4 4 3 3 3 3 4 4 4 ... $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

2、subset() 取子集

条件筛选后，mtcars_df数据集为20 obs.

> data(mtcars)> str(mtcars)'data.frame':   32 obs. of  11 variables: #……省略部分内容 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ... #……省略部分内容> mtcars_df  3)> str(mtcars_df)'data.frame':   20 obs. of  11 variables: #……省略部分内容 $ wt  : num  3.21 3.44 3.46 3.57 3.19 ... #……省略部分内容

3、which.min(), which.max()和which()

which(), which.max(), which.min()返回的是位置(索引)

which(x, arr.ind = FALSE, useNames = TRUE)

x是一个向量或者数组；arr.ind = FALSE 默认返回数组索引

> set.seed(1)> x > x [1] -0.6264538  0.1836433 -0.8356286  1.5952808  0.3295078 -0.8204684  0.4874291 [8]  0.7383247  0.5757814 -0.3053884> which(x > 0) #显示x>0的所有数值[1] 2 4 5 7 8 9> which.min(x) #显示min(x)的所有数值的位置[1] 3> which.max(x) #显示max(x)的所有数值的位置[1] 4> plot(1:10,x) #如下图

> y > which(y > 5) #显示x>5的所有数值[1]  6  7  8  9 10 > which(y > 5,arr.ind = TRUE) #显示x>5的所有数值的位置     row col[1,]   1   2[2,]   2   2[3,]   3   2[4,]   4   2[5,]   5   2

4、pmin( )/ pmax( )

把多个等长度的向量按元素逐个对比，返回所有向量的第K个元素中最小(最大)值

> x > y > > pmin(x,y)[1] 1 2 1 3 4> pmax(x,y)[1] 2 5 3 4 5

5、complete.cases( ) 判断对象中是否数据完全

complete.case()可以判断对象中是否数据完全，然后返回TRUE, FALSE。这一函数在去除数据框中缺失值时很有用。

> x 1,> x     [,1][1,]    1[2,]    2[3,]   NA[4,]    4> complete.cases(x)[1]  TRUE  TRUE FALSE  TRUE> x[complete.cases(x),][1] 1 2 4

6、grep()找出所数据框中元素所在的列值(仅数据框中)

> x > x  X1 X21  1 NA2  2  4> grep(1,x)[1] 1> grep(2,x)[1] 1> grep(4,x)[1] 2

7、assign()通过变量名的字符串来赋值

> assign("x",c(1:10))> x [1]  1  2  3  4  5  6  7  8  9 10

8、 split()根据因子变量拆分数据框/向量

split(x，f)；x 可以为向量或者数据框，f 为对应的因子，函数以列表的形式返回

> x = data.frame(matrix(1:10,nrow = 5))> MorFM = c("Female","Male","Female","Female","Female")> split(x,MorFM)$Female  X1 X21  1  63  3  84  4  95  5 10$Male  X1 X22  2  7> yx > yx$Female  X1 X21  1  63  3  84  4  95  5 10> yx$Male  X1 X22  2  7

9、unique()返回 x 但是省去重复的数值

> x <- c(1:5,2:10,3,5)> x [1]  1  2  3  4  5  2  3  4  5  6  7  8  9 10  3  5> unique(x) [1]  1  2  3  4  5  6  7  8  9 10

10、round()，floor()和ceiling()

round()四舍五入取整；floor()向下取整；ceiling()向上取整

> round(3.5)[1] 4> floor(3.5)[1] 3> ceiling(3.5)[1] 4

11、sign() 符号函数

sign()根据其参数向量中的数值是正值、零、负值将其分别转化为1，0，-1

> set.seed(1)> x <- rnorm(20)> x [1] -0.62645381  0.18364332 -0.83562861  1.59528080  0.32950777 -0.82046838 [7]  0.48742905  0.73832471  0.57578135 -0.30538839  1.51178117  0.38984324[13] -0.62124058 -2.21469989  1.12493092 -0.04493361 -0.01619026  0.94383621[19]  0.82122120  0.59390132> x_sign <- sign(x)> x_sign [1] -1  1 -1  1  1 -1  1  1  1 -1  1  1 -1 -1  1 -1 -1  1  1  1> plot(x,x_sign)

12、%in% 检验x是否为集合y中的元素(x%in%y )

> y > 5%in%y[1] TRUE> 4%in%y[1] FALSE

13、ls( )用来列出现存的所有对象

pattern是一个具名参数，可以列出所有名称中含有字符串“s”的对象。

> library(ggplot2)> ls("package:ggplot2", pattern="geom_.a")[1] "geom_bar"    "geom_label"  "geom_map"    "geom_path"   "geom_raster"

其他函数列表

14、数据管理相关vector：向量numeric：数值型向量logical：逻辑型向量character；字符型向量list：列表data.frame：数据框c：连接为向量或列表length：求长度subset：求子集seq，from:to，sequence：等差序列rep：重复NA：缺失值NULL：空对象sort，order，unique，rev：排序unlist：展开列表attr，attributes：对象属性mode，typeof：对象存储模式与类型names：对象的名字属性15、字符串处理函数character：字符型向量nchar：字符数substr：取子串format，format C：把对象用格式转换为字符串paste，strsplit：连接或拆分charmatch，pmatch：字符串匹配grep，sub，gsub：模式匹配与替换

16、因子

factor：因子codes：因子的编码levels：因子的各水平的名字nlevels：因子的水平个数cut：把数值型对象分区间转换为因子table：交叉频数表split：按因子分组aggregate：计算各数据子集的概括统计量tapply：对“不规则”数组应用函数17、数学计算+, -, *, /, ^, %%, %/%：四则运算ceiling，floor，round，signif，trunc，zapsmall：舍入 max，min，pmax，pmin：最大最小值range：最大值和最小值sum，prod：向量元素和积cumsum，cumprod，cummax，cummin：累加、累乘sort：排序approx和approx fun：插值diff：差分sign：符号函数18、数组相关array：建立数组matrix：生成矩阵data.matrix：把数据框转换为数值型矩阵lower.tri：矩阵的下三角部分mat.or.vec：生成矩阵或向量 t：矩阵转置cbind：把列合并为矩阵rbind：把行合并为矩阵diag：矩阵对角元素向量或生成对角矩阵aperm：数组转置nrow, ncol：计算数组的行数和列数dim：对象的维向量dimnames：对象的维名row/colnames：行名或列名%*%：矩阵乘法crossprod：矩阵交叉乘积(内积)outer：数组外积kronecker：数组的Kronecker积apply：对数组的某些维应用函数tapply：对“不规则”数组应用函数sweep：计算数组的概括统计量aggregate：计算数据子集的概括统计量scale：矩阵标准化matplot：对矩阵各列绘图cor：相关阵或协差阵Contrast：对照矩阵row：矩阵的行下标集col：求列下标集19、逻辑运算，<=，>=，==，!=：比较运算符!，&，&&，|，||，xor()：逻辑运算符 logical：生成逻辑向量all，any：逻辑向量都为真或存在真ifelse()：二者择一match，%in%：查找unique：找出互不相同的元素which：找到真值下标集合duplicated：找到重复元素20、控制结构相关if，else，ifelse，switch：分支for，while，repeat，break，next：循环apply，lapply，sapply，tapply，sweep：替代循环的函数。21、自定义函数相关function：函数定义source：调用文件call：函数调用22、输入输出cat，print：显示对象 sink：输出转向到指定文件 dump，save，dput，write：输出对象 scan，read.table，load，dget：读入23、工作环境ls，objects：显示对象列表rm, remove：删除对象 q，quit：退出系统 .First，.Last：初始运行函数与退出运行函数。options：系统选项 ?，help，help.start，apropos：帮助功能 data：列出数据集24、简单统计量sum, mean, var, sd, min, max, range, median, IQR(四分位间距)等为统计量sort，order，rank与排序有关，其它还有ave，fivenum，mad，quantile，stem等25、时间序列ts：时间序列对象diff：计算差分time：时间序列的采样时间window：时间窗

说明：本文中前半部分内容为作者自行整理，后半部分内容引自网络，稍作整理(蓝色标记部分是笔者认为比较常见和使用的函数)。