在统计学中,对定量资料(连续变量或者数值变量)的统计描述主要包括集中趋势和离散趋势两个方面。其中集中趋势包括均数、中位数、众数等指标,离散趋势包括方差、标准差、分位数(以上下四分位数最为常用)、最大值、最小值等指标。这些指标在R语言中都有相应的函数。

data<-c(1,2,3,4,5,6,7,8,9,10,11)
mean(data)    #均值
median(data)  #中位数
var(data)     #方差
sd(data)      #标准差
min(data)     #最小值
max(data)     #最大值
range(data)   #范围
diff(range(data)) #全距
quantile(data,0.25)#下分位数
quantile(data,0.75)#上四分位数
scale(data)  #对数据进行中心化处理,默认均值为0,标准差为1的中心化处理

当然,在实际数据分析过程中,我们会采用批量计算函数给出相应变量的各种指标。summary()、describe()、describeBy()等函数。

summary()函数可以查看变量的最小值,下四分位数,中位数,均值,上四分位数,最大值这些指标。


> summary(data)Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 1.0     3.5     6.0     6.0     8.5    11.0 

psych包中的describe()函数可以得到非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误这些指标。describBy()函数可以添加分组变量,分组查看各变量的统计描述指标。

> library(psych)
> describe(data)vars  n mean   sd median trimmed  mad min max range skew kurtosis se
X1    1 11    6 3.32      6       6 4.45   1  11    10    0    -1.53  1> myvars<-c("mpg","cyl")
> describe(mtcars[myvars]) #可查看多个变量的统计描述指标vars  n  mean   sd median trimmed  mad  min  max range  skew kurtosis   se
mpg    1 32 20.09 6.03   19.2   19.70 5.41 10.4 33.9  23.5  0.61    -0.37 1.07
cyl    2 32  6.19 1.79    6.0    6.23 2.97  4.0  8.0   4.0 -0.17    -1.76 0.32> describeBy(mtcars[myvars], list(am=mtcars$am))      #分组列出多个变量的统计描述指标Descriptive statistics by group
am: 0vars  n  mean   sd median trimmed  mad  min  max range  skew kurtosis   se
mpg    1 19 17.15 3.83   17.3   17.12 3.11 10.4 24.4    14  0.01    -0.80 0.88
cyl    2 19  6.95 1.54    8.0    7.06 0.00  4.0  8.0     4 -0.95    -0.74 0.35
-----------------------------------------------------------------------------------
am: 1vars  n  mean   sd median trimmed  mad min  max range skew kurtosis   se
mpg    1 13 24.39 6.17   22.8   24.38 6.67  15 33.9  18.9 0.05    -1.46 1.71
cyl    2 13  5.08 1.55    4.0    4.91 0.00   4  8.0   4.0 0.87    -0.90 0.43

可以使用sapply()函数,把需要呈现的统计描述指标加入其中即可分析。结果呈现更具有针对性。

mystats <- function(x, na.omit=FALSE){if (na.omit)x <- x[!is.na(x)]m <- mean(x)n <- length(x)s <- sd(x)skew <- sum((x-m)^3/s^3)/nkurt <- sum((x-m)^4/s^4)/n - 3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
}
myvars <- c("mpg", "hp", "wt")
sapply(mtcars[myvars], mystats)
pastecs包中stat.desc()函数,可计算其中所有值、空值、缺失 值的数量,以及最小值、最大值、值域,还有总和、 中位数、平均数、平均数的标准误、平均数置信度为95% 的置信区间、方差、标准差以及变异系数、 偏度和峰度(以及它们 的统计显著程度)和Shapiro-Wilk 正态检验结果。可以根据显示需要,设置里面的参数(basic=,desc=,norm=)。
> library("pastecs")> myvars <- c("mpg", "hp", "wt")
> stat.desc(mtcars[myvars],,)mpg           hp          wt
nbr.val       32.0000000   32.0000000  32.0000000
nbr.null       0.0000000    0.0000000   0.0000000
nbr.na         0.0000000    0.0000000   0.0000000
min           10.4000000   52.0000000   1.5130000
max           33.9000000  335.0000000   5.4240000
range         23.5000000  283.0000000   3.9110000
sum          642.9000000 4694.0000000 102.9520000
median        19.2000000  123.0000000   3.3250000
mean          20.0906250  146.6875000   3.2172500
SE.mean        1.0654240   12.1203173   0.1729685
CI.mean.0.95   2.1729465   24.7195501   0.3527715
var           36.3241028 4700.8669355   0.9573790
std.dev        6.0269481   68.5628685   0.9784574
coef.var       0.2999881    0.4674077   0.3041285> stat.desc(mtcars[myvars],basic=T,desc = T,norm =T )mpg            hp           wt
nbr.val       32.0000000   32.00000000  32.00000000
nbr.null       0.0000000    0.00000000   0.00000000
nbr.na         0.0000000    0.00000000   0.00000000
min           10.4000000   52.00000000   1.51300000
max           33.9000000  335.00000000   5.42400000
range         23.5000000  283.00000000   3.91100000
sum          642.9000000 4694.00000000 102.95200000
median        19.2000000  123.00000000   3.32500000
mean          20.0906250  146.68750000   3.21725000
SE.mean        1.0654240   12.12031731   0.17296847
CI.mean.0.95   2.1729465   24.71955013   0.35277153
var           36.3241028 4700.86693548   0.95737897
std.dev        6.0269481   68.56286849   0.97845744
coef.var       0.2999881    0.46740771   0.30412851
skewness       0.6106550    0.72602366   0.42314646
skew.2SE       0.7366922    0.87587259   0.51048252
kurtosis      -0.3727660   -0.13555112  -0.02271075
kurt.2SE      -0.2302812   -0.08373853  -0.01402987
normtest.W     0.9475647    0.93341934   0.94325772
normtest.p     0.1228814    0.04880824   0.09265499

综上可见,对于定量变量的统计描述的函数有很多,在使用过程中,我们可以根据自己的数据呈现需要选择相应的软件包和相应函数进行统计描述分析。

R语言定量资料的统计描述相关推荐

  1. R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)

    R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录

  2. R语言的各种统计分布函数

    转载自品略图书馆 http://www.pinlue.com/article/2018/09/1613/487222559948.html R语言的各种统计分布函数 1.二项分布Binomial di ...

  3. R语言Wilcoxon Signed-rank统计分布函数(dsignrank, psignrank, qsignrank rsignrank )实战

    R语言Wilcoxon Signed-rank统计分布函数(dsignrank, psignrank, qsignrank & rsignrank )实战 目录 R语言Wilcoxon Sig ...

  4. R语言nchar函数统计字符串中字符个数实战

    R语言nchar函数统计字符串中字符个数实战 目录 R语言nchar函数统计字符串中字符个数实战 #基础语法

  5. R语言 导入其他统计软件文件

    使用R中的foreign包可以较方便地读取其他统计软件的数据文件,比如SPSS.SAS等数据文件等 函数 描述 read.arff 从ARFF文件中读取文件,著名的数据挖掘开源软件weka的数据就是这 ...

  6. 用R语言做词频统计_R语言 | 词频统计

    Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) ## [1] "?" "." & ...

  7. 二元置信椭圆r语言_医学统计与R语言:圆形树状图(circular dendrogram)

    微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 输入1: "ggraph") 结果1: name 输入2: <- graph_from_data_frame(my ...

  8. 二元置信椭圆r语言_医学统计与R语言:多分类logistic回归HosmerLemeshow拟合优度检验...

    微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 输入1:multinominal logistic regression "nnet") 结果1: test (mult ...

  9. R语言︱数据分组统计函数族——apply族用法与心得

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:apply族功能强大,实用,可以代替 ...

最新文章

  1. FPGAtestbench中如何产生差分时钟
  2. Invalid packet stream index
  3. python函数应用_Python 函数及其应用
  4. css的3d注意事项
  5. 日志系统新贵 Loki,确实比笨重的 ELK 轻
  6. [转载] 包含对象的json格式_如何把JSON数据格式转换为Python的类对象?
  7. python mysql connector
  8. GetLastError的使用和返回值定义大全
  9. CC1310在433MHz下的PCB设计指南
  10. 说一说android:persistent=true保活
  11. 强驴分享北京最好玩儿的隐秘旅游地
  12. destoon网站mysql分表_destoon二次开发常用数据库操作_PHP
  13. hdfs误删文件恢复教程
  14. 面试- 阿里-. 大数据题目- 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?...
  15. Excel文件批量重命名
  16. 51单片机 16X16点阵循环滚动显示汉字(基于proteus)
  17. 【Python系列】_tkinter.TclError: no display name and no $DISPLAY environment variable
  18. 数据结构c实验十 图
  19. 新品推荐【旺旺食神猪】来了!!!
  20. 电脑老是自动安装流氓软件的解决办法(详解)

热门文章

  1. Springboot 集成Swagger和使用完整案例
  2. Java四舍五入及保留小数点位数
  3. axure获取团队项目失败_团队失败的原因
  4. css 输密码键盘,搜狗浏览器中密码输入框那个虚拟机键盘的样式问题……
  5. 蓝牙耳机哪家好?口碑最好的蓝牙耳机品牌
  6. NPOI - Office操作助手
  7. oracle恢复delete删除的数据
  8. 如何设置企业KPI,Smartbi给您方法论
  9. 【研究生本科】最全论文写作要点及实证研究诀窍,你知道多少?
  10. jdk下载之后文件夹在桌面_下载JDK 安装方法