R语言定量资料的统计描述
在统计学中,对定量资料(连续变量或者数值变量)的统计描述主要包括集中趋势和离散趋势两个方面。其中集中趋势包括均数、中位数、众数等指标,离散趋势包括方差、标准差、分位数(以上下四分位数最为常用)、最大值、最小值等指标。这些指标在R语言中都有相应的函数。
data<-c(1,2,3,4,5,6,7,8,9,10,11)
mean(data) #均值
median(data) #中位数
var(data) #方差
sd(data) #标准差
min(data) #最小值
max(data) #最大值
range(data) #范围
diff(range(data)) #全距
quantile(data,0.25)#下分位数
quantile(data,0.75)#上四分位数
scale(data) #对数据进行中心化处理,默认均值为0,标准差为1的中心化处理
当然,在实际数据分析过程中,我们会采用批量计算函数给出相应变量的各种指标。summary()、describe()、describeBy()等函数。
summary()函数可以查看变量的最小值,下四分位数,中位数,均值,上四分位数,最大值这些指标。
> summary(data)Min. 1st Qu. Median Mean 3rd Qu. Max. 1.0 3.5 6.0 6.0 8.5 11.0
psych包中的describe()函数可以得到非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误这些指标。describBy()函数可以添加分组变量,分组查看各变量的统计描述指标。
> library(psych)
> describe(data)vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 11 6 3.32 6 6 4.45 1 11 10 0 -1.53 1> myvars<-c("mpg","cyl")
> describe(mtcars[myvars]) #可查看多个变量的统计描述指标vars n mean sd median trimmed mad min max range skew kurtosis se
mpg 1 32 20.09 6.03 19.2 19.70 5.41 10.4 33.9 23.5 0.61 -0.37 1.07
cyl 2 32 6.19 1.79 6.0 6.23 2.97 4.0 8.0 4.0 -0.17 -1.76 0.32> describeBy(mtcars[myvars], list(am=mtcars$am)) #分组列出多个变量的统计描述指标Descriptive statistics by group
am: 0vars n mean sd median trimmed mad min max range skew kurtosis se
mpg 1 19 17.15 3.83 17.3 17.12 3.11 10.4 24.4 14 0.01 -0.80 0.88
cyl 2 19 6.95 1.54 8.0 7.06 0.00 4.0 8.0 4 -0.95 -0.74 0.35
-----------------------------------------------------------------------------------
am: 1vars n mean sd median trimmed mad min max range skew kurtosis se
mpg 1 13 24.39 6.17 22.8 24.38 6.67 15 33.9 18.9 0.05 -1.46 1.71
cyl 2 13 5.08 1.55 4.0 4.91 0.00 4 8.0 4.0 0.87 -0.90 0.43
可以使用sapply()函数,把需要呈现的统计描述指标加入其中即可分析。结果呈现更具有针对性。
mystats <- function(x, na.omit=FALSE){if (na.omit)x <- x[!is.na(x)]m <- mean(x)n <- length(x)s <- sd(x)skew <- sum((x-m)^3/s^3)/nkurt <- sum((x-m)^4/s^4)/n - 3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
}
myvars <- c("mpg", "hp", "wt")
sapply(mtcars[myvars], mystats)
> library("pastecs")> myvars <- c("mpg", "hp", "wt")
> stat.desc(mtcars[myvars],,)mpg hp wt
nbr.val 32.0000000 32.0000000 32.0000000
nbr.null 0.0000000 0.0000000 0.0000000
nbr.na 0.0000000 0.0000000 0.0000000
min 10.4000000 52.0000000 1.5130000
max 33.9000000 335.0000000 5.4240000
range 23.5000000 283.0000000 3.9110000
sum 642.9000000 4694.0000000 102.9520000
median 19.2000000 123.0000000 3.3250000
mean 20.0906250 146.6875000 3.2172500
SE.mean 1.0654240 12.1203173 0.1729685
CI.mean.0.95 2.1729465 24.7195501 0.3527715
var 36.3241028 4700.8669355 0.9573790
std.dev 6.0269481 68.5628685 0.9784574
coef.var 0.2999881 0.4674077 0.3041285> stat.desc(mtcars[myvars],basic=T,desc = T,norm =T )mpg hp wt
nbr.val 32.0000000 32.00000000 32.00000000
nbr.null 0.0000000 0.00000000 0.00000000
nbr.na 0.0000000 0.00000000 0.00000000
min 10.4000000 52.00000000 1.51300000
max 33.9000000 335.00000000 5.42400000
range 23.5000000 283.00000000 3.91100000
sum 642.9000000 4694.00000000 102.95200000
median 19.2000000 123.00000000 3.32500000
mean 20.0906250 146.68750000 3.21725000
SE.mean 1.0654240 12.12031731 0.17296847
CI.mean.0.95 2.1729465 24.71955013 0.35277153
var 36.3241028 4700.86693548 0.95737897
std.dev 6.0269481 68.56286849 0.97845744
coef.var 0.2999881 0.46740771 0.30412851
skewness 0.6106550 0.72602366 0.42314646
skew.2SE 0.7366922 0.87587259 0.51048252
kurtosis -0.3727660 -0.13555112 -0.02271075
kurt.2SE -0.2302812 -0.08373853 -0.01402987
normtest.W 0.9475647 0.93341934 0.94325772
normtest.p 0.1228814 0.04880824 0.09265499
综上可见,对于定量变量的统计描述的函数有很多,在使用过程中,我们可以根据自己的数据呈现需要选择相应的软件包和相应函数进行统计描述分析。
R语言定量资料的统计描述相关推荐
- R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)
R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录
- R语言的各种统计分布函数
转载自品略图书馆 http://www.pinlue.com/article/2018/09/1613/487222559948.html R语言的各种统计分布函数 1.二项分布Binomial di ...
- R语言Wilcoxon Signed-rank统计分布函数(dsignrank, psignrank, qsignrank rsignrank )实战
R语言Wilcoxon Signed-rank统计分布函数(dsignrank, psignrank, qsignrank & rsignrank )实战 目录 R语言Wilcoxon Sig ...
- R语言nchar函数统计字符串中字符个数实战
R语言nchar函数统计字符串中字符个数实战 目录 R语言nchar函数统计字符串中字符个数实战 #基础语法
- R语言 导入其他统计软件文件
使用R中的foreign包可以较方便地读取其他统计软件的数据文件,比如SPSS.SAS等数据文件等 函数 描述 read.arff 从ARFF文件中读取文件,著名的数据挖掘开源软件weka的数据就是这 ...
- 用R语言做词频统计_R语言 | 词频统计
Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) ## [1] "?" "." & ...
- 二元置信椭圆r语言_医学统计与R语言:圆形树状图(circular dendrogram)
微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 输入1: "ggraph") 结果1: name 输入2: <- graph_from_data_frame(my ...
- 二元置信椭圆r语言_医学统计与R语言:多分类logistic回归HosmerLemeshow拟合优度检验...
微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 输入1:multinominal logistic regression "nnet") 结果1: test (mult ...
- R语言︱数据分组统计函数族——apply族用法与心得
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:apply族功能强大,实用,可以代替 ...
最新文章
- FPGAtestbench中如何产生差分时钟
- Invalid packet stream index
- python函数应用_Python 函数及其应用
- css的3d注意事项
- 日志系统新贵 Loki,确实比笨重的 ELK 轻
- [转载] 包含对象的json格式_如何把JSON数据格式转换为Python的类对象?
- python mysql connector
- GetLastError的使用和返回值定义大全
- CC1310在433MHz下的PCB设计指南
- 说一说android:persistent=true保活
- 强驴分享北京最好玩儿的隐秘旅游地
- destoon网站mysql分表_destoon二次开发常用数据库操作_PHP
- hdfs误删文件恢复教程
- 面试- 阿里-. 大数据题目- 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?...
- Excel文件批量重命名
- 51单片机 16X16点阵循环滚动显示汉字(基于proteus)
- 【Python系列】_tkinter.TclError: no display name and no $DISPLAY environment variable
- 数据结构c实验十 图
- 新品推荐【旺旺食神猪】来了!!!
- 电脑老是自动安装流氓软件的解决办法(详解)