R语言系统教程(六):描述统计量
R语言系统教程(六):描述统计量
- 6.1 位置的度量
- 6.1.1 均值
- 6.1.2 顺序统计量
- 6.1.3 中位数
- 6.1.4 百分位数
- 6.2 分散程度的度量
- 6.2.1 方差、标准差等
- 6.2.2 极差等
- 6.3 分布形状的度量
- 6.3.1 偏度系数
- 6.3.2 峰度系数
6.1 位置的度量
6.1.1 均值
即样本期望,使用mean()函数计算,声明如下:
mean(x, trim = 0, na.rm = FALSE)
x是对象,如向量、矩阵、数组或数据框,trim是计算均值前去掉的比例,默认为0,na.rm是否允许有缺失数据。
> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> w.mean = mean(w)
> w.mean
[1] 62.36
注意当x为矩阵或多维数组时,mean()的返回值并不是向量,而是全部数据的均值
> x = 1:12
> dim(x) = c(3,4)
> mean(x)
[1] 6.5
如果你想按行或按列计算均值的话,那么应该使用之前提到的apply()函数
> apply(x,1,mean)
[1] 5.5 6.5 7.5
> apply(x,2,mean)
[1] 2 5 8 11
如果x是数据框,同样可以将需要的数值型数据按照矩阵处理(参考书中说可以使用mean(data.frame),但笔者使用3.6.1版本的R试验发现不行,有知道原因的小伙伴可以留言说明下,Thanks♪(・ω・)ノ)
还可以通过设置trim参数的值求trimmed mean,trim取值为0-0.5,表示去掉的极端值的比例。
还有一个相关的函数是weighte.mean()函数,可以用来计算加权平均值,声明如下:
weighted.mean(x, w, na.rm = FALSE)
x为数值变量,w为权参数,维度与x相同
6.1.2 顺序统计量
对样本进行排序可以得到样本顺序统计量,使用sort()函数对数据进行排序
> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
> sort(x)
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0
但sort()函数还有更广泛的功能,其函数声明如下:
sort(x, partial = NULL, na.last = NA, decreasing = FALSE,
method = c(“shell”, “quick”), index.return = FALSE)
其中x是向量,partial是部分排序的指标向量,na.last是控制缺失数据的参数,当na.last=NA时,不处理缺失数据,当na.last=TRUE时,缺失数据排在最后,当na.last=FALSE时,缺失数据排在最前面;参数decreasing控制数据排列的顺序,当decreasing=FALSE时,结果从小到大,反之从大到小;method控制排序方法,shell排序运算量O(n4/3)O(n^{4/3})O(n4/3),快排一般比shell要快,index.return是控制下标返回的逻辑变量,为TRUE时结果返回一个列表,第二个变量是下标对应值。
> sort(x, decreasing = TRUE)
[1] 75.0 66.9 64.0 63.5 62.2 62.2 58.7 47.4
> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5)
> sort(x.na)
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0
> sort(x.na,na.last = T)
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 NA
> sort(x.na,na.last = F)
[1] NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0
与sort()相关的函数还有:order()给出排序下标;rank()给出样本的秩统计量,关于rank()后面还会有更详细的介绍。
6.1.3 中位数
R中,median()函数给出中位数,使用格式:
median(x, na.rm = FALSE)
x是数值向量,na.rm是控制是否处理缺失数据的逻辑变量。
> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
> median(x)
[1] 62.85
> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5)
> median(x.na)
[1] NA
> median(x.na, na.rm=T)
[1] 62.85
6.1.4 百分位数
R中,quantile()函数给出数据的百分位数,使用格式:
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,
names = TRUE, type = 7, …)
x是数值向量,probs以小数形式给出相应的百分数,na.rm是控制是否处理缺失数据的逻辑变量,names控制结果是否有names属性,对于较多的probs为FALSE,type从1到9,对应9种计算方法,详情查看官方文档
> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> quantile(w)0% 25% 50% 75% 100%
47.40 57.85 63.50 66.75 75.00
> quantile(w, probs = seq(0,1,0.2))0% 20% 40% 60% 80% 100%
47.40 56.98 62.20 64.00 67.32 75.00
> quantile(w, names = F, probs = seq(0,1,0.2))
[1] 47.40 56.98 62.20 64.00 67.32 75.00
6.2 分散程度的度量
6.2.1 方差、标准差等
这里的方差指的是样本方差,标准差也为样本标准差,方差函数var()和标准差函数sd()声明如下:
var(x, y = NULL, na.rm = FALSE, use)
sd(x, na.rm = FALSE)
其中x是数值向量,na.rm同前,其余参数可参考官方文档
6.2.2 极差等
max()-min()
6.3 分布形状的度量
6.3.1 偏度系数
可参考其数学定义,编写自定义代码计算
6.3.2 峰度系数
可参考其数学定义,编写自定义代码计算
R语言系统教程(六):描述统计量相关推荐
- R语言系统教程(七):数据的分布(含多种图的绘制)
R语言系统教程(七):数据的分布 7.1 分布函数 7.2 直方图.经验分布图与QQ图 7.2.1 直方图 7.2.2 核密度估计函数 7.2.3 经验分布 7.2.4 QQ图 7.3 茎叶图.箱线图 ...
- R语言系统教程(三):多维数组和矩阵
R语言系统教程(三):多维数组和矩阵 3.1 生成数组或矩阵 3.1.1 将向量定义为数组 3.1.2 用array()函数构造多维数组 3.1.3 用matrix()函数构造矩阵 3.2 数组下标 ...
- 《量化金融R语言高级教程》一1.2 波动率建模
本节书摘来异步社区<量化金融R语言高级教程>一书中的第1章,第1.2节,作者: [匈牙利]Edina Berlinger(艾迪娜•伯林格) , 等 译者: 高蓉 责编: 胡俊英,更多章节内 ...
- 对英国房屋价格建模并预测 ---《量化金融R语言初级教程》
时间序列分析 一.实验介绍 1.1 实验内容 时间序列分析研究的是按时间顺序收集的数据.相邻的观测数据通常相互依赖.因此,时间序列分析的技术需要处理这种相依性. 本章的目标是通过一些特定应用来介绍一些 ...
- 《量化金融R语言高级教程》一2.1 套利定价理论
本节书摘来异步社区<量化金融R语言高级教程>一书中的第2章,第2.1节,作者: [匈牙利]Edina Berlinger(艾迪娜•伯林格) , 等 译者: 高蓉 责编: 胡俊英,更多章节内 ...
- R语言系统自带及附属包开元可用数据集汇总
R语言系统自带及附属包开元可用数据集汇总 目录 R语言系统自带及附属包开元可用数据集汇总 #R自带数据集 #R的各种包自带数据集 #R自带数据集 向量 euro #欧元汇率,长度为11,每个元素都有命 ...
- 《量化金融R语言初级教程》一2.6 如果方差不够用
本节书摘来异步社区<量化金融R语言初级教程>一书中的第2章,第2.6节,作者: [匈牙利]Gergely Daróczi(盖尔盖伊) , 等 译者: 高蓉 , 李茂 责编: 胡俊英,更多章 ...
- r语言 协整_《量化金融R语言初级教程》一1.3 协整
本节书摘来异步社区<量化金融R语言初级教程>一书中的第1章,第1.3节,作者: [匈牙利]Gergely Daróczi(盖尔盖伊) , 等 译者: 高蓉 , 李茂 责编: 胡俊英,更多章 ...
- R语言使用教程(三)——Rstudio添加镜像源(加快包的下载)
文章目录 Windows系统R语言使用教程(三)--Rstudio添加镜像源(加快包的下载) 打开rstudio --> Tools --> Global Options -->Pa ...
- c 语言 字符 r,R语言基础教程之字符串
原标题:R语言基础教程之字符串 在R中的单引号或双引号中写入的任何值都将被视为字符串.在R内部将每个字符串存储在双引号内,即使您使用单引号创建它们. 适用于字符串构造的规则 字符串开头和结尾的引号应为 ...
最新文章
- python-range用法
- 三层交换机----VRRP协议学习
- Spring与Hibernate两种组合方式
- CVX约束中定义中间变量或表达式
- 2021下半年软考分数线会有变动吗?
- 主梁弹性模量计算_如何用梁格法计算曲线梁桥?
- 领域驱动设计和实践(转:http://kb.cnblogs.com/page/112298/)
- LCA问题的RMQ解法解析
- 继腾讯、阿里、字节、快手等后,京东、有赞又爆大裁员,个别部门比例或达40%!...
- PLinux设计初步设想
- 常用m脚本控制simulink模块方法
- python制作雕刻软件_blender for Mac(免费动画制作软件)
- 一个简单的自定义alert方法
- Unity3D Shader基础教程
- 周测三,Linux命令如下:
- .Net中如何释放内存?
- 外键 ‘FK__ICBCCard__CardID__3E1D39E1‘ 引用了位于被引用表 ‘StudentCard‘ 中的无效列 ‘CardID‘。
- Windows10企业版 VS2017编译 MongoDB C++ Driver3.1.1 全过程
- EduCoder-Web程序设计基础-html5—移动端电商页面制作-(第1关:移动端电商页面制作)
- 锐捷网络(福州),开发助理实习生面经
热门文章
- 技术笔试面试题(上)
- 计算一个数的 N 次方的多种解法
- python计算2的n次方编写_python中n次方怎么表示
- “胡焕庸”线 - 中国人口分布地理界线
- Haproxy 使用 sni 配置 https 多域名代理 SSL_ERROR_RX_RECORD_TOO_LONG
- Azure云服务器搭建
- 大话2正在连接登录服务器,大话西游手游服务器连接失败进不去解决办法
- 台式计算机内置无线网卡,台式机内置无线网卡和外置的区别
- 105套抖音快闪模板
- 计算机无法通过无线上网,笔记本电脑突然无法使用无线网卡的多种解决方法