R语言系统教程(六):描述统计量

  • 6.1 位置的度量
    • 6.1.1 均值
    • 6.1.2 顺序统计量
    • 6.1.3 中位数
    • 6.1.4 百分位数
  • 6.2 分散程度的度量
    • 6.2.1 方差、标准差等
    • 6.2.2 极差等
  • 6.3 分布形状的度量
    • 6.3.1 偏度系数
    • 6.3.2 峰度系数

6.1 位置的度量

6.1.1 均值

即样本期望,使用mean()函数计算,声明如下:
mean(x, trim = 0, na.rm = FALSE)
x是对象,如向量、矩阵、数组或数据框,trim是计算均值前去掉的比例,默认为0,na.rm是否允许有缺失数据。

> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> w.mean = mean(w)
> w.mean
[1] 62.36

注意当x为矩阵或多维数组时,mean()的返回值并不是向量,而是全部数据的均值

> x = 1:12
> dim(x) = c(3,4)
> mean(x)
[1] 6.5

如果你想按行或按列计算均值的话,那么应该使用之前提到的apply()函数

> apply(x,1,mean)
[1] 5.5 6.5 7.5
> apply(x,2,mean)
[1]  2  5  8 11

如果x是数据框,同样可以将需要的数值型数据按照矩阵处理(参考书中说可以使用mean(data.frame),但笔者使用3.6.1版本的R试验发现不行,有知道原因的小伙伴可以留言说明下,Thanks♪(・ω・)ノ)
还可以通过设置trim参数的值求trimmed mean,trim取值为0-0.5,表示去掉的极端值的比例。
还有一个相关的函数是weighte.mean()函数,可以用来计算加权平均值,声明如下:
weighted.mean(x, w, na.rm = FALSE)
x为数值变量,w为权参数,维度与x相同

6.1.2 顺序统计量

对样本进行排序可以得到样本顺序统计量,使用sort()函数对数据进行排序

> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
> sort(x)
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0

但sort()函数还有更广泛的功能,其函数声明如下:
sort(x, partial = NULL, na.last = NA, decreasing = FALSE,
method = c(“shell”, “quick”), index.return = FALSE)
其中x是向量,partial是部分排序的指标向量,na.last是控制缺失数据的参数,当na.last=NA时,不处理缺失数据,当na.last=TRUE时,缺失数据排在最后,当na.last=FALSE时,缺失数据排在最前面;参数decreasing控制数据排列的顺序,当decreasing=FALSE时,结果从小到大,反之从大到小;method控制排序方法,shell排序运算量O(n4/3)O(n^{4/3})O(n4/3),快排一般比shell要快,index.return是控制下标返回的逻辑变量,为TRUE时结果返回一个列表,第二个变量是下标对应值。

> sort(x, decreasing = TRUE)
[1] 75.0 66.9 64.0 63.5 62.2 62.2 58.7 47.4
> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5)
> sort(x.na)
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0
> sort(x.na,na.last = T)
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0   NA
> sort(x.na,na.last = F)
[1]   NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0

与sort()相关的函数还有:order()给出排序下标;rank()给出样本的秩统计量,关于rank()后面还会有更详细的介绍。

6.1.3 中位数

R中,median()函数给出中位数,使用格式:
median(x, na.rm = FALSE)
x是数值向量,na.rm是控制是否处理缺失数据的逻辑变量。

> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
> median(x)
[1] 62.85
> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5)
> median(x.na)
[1] NA
> median(x.na, na.rm=T)
[1] 62.85

6.1.4 百分位数

R中,quantile()函数给出数据的百分位数,使用格式:
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,
names = TRUE, type = 7, …)
x是数值向量,probs以小数形式给出相应的百分数,na.rm是控制是否处理缺失数据的逻辑变量,names控制结果是否有names属性,对于较多的probs为FALSE,type从1到9,对应9种计算方法,详情查看官方文档

> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> quantile(w)0%   25%   50%   75%  100%
47.40 57.85 63.50 66.75 75.00
> quantile(w, probs = seq(0,1,0.2))0%   20%   40%   60%   80%  100%
47.40 56.98 62.20 64.00 67.32 75.00
> quantile(w, names = F, probs = seq(0,1,0.2))
[1] 47.40 56.98 62.20 64.00 67.32 75.00

6.2 分散程度的度量

6.2.1 方差、标准差等

这里的方差指的是样本方差,标准差也为样本标准差,方差函数var()和标准差函数sd()声明如下:
var(x, y = NULL, na.rm = FALSE, use)
sd(x, na.rm = FALSE)
其中x是数值向量,na.rm同前,其余参数可参考官方文档

6.2.2 极差等

max()-min()

6.3 分布形状的度量

6.3.1 偏度系数

可参考其数学定义,编写自定义代码计算

6.3.2 峰度系数

可参考其数学定义,编写自定义代码计算

R语言系统教程(六):描述统计量相关推荐

  1. R语言系统教程(七):数据的分布(含多种图的绘制)

    R语言系统教程(七):数据的分布 7.1 分布函数 7.2 直方图.经验分布图与QQ图 7.2.1 直方图 7.2.2 核密度估计函数 7.2.3 经验分布 7.2.4 QQ图 7.3 茎叶图.箱线图 ...

  2. R语言系统教程(三):多维数组和矩阵

    R语言系统教程(三):多维数组和矩阵 3.1 生成数组或矩阵 3.1.1 将向量定义为数组 3.1.2 用array()函数构造多维数组 3.1.3 用matrix()函数构造矩阵 3.2 数组下标 ...

  3. 《量化金融R语言高级教程》一1.2 波动率建模

    本节书摘来异步社区<量化金融R语言高级教程>一书中的第1章,第1.2节,作者: [匈牙利]Edina Berlinger(艾迪娜•伯林格) , 等 译者: 高蓉 责编: 胡俊英,更多章节内 ...

  4. 对英国房屋价格建模并预测 ---《量化金融R语言初级教程》

    时间序列分析 一.实验介绍 1.1 实验内容 时间序列分析研究的是按时间顺序收集的数据.相邻的观测数据通常相互依赖.因此,时间序列分析的技术需要处理这种相依性. 本章的目标是通过一些特定应用来介绍一些 ...

  5. 《量化金融R语言高级教程》一2.1 套利定价理论

    本节书摘来异步社区<量化金融R语言高级教程>一书中的第2章,第2.1节,作者: [匈牙利]Edina Berlinger(艾迪娜•伯林格) , 等 译者: 高蓉 责编: 胡俊英,更多章节内 ...

  6. R语言系统自带及附属包开元可用数据集汇总

    R语言系统自带及附属包开元可用数据集汇总 目录 R语言系统自带及附属包开元可用数据集汇总 #R自带数据集 #R的各种包自带数据集 #R自带数据集 向量 euro #欧元汇率,长度为11,每个元素都有命 ...

  7. 《量化金融R语言初级教程》一2.6 如果方差不够用

    本节书摘来异步社区<量化金融R语言初级教程>一书中的第2章,第2.6节,作者: [匈牙利]Gergely Daróczi(盖尔盖伊) , 等 译者: 高蓉 , 李茂 责编: 胡俊英,更多章 ...

  8. r语言 协整_《量化金融R语言初级教程》一1.3 协整

    本节书摘来异步社区<量化金融R语言初级教程>一书中的第1章,第1.3节,作者: [匈牙利]Gergely Daróczi(盖尔盖伊) , 等 译者: 高蓉 , 李茂 责编: 胡俊英,更多章 ...

  9. R语言使用教程(三)——Rstudio添加镜像源(加快包的下载)

    文章目录 Windows系统R语言使用教程(三)--Rstudio添加镜像源(加快包的下载) 打开rstudio --> Tools --> Global Options -->Pa ...

  10. c 语言 字符 r,R语言基础教程之字符串

    原标题:R语言基础教程之字符串 在R中的单引号或双引号中写入的任何值都将被视为字符串.在R内部将每个字符串存储在双引号内,即使您使用单引号创建它们. 适用于字符串构造的规则 字符串开头和结尾的引号应为 ...

最新文章

  1. python-range用法
  2. 三层交换机----VRRP协议学习
  3. Spring与Hibernate两种组合方式
  4. CVX约束中定义中间变量或表达式
  5. 2021下半年软考分数线会有变动吗?
  6. 主梁弹性模量计算_如何用梁格法计算曲线梁桥?
  7. 领域驱动设计和实践(转:http://kb.cnblogs.com/page/112298/)
  8. LCA问题的RMQ解法解析
  9. 继腾讯、阿里、字节、快手等后,京东、有赞又爆大裁员,个别部门比例或达40%!...
  10. PLinux设计初步设想
  11. 常用m脚本控制simulink模块方法
  12. python制作雕刻软件_blender for Mac(免费动画制作软件)
  13. 一个简单的自定义alert方法
  14. Unity3D Shader基础教程
  15. 周测三,Linux命令如下:
  16. .Net中如何释放内存?
  17. 外键 ‘FK__ICBCCard__CardID__3E1D39E1‘ 引用了位于被引用表 ‘StudentCard‘ 中的无效列 ‘CardID‘。
  18. Windows10企业版 VS2017编译 MongoDB C++ Driver3.1.1 全过程
  19. EduCoder-Web程序设计基础-html5—移动端电商页面制作-(第1关:移动端电商页面制作)
  20. 锐捷网络(福州),开发助理实习生面经

热门文章

  1. 技术笔试面试题(上)
  2. 计算一个数的 N 次方的多种解法
  3. python计算2的n次方编写_python中n次方怎么表示
  4. “胡焕庸”线 - 中国人口分布地理界线
  5. Haproxy 使用 sni 配置 https 多域名代理 SSL_ERROR_RX_RECORD_TOO_LONG
  6. Azure云服务器搭建
  7. 大话2正在连接登录服务器,大话西游手游服务器连接失败进不去解决办法
  8. 台式计算机内置无线网卡,台式机内置无线网卡和外置的区别
  9. 105套抖音快闪模板
  10. 计算机无法通过无线上网,笔记本电脑突然无法使用无线网卡的多种解决方法