参考书目:《统计学》-贾俊平;《统计学:从数据到结论》-吴喜之;
理论部分:数据的概括性度量


以下例子会用到的数据(这些数据被放在一个叫data5.txt的文件里):

74.3  78.8  68.8  78.0  70.4  80.5  80.5  69.7  71.2  73.5
79.5  75.6  75.0  78.8  72.0  72.0  72.0  74.3  71.2  72.0
75.0  73.5  78.8  74.3  75.8  65.0  74.3  71.2  69.7  68.0
73.5  75.0  72.0  64.3  75.8  80.3  69.7  74.3  73.5  73.5

读取数据:

Tdata <- read.table("data5.txt", header = F)
new_data <- as.vector(as.matrix(Tdata))
  • 众数
> #众数
> z <- table(new_data)
> (z[which(z==max(z))])
new_data72 73.5 74.3 5    5    5

注意:众数可以有多个,也可以没有。

  • 中位数
> #中位数
> (med_data <- median(new_data))
[1] 73.5
  • 四分位数
#下四分位数
> quantile(new_data, 0.25)25%
71.2 #上四分位数
> quantile(new_data, 0.75)75%
75.65
  • 五位数总括(最小值、下四分位数、中位数、上四分位数、最大值)
> (fivenum(new_data))
[1] 64.3 71.2 73.5 75.7 80.5
  • 简单平均数
> #均值
> (mean_data <- mean(new_data))
[1] 73.64

因为平均数易受数据极端值的影响,所以我们可以删除极端值,过滤掉一部分比例的数据,再计算均值

> #过滤掉极小和极大各10%的极端值
> (mean_data2 <- mean(new_data, trim = 0.1))
[1] 73.70937

trim的参数值可以在0~0.5之间进行选择,如果大于等于0.5则会选择中位数作为均值。

比如:

> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 3/15)
[1] 5
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 2/15)
[1] 4.090909
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 1)
[1] 5
> mean(c(-30, -20, -10, 1:10, 50, 100, 200), trim = 1)
[1] 5.5
  • 极差
> #极差
> (diff(range(new_data)))
[1] 16.2
  • 四分位差
> #四分位差
> (diff(quantile(new_data, c(0.25, 0.75))))75%
4.45
  • 平均差
> #平均差
> my_md <- function(x){mean(abs(x - mean(x, na.rm = T)), na.rm = T)}
> (my_md(new_data))
[1] 2.987
  • 方差标准差(这里计算的是样本的方差标准差,分母为n-1)
> #方差
> (var_data <- var(new_data))
[1] 15.33836
> #标准差
> (sd_data <- sd(new_data))
[1] 3.916422
  • 标准误
> #标准误
> (standard_error_data <- sd_data/(length(new_data))^(0.5))
[1] 0.6192406
  • 标准得分
#标准得分
scale(new_data)
  • 偏度与峰度
> #偏度
> (S_data <- skewness(new_data))
[1] -0.1563461
> #峰度
> (K_data <- kurtosis(new_data))
[1] 2.889835

R语言与数据的概括性度量相关推荐

  1. R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法、data.table、dplyr等方案、计算滑动分组统计

    R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法.data.table.dplyr等方案.计算滑动分组统计 ...

  2. R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法、data.table、dplyr等方案、计算分组均值并添加到可视化结果中

    R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法.data.table.dplyr等方案.计算分组均值并添加到可视化结果中 目录

  3. R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计、所有特征的NA值统计

    R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计.所有特征的NA值统计 目录

  4. R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数

    R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数 目录

  5. R语言dataframe数据列格式转换(从整型integer转化为浮点型float)

    R语言dataframe数据列格式转换(从整型integer转化为浮点型float) 目录 R语言dataframe数据列格式转换(从整型integer转化为浮点型float)

  6. 用R语言把数据玩出花样

    用R语言把数据玩出花样 数据处理 R 去重 数据可视化 阅读759  R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器.随着越来越多的工程 ...

  7. python在统计专业的应用_Python统计学一数据的概括性度量详解

    一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...

  8. r语言数据变量分段_使用R语言实现数据分段

    使用R语言实现数据分段 今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分.之前写过一篇<实战: RFM>模型使用,那篇文章就详细介绍了CRM(客户关系管理)分析 ...

  9. R语言基础数据操作fBasics

    R语言基础数据操作&fBasics xlsx文件的导入 library(readxl) data1 <- read_excel("C:/Users/12241/Desktop/ ...

最新文章

  1. 一、安装Docker CE
  2. 自动化测试 div sendkeys无效_【自动化测试】【JestSelenium】(04)—— Selenium WebDriver...
  3. 常见的web应用服务器
  4. cassandra随机获取数据,Cassandra适合写入和少读,HBASE随机读取写入
  5. linux目录删除不释放空间,删除linux文件后,磁盘空间未释放的解决办法
  6. Quartus II与 ModelSim功能仿真与后仿真扫盲(转)
  7. java并发初探ConcurrentHashMap
  8. ODOO v10.0 自动生成财务凭证的科目设置
  9. Android属性动画之ObjectAnimator控制
  10. XML语言学习2---方立勋教程DTD
  11. 大黄蜂vep视频转成MP4格式提取工具的使用
  12. 基于Ansible和CodeDeploy的DevOps解决方案
  13. WPF控件模板和数据模板的区别
  14. 数据结构之SWUSTOJ1038: 顺序表中重复数据的删除
  15. 关于JAVA开发小游戏如何做读档和存档功能的这件事
  16. python dataframe重新索引_Concat DataFrame重新索引仅对唯一值索引对象有效
  17. Python中Numpy中省略号的作用
  18. 计算机怎么换桌面皮肤,如何更换电脑腾讯视频上的皮肤样式
  19. 10个 Istio 流量管理 最常用的例子,你知道几个?
  20. 论文《基于结构光和双目视觉的三维重建系统研究》摘要

热门文章

  1. 【机器学习】集成学习各方法优缺点特征总结
  2. 多核处理器_基于NXP i.MX8MM多核应用处理器设计的智能加油机
  3. telnet或SQLplus下命令输入错误如何删掉重新输入
  4. Mac连接远程Linux管理文件(samba)
  5. ReactiveCocoa 更优雅的编程(信号探秘)
  6. 联想EDU同传系统 版本7.5 7.6在机房中出现的一些故障和解决办法
  7. 用jquery校验radio单选按钮(原创)
  8. ​用c语言打印自定义的乘法口诀表。例如:输入9,输出9*9口诀表,输入12,输出12*12的乘法口诀表。...
  9. 网信金融 与 金银猫合作
  10. c#类和结构体的关系