R语言与数据的概括性度量

参考书目：《统计学》-贾俊平；《统计学：从数据到结论》-吴喜之；
理论部分：数据的概括性度量

以下例子会用到的数据(这些数据被放在一个叫data5.txt的文件里)：

74.3  78.8  68.8  78.0  70.4  80.5  80.5  69.7  71.2  73.5
79.5  75.6  75.0  78.8  72.0  72.0  72.0  74.3  71.2  72.0
75.0  73.5  78.8  74.3  75.8  65.0  74.3  71.2  69.7  68.0
73.5  75.0  72.0  64.3  75.8  80.3  69.7  74.3  73.5  73.5

读取数据：

Tdata <- read.table("data5.txt", header = F)
new_data <- as.vector(as.matrix(Tdata))

众数

> #众数
> z <- table(new_data)
> (z[which(z==max(z))])
new_data72 73.5 74.3 5    5    5

注意：众数可以有多个，也可以没有。

中位数

> #中位数
> (med_data <- median(new_data))
[1] 73.5

四分位数

#下四分位数
> quantile(new_data, 0.25)25%
71.2 #上四分位数
> quantile(new_data, 0.75)75%
75.65

五位数总括(最小值、下四分位数、中位数、上四分位数、最大值)

> (fivenum(new_data))
[1] 64.3 71.2 73.5 75.7 80.5

简单平均数

> #均值
> (mean_data <- mean(new_data))
[1] 73.64

因为平均数易受数据极端值的影响，所以我们可以删除极端值，过滤掉一部分比例的数据，再计算均值

> #过滤掉极小和极大各10%的极端值
> (mean_data2 <- mean(new_data, trim = 0.1))
[1] 73.70937

trim的参数值可以在0~0.5之间进行选择，如果大于等于0.5则会选择中位数作为均值。

比如：

> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 3/15)
[1] 5
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 2/15)
[1] 4.090909
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 1)
[1] 5
> mean(c(-30, -20, -10, 1:10, 50, 100, 200), trim = 1)
[1] 5.5

极差

> #极差
> (diff(range(new_data)))
[1] 16.2

四分位差

> #四分位差
> (diff(quantile(new_data, c(0.25, 0.75))))75%
4.45

平均差

> #平均差
> my_md <- function(x){mean(abs(x - mean(x, na.rm = T)), na.rm = T)}
> (my_md(new_data))
[1] 2.987

方差标准差(这里计算的是样本的方差标准差，分母为n-1)

> #方差
> (var_data <- var(new_data))
[1] 15.33836
> #标准差
> (sd_data <- sd(new_data))
[1] 3.916422

标准误

> #标准误
> (standard_error_data <- sd_data/(length(new_data))^(0.5))
[1] 0.6192406

标准得分

#标准得分
scale(new_data)

偏度与峰度

> #偏度
> (S_data <- skewness(new_data))
[1] -0.1563461
> #峰度
> (K_data <- kurtosis(new_data))
[1] 2.889835

R语言与数据的概括性度量相关推荐

R语言进行数据聚合统计（Aggregating transforms）计算滑动窗口统计值（Window Statistics）：使用R原生方法、data.table、dplyr等方案、计算滑动分组统计
R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法.data.table.dplyr等方案.计算滑动分组统计 ...
R语言进行数据聚合统计（Aggregating transforms）实战：使用R原生方法、data.table、dplyr等方案、计算分组均值并添加到可视化结果中
R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法.data.table.dplyr等方案.计算分组均值并添加到可视化结果中目录
R语言dataframe数据列中的缺失值NA的个数统计实战：特定数据列的NA值统计、所有特征的NA值统计
R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计.所有特征的NA值统计目录
R语言将数据列中的多种日期格式统一变化为一种固定格式实战：使用lubridate包中的parse_date_time函数
R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数目录
R语言dataframe数据列格式转换（从整型integer转化为浮点型float）
R语言dataframe数据列格式转换(从整型integer转化为浮点型float) 目录 R语言dataframe数据列格式转换(从整型integer转化为浮点型float)
用R语言把数据玩出花样
用R语言把数据玩出花样数据处理 R 去重数据可视化阅读759 R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器.随着越来越多的工程 ...
python在统计专业的应用_Python统计学一数据的概括性度量详解
一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...
r语言数据变量分段_使用R语言实现数据分段
使用R语言实现数据分段今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分.之前写过一篇<实战: RFM>模型使用,那篇文章就详细介绍了CRM(客户关系管理)分析 ...
R语言基础数据操作fBasics
R语言基础数据操作&fBasics xlsx文件的导入 library(readxl) data1 <- read_excel("C:/Users/12241/Desktop/ ...

R语言与数据的概括性度量

R语言与数据的概括性度量相关推荐

最新文章

热门文章