R语言与数据的概括性度量
参考书目:《统计学》-贾俊平;《统计学:从数据到结论》-吴喜之;
理论部分:数据的概括性度量
以下例子会用到的数据(这些数据被放在一个叫data5.txt的文件里):
74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0
75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5
读取数据:
Tdata <- read.table("data5.txt", header = F)
new_data <- as.vector(as.matrix(Tdata))
- 众数
> #众数
> z <- table(new_data)
> (z[which(z==max(z))])
new_data72 73.5 74.3 5 5 5
注意:众数可以有多个,也可以没有。
- 中位数
> #中位数
> (med_data <- median(new_data))
[1] 73.5
- 四分位数
#下四分位数
> quantile(new_data, 0.25)25%
71.2 #上四分位数
> quantile(new_data, 0.75)75%
75.65
- 五位数总括(最小值、下四分位数、中位数、上四分位数、最大值)
> (fivenum(new_data))
[1] 64.3 71.2 73.5 75.7 80.5
- 简单平均数
> #均值
> (mean_data <- mean(new_data))
[1] 73.64
因为平均数易受数据极端值的影响,所以我们可以删除极端值,过滤掉一部分比例的数据,再计算均值
> #过滤掉极小和极大各10%的极端值
> (mean_data2 <- mean(new_data, trim = 0.1))
[1] 73.70937
trim的参数值可以在0~0.5
之间进行选择,如果大于等于0.5则会选择中位数作为均值。
比如:
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 3/15)
[1] 5
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 2/15)
[1] 4.090909
> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 1)
[1] 5
> mean(c(-30, -20, -10, 1:10, 50, 100, 200), trim = 1)
[1] 5.5
- 极差
> #极差
> (diff(range(new_data)))
[1] 16.2
- 四分位差
> #四分位差
> (diff(quantile(new_data, c(0.25, 0.75))))75%
4.45
- 平均差
> #平均差
> my_md <- function(x){mean(abs(x - mean(x, na.rm = T)), na.rm = T)}
> (my_md(new_data))
[1] 2.987
- 方差标准差(这里计算的是样本的方差标准差,分母为n-1)
> #方差
> (var_data <- var(new_data))
[1] 15.33836
> #标准差
> (sd_data <- sd(new_data))
[1] 3.916422
- 标准误
> #标准误
> (standard_error_data <- sd_data/(length(new_data))^(0.5))
[1] 0.6192406
- 标准得分
#标准得分
scale(new_data)
- 偏度与峰度
> #偏度
> (S_data <- skewness(new_data))
[1] -0.1563461
> #峰度
> (K_data <- kurtosis(new_data))
[1] 2.889835
R语言与数据的概括性度量相关推荐
- R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法、data.table、dplyr等方案、计算滑动分组统计
R语言进行数据聚合统计(Aggregating transforms)计算滑动窗口统计值(Window Statistics):使用R原生方法.data.table.dplyr等方案.计算滑动分组统计 ...
- R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法、data.table、dplyr等方案、计算分组均值并添加到可视化结果中
R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法.data.table.dplyr等方案.计算分组均值并添加到可视化结果中 目录
- R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计、所有特征的NA值统计
R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计.所有特征的NA值统计 目录
- R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数
R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数 目录
- R语言dataframe数据列格式转换(从整型integer转化为浮点型float)
R语言dataframe数据列格式转换(从整型integer转化为浮点型float) 目录 R语言dataframe数据列格式转换(从整型integer转化为浮点型float)
- 用R语言把数据玩出花样
用R语言把数据玩出花样 数据处理 R 去重 数据可视化 阅读759 R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器.随着越来越多的工程 ...
- python在统计专业的应用_Python统计学一数据的概括性度量详解
一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...
- r语言数据变量分段_使用R语言实现数据分段
使用R语言实现数据分段 今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分.之前写过一篇<实战: RFM>模型使用,那篇文章就详细介绍了CRM(客户关系管理)分析 ...
- R语言基础数据操作fBasics
R语言基础数据操作&fBasics xlsx文件的导入 library(readxl) data1 <- read_excel("C:/Users/12241/Desktop/ ...
最新文章
- 一、安装Docker CE
- 自动化测试 div sendkeys无效_【自动化测试】【JestSelenium】(04)—— Selenium WebDriver...
- 常见的web应用服务器
- cassandra随机获取数据,Cassandra适合写入和少读,HBASE随机读取写入
- linux目录删除不释放空间,删除linux文件后,磁盘空间未释放的解决办法
- Quartus II与 ModelSim功能仿真与后仿真扫盲(转)
- java并发初探ConcurrentHashMap
- ODOO v10.0 自动生成财务凭证的科目设置
- Android属性动画之ObjectAnimator控制
- XML语言学习2---方立勋教程DTD
- 大黄蜂vep视频转成MP4格式提取工具的使用
- 基于Ansible和CodeDeploy的DevOps解决方案
- WPF控件模板和数据模板的区别
- 数据结构之SWUSTOJ1038: 顺序表中重复数据的删除
- 关于JAVA开发小游戏如何做读档和存档功能的这件事
- python dataframe重新索引_Concat DataFrame重新索引仅对唯一值索引对象有效
- Python中Numpy中省略号的作用
- 计算机怎么换桌面皮肤,如何更换电脑腾讯视频上的皮肤样式
- 10个 Istio 流量管理 最常用的例子,你知道几个?
- 论文《基于结构光和双目视觉的三维重建系统研究》摘要
热门文章
- 【机器学习】集成学习各方法优缺点特征总结
- 多核处理器_基于NXP i.MX8MM多核应用处理器设计的智能加油机
- telnet或SQLplus下命令输入错误如何删掉重新输入
- Mac连接远程Linux管理文件(samba)
- ReactiveCocoa 更优雅的编程(信号探秘)
- 联想EDU同传系统 版本7.5 7.6在机房中出现的一些故障和解决办法
- 用jquery校验radio单选按钮(原创)
- ​用c语言打印自定义的乘法口诀表。例如:输入9,输出9*9口诀表,输入12,输出12*12的乘法口诀表。...
- 网信金融 与 金银猫合作
- c#类和结构体的关系