R语言数据异常值处理
文章目录
- 什么是异常值
- 检验异常值的方法
- 原则
- 箱线图
- 异常值的处理
什么是异常值
异常值简单来说就是偏离数据集整体的值。在统计学意义上,如果一个值偏离整体,那么就会影响其正态分布,进而影响需要以正态分布为前提的统计模型(如线性回归、方差分析)的结果准确度。
检验异常值的方法
原则
检验异常值的方法通常基于3α3α3α原则(拉依达准则法)。即将超过3个标准差的数值视为异常值。一个变量整体如果正态分布,那么变量组成部分在±3α±3α±3α分布的概率为99.7%。超过3个标准差的概率为P(∣x−μ∣3α)=0.003P(|x-μ|3α)=0.003P(∣x−μ∣3α)=0.003,属于小概率事件。
箱线图
箱线图(BoxplotBoxplotBoxplot)是一种利用数据中的五个统计量:最小值(MinMinMin)、第一四分位数(Q1Q1Q1)、中位数(MedMedMed)、第三四分位数(Q3Q3Q3)和最大值(MaxMaxMax)来描述数据的一种方法。它可以简单地看出数据是否对称、分布的分散程度,还可以用于对多个样本进行比较。
检验异常值最直观的方法就是用箱线图进行可视化(也称TuKey′sTuKey'sTuKey′stesttesttest法)。它以四分位距(IQRIQRIQR)的1.5倍为标准,规定:超过上四分位+1.5倍IQRIQRIQR距离或下四分位-1.5倍IQRIQRIQR距离的点为异常点。
示例
#设置种子
set.seed(1234)
#生成200个服从N(0,1)的随机数
x <- rnorm(200)
#使用boxplot.stats函数查看统计。
#结果依次返回箱线图相关5个统计值、非缺失值个数、95%置信区间、异常值
boxplot.stats(x)
$stats
[1] -2.7322195 -0.7748037 -0.1718906 0.5565266 2.5489911$n
[1] 200$conf
[1] -0.32063066 -0.02315059$out
[1] 3.043766 -2.855759
#绘制箱线图
boxplot(x)
从图中可以看出存在两个○○○,这两个○○○即是异常值。
set.seed函数功能是设置种子,方便结果的复现。如果不设置种子,x<-rnorm(200)生成的随机数每次会不一样,不利于结果重现。
R语言中,异常值的检测除了箱线图还有局部异常因子法(LOF法)、聚类分析方法、时间序列数据异常值检测、稳健马氏距离检测。本文为入门教程,不提。
异常值的处理
异常值的处理通常为:
- 删除包含异常值的个案(行变量)
- 将异常值按缺失值方法处理
- 不处理
R语言数据异常值处理相关推荐
- r语言liftchart_最棒的7种R语言数据可视化
随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在可视化的技术实现之前,让我们 ...
- 【组队学习】【28期】R语言数据科学
R语言数据科学 论坛版块: http://datawhale.club/c/team-learning/36-category/36 开源内容: https://github.com/datawhal ...
- 推荐:一本“高颜值”的R语言数据可视化图书(包邮送3本)
文章留言点赞前3名的朋友,每人送1本<R语言数据化可视化之美增强版>,名单揭晓日期为:本周日 (2020年7月12日晚7点).到时,获奖的朋友可以直接添加微信:meta-genomics, ...
- 半折预售:新书-R语言数据可视化之美|ggplot2作者推荐
我本来想等正式发售的时候,再告诉大家我的新书<R语言数据可视化之美>已经出版,奈何新书还太贵,这几天刚好京东有买100减50的活动,所以想想还是赶紧告诉大家吧,不然平时购买的话,太真有点小 ...
- R语言数据包自带数据集之ISwR包的melanom数据集字段解释、数据导入实战
R语言数据包自带数据集之ISwR包的melanom数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之ISwR包的melanom数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导入数 ...
- R语言数据包自带数据集之survival包的colon数据集字段解释、数据导入实战
R语言数据包自带数据集之survival包的colon数据集字段解释.数据导入实战 #数据字段说明 colon数据集:B/C期结肠癌辅助化疗治疗数据 d # 患者编号 study # 所有患者都是1 ...
- R语言数据包自带数据集之survival包的lung数据集字段解释、数据导入实战
R语言数据包自带数据集之survival包的lung数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之survival包的lung数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导 ...
- R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战
R语言数据包自带数据集之ToothGrowth数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之ToothGrowth数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导入数据 #数 ...
- R语言数据包自带数据集之mtcars数据集字段解释、数据导入实战
R语言数据包自带数据集之mtcars数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之mtcars数据集字段解释.数据导入实战 #会用帮助?或者help函数 #字段说明 #导入包 #导入数据 ...
- R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)
R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录
最新文章
- elasticsearch date格式问题
- java生成xsd_java 生成XSD
- 我是怎么通过技术白手起家创业 续2
- linux script 命令
- Linux下安装Elasticsearch2.x
- boost::gil::is_bit_aligned用法的测试程序
- jQuery当当网项目实现
- Linux Linux程序练习十(网络编程大文件发送)
- BP神经网络用于预测
- MXF到MP4转换器:如何轻松地将MXF转换成MP4
- 饿了么推荐系统的从0到1
- HDU 1248(寒冰王座)
- ppi 各代iphone_这样的iphone12,好看还中用,必须买!
- 河南省第二类医疗器械首次注册
- java poi 边框_java poi 设置边框
- 使用PlayCanvas制作一个简单的小游戏(四)
- 安全基础--22--安全测试
- orangepi pc lubuntu 设置分辨率
- 20201024节日快乐
- 浅析修理厂的5s管理内容及效用