文章目录

  • 什么是异常值
  • 检验异常值的方法
    • 原则
    • 箱线图
  • 异常值的处理

什么是异常值

异常值简单来说就是偏离数据集整体的值。在统计学意义上,如果一个值偏离整体,那么就会影响其正态分布,进而影响需要以正态分布为前提的统计模型(如线性回归、方差分析)的结果准确度。

检验异常值的方法

原则

检验异常值的方法通常基于3α3α3α原则(拉依达准则法)。即将超过3个标准差的数值视为异常值。一个变量整体如果正态分布,那么变量组成部分在±3α±3α±3α分布的概率为99.7%。超过3个标准差的概率为P(∣x−μ∣3α)=0.003P(|x-μ|3α)=0.003P(∣x−μ∣3α)=0.003,属于小概率事件。

箱线图

箱线图(BoxplotBoxplotBoxplot)是一种利用数据中的五个统计量:最小值(MinMinMin)、第一四分位数(Q1Q1Q1)、中位数(MedMedMed)、第三四分位数(Q3Q3Q3)和最大值(MaxMaxMax)来描述数据的一种方法。它可以简单地看出数据是否对称、分布的分散程度,还可以用于对多个样本进行比较。
检验异常值最直观的方法就是用箱线图进行可视化(也称TuKey′sTuKey'sTuKey′stesttesttest法)。它以四分位距(IQRIQRIQR)的1.5倍为标准,规定:超过上四分位+1.5倍IQRIQRIQR距离或下四分位-1.5倍IQRIQRIQR距离的点为异常点。
示例

#设置种子
set.seed(1234)
#生成200个服从N(0,1)的随机数
x <- rnorm(200)
#使用boxplot.stats函数查看统计。
#结果依次返回箱线图相关5个统计值、非缺失值个数、95%置信区间、异常值
boxplot.stats(x)
$stats
[1] -2.7322195 -0.7748037 -0.1718906  0.5565266  2.5489911$n
[1] 200$conf
[1] -0.32063066 -0.02315059$out
[1]  3.043766 -2.855759
#绘制箱线图
boxplot(x)


从图中可以看出存在两个○○○,这两个○○○即是异常值。

set.seed函数功能是设置种子,方便结果的复现。如果不设置种子,x<-rnorm(200)生成的随机数每次会不一样,不利于结果重现。
R语言中,异常值的检测除了箱线图还有局部异常因子法(LOF法)、聚类分析方法、时间序列数据异常值检测、稳健马氏距离检测。本文为入门教程,不提。

异常值的处理

异常值的处理通常为:

  • 删除包含异常值的个案(行变量)
  • 将异常值按缺失值方法处理
  • 不处理

R语言数据异常值处理相关推荐

  1. r语言liftchart_最棒的7种R语言数据可视化

    随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在可视化的技术实现之前,让我们 ...

  2. 【组队学习】【28期】R语言数据科学

    R语言数据科学 论坛版块: http://datawhale.club/c/team-learning/36-category/36 开源内容: https://github.com/datawhal ...

  3. 推荐:一本“高颜值”的R语言数据可视化图书(包邮送3本)

    文章留言点赞前3名的朋友,每人送1本<R语言数据化可视化之美增强版>,名单揭晓日期为:本周日 (2020年7月12日晚7点).到时,获奖的朋友可以直接添加微信:meta-genomics, ...

  4. 半折预售:新书-R语言数据可视化之美|ggplot2作者推荐

    我本来想等正式发售的时候,再告诉大家我的新书<R语言数据可视化之美>已经出版,奈何新书还太贵,这几天刚好京东有买100减50的活动,所以想想还是赶紧告诉大家吧,不然平时购买的话,太真有点小 ...

  5. R语言数据包自带数据集之ISwR包的melanom数据集字段解释、数据导入实战

    R语言数据包自带数据集之ISwR包的melanom数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之ISwR包的melanom数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导入数 ...

  6. R语言数据包自带数据集之survival包的colon数据集字段解释、数据导入实战

    R语言数据包自带数据集之survival包的colon数据集字段解释.数据导入实战 #数据字段说明 colon数据集:B/C期结肠癌辅助化疗治疗数据 d # 患者编号 study # 所有患者都是1 ...

  7. R语言数据包自带数据集之survival包的lung数据集字段解释、数据导入实战

    R语言数据包自带数据集之survival包的lung数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之survival包的lung数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导 ...

  8. R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战

    R语言数据包自带数据集之ToothGrowth数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之ToothGrowth数据集字段解释.数据导入实战 #数据字段说明 #导入包 #导入数据 #数 ...

  9. R语言数据包自带数据集之mtcars数据集字段解释、数据导入实战

    R语言数据包自带数据集之mtcars数据集字段解释.数据导入实战 目录 R语言数据包自带数据集之mtcars数据集字段解释.数据导入实战 #会用帮助?或者help函数 #字段说明 #导入包 #导入数据 ...

  10. R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)

    R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录

最新文章

  1. elasticsearch date格式问题
  2. java生成xsd_java 生成XSD
  3. 我是怎么通过技术白手起家创业 续2
  4. linux script 命令
  5. Linux下安装Elasticsearch2.x
  6. boost::gil::is_bit_aligned用法的测试程序
  7. jQuery当当网项目实现
  8. Linux Linux程序练习十(网络编程大文件发送)
  9. BP神经网络用于预测
  10. MXF到MP4转换器:如何轻松地将MXF转换成MP4
  11. 饿了么推荐系统的从0到1
  12. HDU 1248(寒冰王座)
  13. ppi 各代iphone_这样的iphone12,好看还中用,必须买!
  14. 河南省第二类医疗器械首次注册
  15. java poi 边框_java poi 设置边框
  16. 使用PlayCanvas制作一个简单的小游戏(四)
  17. 安全基础--22--安全测试
  18. orangepi pc lubuntu 设置分辨率
  19. 20201024节日快乐
  20. 浅析修理厂的5s管理内容及效用

热门文章

  1. hp服务器经常自动重启,惠普电脑经常自动重启的解决方法
  2. 年薪50万的程序员_程序员年薪50万 ! 工资是不是太高了?
  3. 如何在ANSYS 2022R1版本中使用SCDM
  4. 一文彻底搞懂方差、协方差、协方差矩阵
  5. 零至二岁宝宝故事(一)
  6. Android 最常用的设计模式四 安卓源码分析——模板方法(Mould)
  7. frida-trace入门
  8. Pytorch 操作整理
  9. 你不知道的“虚假需求”
  10. matlab中如何求导数,matlab如何求导数