在【定量分析、量化金融与统计学】R语言ANOVA方差分析关于outliers(异常值)的处理中,我们提到了异常值的问题,也说了如何使用R来处理这些异常值,但是R语言对于方差分析,不论ANOVA还是MANOVA是存在异常值陷阱的。

今天我就把我的教训分享出来:

目录

一、各种陷阱

1.循环陷阱

2.重复陷阱

3.复合陷阱


一、各种陷阱

1.循环陷阱

这个我们之前提过一次,就是当你去掉一次outliers后再查看outliers,发现去掉异常值的数据集又会出现新的异常值,这会让人很困惑。

但其实,每次实验你只需要进行一次异常值处理,不然就会陷入循环陷阱,你会一直发现新的异常值,然后一直去掉异常值,最终数据集会变得越来越小,因为你把值都删掉了。

2.重复陷阱

当你对不同的列进行异常值检测的时候,可能会出现一下这种情况:

data_set=read.csv(file.choose(),header=TRUE)
library("dplyr")
head(data_set,10)
outliers = boxplot(data_set$Dry.weight~data_set$Temperature,data=data_set,ylab="Dry.weight",xlab="Temperature",col="steelblue",border ="black")
print(outliers$out)
outliers2 = boxplot(data_set$Optical.density~data_set$Temperature,data=data_set,ylab="Optical.density",xlab="Temperature",col="steelblue",border ="black")
print(outliers2$out)
outliers3 = boxplot(data_set$Product.yield~data_set$Temperature,data=data_set,ylab="Product.yield",xlab="Temperature",col="steelblue",border ="black")
print(outliers3$out)

所以你以为总共的outliers的个数是2个,于是十分的兴奋的去搜索这两个异常值,准备把他们干掉。但是你找来找去就只能找到1个。当你打开数据集查看时才发现,原来这两个异常值是一个行的不同列。

所以R语言的outliers检测是对列名敏感的,并不会自动检测这个值是不是重复的。这就是重复陷阱。

3.复合陷阱

当你分析不同要素的交互时,当然你也是要做ANOVA或者MANOVA的,那么当你检测outliers时,你可能会遇到这种情况:

outliers = boxplot(data_set$weight_loss~data_set$gender*data_set$diet,data=data_set,ylab="weight_loss",xlab="group:gender",col="steelblue",border ="black")

你检测联合因素性别和饮食,你会发现:

仿佛,有四个outliers等着你去删除,但是当你取删除时:

print(outliers2)
out1 = data_set[(data_set$gender==0&data_set$Diet == 1) & data_set$weight_loss==-8.5,]
print(out1)
out2 = data_set[(data_set$gender==1&data_set$Diet == 1) & data_set$weight_loss==-9.0,]
print(out2)
ex3 = data_set[(data_set$gender==1&data_set$Diet == 2),]out3 = data_set[(data_set$gender==1&data_set$Diet == 2)& data_set$weight6weeks==1.4 ,]
print(out3)
ex4 =  data_set[(data_set$gender==0&data_set$Diet == 3),]
out4 = data_set[(data_set$gender==0&data_set$Diet == 3) & data_set$weight6weeks==-0.9,]outAll<- rbind(out1,out2, out3, out4)
print(outAll)
data_set<-data_set[-which(data_set$Person %in% outAll$Person),]

你却发现,你只删掉两个,这就很奇怪,明明有四个。

但是当你将两个因素分开分析时:

嘿,还真只有两个,那为什么联合的时候会有四个呢?

其实这也是R语言对列名敏感的表现,当你联合时,你的列名就发生了变化,是不同列的排列组合,所以R会站在这个角度去看,他就看到了4个,但是当你拆开,回归本质,就是2个。所以当多因素出现,请拆开单个要素,逐步分析outliers,不要联合分析。

【定量分析、量化金融与统计学】R语言方差分析的outliers陷阱相关推荐

  1. 【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

    目录 一.前言 二.样本均值分布 三.中心极限定理 *****中心极限定理 ***大数定理与中心极限定理有什么区别? 四.正态(概率)分布 一.前言 我发现很多人学了很久的统计学,很多总是概念混淆,那 ...

  2. 【定量分析、量化金融与统计学】统计推断基础(4)---假设检验(T或者Z检验)

    目录 一.前言 二.假设检验的基本概念 1.假设检验的概念与目的: 2.原假设 三.假设检验的实例步骤: 例子: 一个问题: 四.不同种类的假设检验: one-sample T检验: Two-samp ...

  3. 【定量分析、量化金融与统计学】统计推断基础(5)---一类错误与二类错误

    一.前言 这是这个系列的最后一篇,我们讲一讲什么是一类错误,什么是二类错误.这个系列统计推断基础5部分分别是: 总体.样本.标准差.标准误[定量分析.量化金融与统计学]统计推断基础(1)---总体.样 ...

  4. 【定量分析、量化金融与统计学】统计推断基础(3)---点估计、区间估计

    一.前言 我发现很多人学了很久的统计学,仍然搞不清楚什么是点估计.区间估计,总是概念混淆,那今天我们来盘一盘统计推断基础的点估计.区间估计.这个系列统计推断基础5部分分别是: 总体.样本.标准差.标准 ...

  5. R语言方差分析的注意事项

    本文首发于公众号:医学和生信笔记,完美观看体验请至公众号查看本文. 文章目录 均衡设计和非均衡设计 方差分析的3种类型 示例 one-way anova two-way anova 协方差分析 R语言 ...

  6. 【定量分析、量化金融与统计学】R语言方差分析ANOVA(F检验)

    目录 一.前言 Fixed-effects models.Random-effects models.Mixed-effects models. 二.ANOVA使用的前提假设与假设检验 三.ANOVA ...

  7. 【定量分析、量化金融与统计学】R语言:多元线性回归实例

    今天来做一个R语言的多元线性回归的实例: 题目是这样的: 练习:度假村排名 旅游胜地,专门介绍高级度假和住宿的杂志<Spas>在"读者选择"评选的世界20家独立海滨精品 ...

  8. 【定量分析、量化金融与统计学】多元回归模型与回归推理

    之前说过了一元线性回归并给出了程序,今天来说说多元回归模型(Multiple Regression Model) 目录 一.多元回归模型的简介 二.求解多元回归模型:我们使用最小二乘法为例 三.评判方 ...

  9. R语言方差分析ANOVA

    自己整理编写的R语言常用数据分析模型的模板,原文件为Rmd格式,直接复制粘贴过来,作为个人学习笔记保存和分享.部分参考薛毅的<统计建模与R软件>和<R语言实战> I. 单因素方 ...

  10. 100个统计学 R语言学习资源网站

    简介 原文:统计学 & R学习资源 作者:CoffeeCat 转载于: Coffee学生物统计的地方 注:有些链接需要科学上网/较硬的英文阅读能力才能愉快地体验知识/技术带来的快感. 1.个人 ...

最新文章

  1. iOS端Socket(二)ProtocolBuffer使用
  2. ubuntu安装KVM虚拟机管理virt-manager
  3. 云服务器加密机,卫士通云服务器密码机
  4. C++ Primer 5th笔记(chap 16 模板和泛型编程)可变参数模板举例
  5. 聚焦技术和实践,腾讯全面揭秘基础设施和大数据演进之路
  6. powerdesigner2
  7. 函数扩展(函数拦截)
  8. 20051129: NetBeans
  9. IDEA 配置Tomcat运行Servlet项目
  10. 我当测试总监的那几年
  11. 从程序详解拒绝服务攻击
  12. Flickr网站体系结构分析
  13. 222Echarts - 3D 地球(Globe Displacement)
  14. android如何设置qq邮箱格式,邮件客户端和手机设置QQ邮箱IMAP服务
  15. 虚拟存储器和cache的异同
  16. 报表控件Stimulsoft报告中的数据矩阵条形码介绍
  17. Jupyter制作slides
  18. 请给我一篇关于父母育儿方面书籍推荐的文案
  19. 51nod2943 旅行者
  20. 211大学计算机复试不机试,2019清华大学计算机考研912考试复试常问问题?

热门文章

  1. Phalcon整合beanstalk消息队列
  2. 2017《Java技术预备作业1》计科1502杨雪莹
  3. 已解决ModuleNotFoundError: No module named ‘frontend‘
  4. 挪威科技大学计算机硕士,挪威科技大学硕士留学申请条件
  5. Win10 卸载 Cortana
  6. 设计原则与设计模式定义
  7. 【3分钟速读】那些你苦苦搜索的模板,是这么被捣腾出来的
  8. 传递给Appium服务器以开启相应安卓Automation会话的Capabilities的几点说明
  9. 联想笔记本电脑无线网卡无法开启
  10. 为什么项目验收前的总是非常忙乱?