什么是安斯库姆四重奏?为什么统计分析之前必须要作图?
欢迎关注"R语言和统计"~~
Anscombe's quartet,Wikipedia
就现在的习惯来说,统计表格和作图往往是同时出现的。
比如,在使用表格呈现相关或回归系数等统计值的时候,通常还会配上一个散点图用来辅助说明。
现在很少有只做表格,不画图的“老一辈风格”啦。
不过,大约1973年的时候,大部分的统计学家们却持这样的观点:用统计值来描述数据才是准确的(比如均数,标准差,相关系数等),而图片是粗略、不准确的[1]!
就在这时候,有一位名叫Francis Anscombe的统计学家,写了一篇论文“ Graphs in Statistical Analysis”,发在了《The American Statistician》杂志上,想要凭借一己之力逆转当时的“不良风气”[1]!
他创建了4组数据,如下:
上述四对数据(两个变量:x,y)拥有相同的统计描述:
x的均数为:9,方差为:11
y的均数为:7.5,方差为:4.13
x和y的相关系数为:0.82
随后,作者作了一个散点图,并且画出了回归直线,见下图:
Anscombe's quartet,Wikipedia
结果令人震惊!
如果只看均数,方差等统计描述,会误认为数据是一样的!更糟糕的是,再强行使用线性模型,拟合出的方程将会变得非常不可靠!
而通过制作散点图,可以观察到数据的分布情况,如是否线性(线性回归的重要前提之一),是否存在影响点(Inflential observations)等重要信息。
只有了解这些重要信息之后,我们才可以选择合适的统计模型用于后续分析。
现在使用R来进一步了解作图的重要性,并且还很好玩!
首先,安装一个包{datasauRus}并且载入:
# install.packages("datasauRus")
# install.packages("ggplot2")
library(datasauRus)
library(ggplot2)
作图:
ggplot(subset(datasaurus_dozen, dataset != "x_shape"),aes(x = x, y = y, colour = dataset))+geom_point()+facet_wrap(~ dataset, ncol = 4) + theme_void() +theme(legend.position = "none")
如之前所述,图片的形状差异非常巨大,但x和y却具有相同的统计描述,如下图:
图片来源:[2]
应了那句话:有图有真相!
好啦,今天的内容就到这里。
如果有帮助,记得分享给需要的人!
参考文献
[1]. Anscombe, F.J. (1973). Graphs in Statistical Analysis. The American Statistician 27, 1, 17–21.
[2]. https://github.com/lockedata/datasauRus
▌声明:本文由R语言和统计首发,如需转载请联系我们
▌编辑:June
▌我们的宗旨是:让R语言和统计变得简单!
往期精品(点击图片直达文字对应教程)
机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
什么是安斯库姆四重奏?为什么统计分析之前必须要作图?相关推荐
- 第一位女性商业程序员玛丽库姆斯去世,享年 93 岁!
作者 | 张洁 出品 | 程序人生 (ID:coder _life) 据 The Register 报道,2 月 28 日,世界上首位使用商业应用编写计算机程序的女性.英国知名女程序员玛丽·库姆斯(M ...
- 第一位女性商业程序员玛丽库姆斯去世,享年 93 岁
作者 | 张洁 据 The Register 报道,2 月 28 日,世界上首位使用商业应用编写计算机程序的女性.英国知名女程序员玛丽·库姆斯(Mary Coombs)去世,享年 93 岁. 图片来源 ...
- 富豪刑警 富豪刑警修斯库界面效果实现
前端时间 富豪刑警看完了 就像做个 其中 的ai 修斯库 但是实力不够啊 只能先整个 类似的页面效果 玩玩了 <!DOCTYPE html> <html lang="zh& ...
- 微分方程的特征值解法:斯图姆-刘维尔方程
一.基础概念 前置:福克斯定理和奇点理论 常点的级数解 奇异点的级数解 则至少存在一个如下形式的解(弗罗贝尼乌斯级数): 19世纪中期,常微分方程的研究到了新的阶段,存在定理和斯图姆-刘维尔理论都假设 ...
- 数学物理方法 16 斯特姆刘维尔问题
第十六章斯特姆刘维尔问题 \color{blue}{第十六章 斯特姆刘维尔问题} 问题引入: 问题引入: (1−x 2 )y ′′ −2xy ′ +l(l+1)y=0→ddx [(1−x 2 )dyd ...
- 加布里埃拉·梅利内斯库《复原》
<复原> [罗马尼亚]加布里埃拉·梅利内斯库(1942-) 子夜,我还在凝望 父亲的手表, 二十五年前,他戴着它 在投入天空的时刻. 这是块没有时间的表, 永永远远,没有指针, 它的玻璃伤 ...
- linux安装的库文件,linux – 安装包库和头文件在哪里?
在Ubuntu中下载并安装软件包后,如何查看库和头文件的写入位置?我相信这与包的.pc文件有关,但我不知道如何找到该文件. 例如,我已经下载了PCL(Point Cloud Library)软件包,然 ...
- K-means的缺点(优化不仅仅是最小化误差)
K-means的缺点(优化不仅仅是最小化误差) #转载时,请注明英文原作David Robinson,译者Ding Chao.# 我最近遇到一个交叉验证的问题,我认为这个给我提供了一个很好的机会去用& ...
- 看完这13张图,不得不佩服还是外国人会玩人工智能
对于程序员来说,机器学习领域无疑充满着巨大的诱惑和挑战,很多人对里面复杂的概念和算法头疼不已,那么,有没有一套对新手既友好又明了,对老手能加深印象,不断复习的学习办法呢?有,今天优达菌要送给大家一份& ...
最新文章
- Apache 配置支持HTTPS的SSL证书
- Lintcode: Unique Paths
- 小程序开发学习(4)---天气预报接口API篇
- 这是我拼命做科研的原因,2018年最感人的一个真实故事
- 基础 | 这波编程基础绝了!快来学习!
- Bootstrap CSS 编程规范之语法规范
- Web全栈工程师年薪40w+,凭什么?
- nodejs图片处理(上传图片,复制图片,移动图片)
- 找到的一个关于银行的介绍
- win10蓝屏提示重新启动_关于网传0x000000F4蓝屏的临时分析解答
- 我奋斗了10年才能和你坐在一起喝咖啡
- 运行slmgr.vbs -xpr, 找不到应用程序
- 数据挖掘:数据(数据的基本统计描述)
- CSS - 选择器(标签选择器、类选择器、ID选择器)
- echo命令详解 (二)
- 梆梆安全加固企业版分析
- 人生这口井,要开始挖了
- 【跑飞、死机】单片机 msp430程序跑飞原因和解决方式积累
- 长沙云图,VR全景“云探校”招生择校新潮流!
- 华为OD机试 - 航天器(Python) | 机试题+算法思路+考点+代码解析 【2023】
热门文章
- “通信大数据”征文通知
- 【面向对象】面向对象的分析与设计概述
- 【Python】Matplotlib绘制各式各样的圆形
- Linux 系统中 Redis 的安装及其使用
- oracle查询中over(partition by ...order by ...)用法
- [转载]带你玩转Visual Studio——带你高效开发
- Asp.NetCore之组件写法
- Powershell访问数组
- 笔记10:时时屏幕抓取小程序
- 由friend用法引出的声明与定义那些事儿