欢迎关注"R语言和统计"~~

Anscombe's quartet,Wikipedia

就现在的习惯来说,统计表格和作图往往是同时出现的。

比如,在使用表格呈现相关或回归系数等统计值的时候,通常还会配上一个散点图用来辅助说明。

现在很少有只做表格,不画图的“老一辈风格”啦

不过,大约1973年的时候,大部分的统计学家们却持这样的观点:用统计值来描述数据才是准确的(比如均数,标准差,相关系数等),而图片是粗略、不准确的[1]!

就在这时候,有一位名叫Francis Anscombe的统计学家,写了一篇论文“ Graphs in Statistical Analysis”,发在了《The American Statistician》杂志上,想要凭借一己之力逆转当时的“不良风气”[1]!

他创建了4组数据,如下:

上述四对数据(两个变量:x,y)拥有相同的统计描述

x的均数为:9,方差为:11

y的均数为:7.5,方差为:4.13

x和y的相关系数为:0.82

随后,作者作了一个散点图,并且画出了回归直线,见下图:

Anscombe's quartet,Wikipedia

结果令人震惊!

如果只看均数,方差等统计描述,会误认为数据是一样的!更糟糕的是,再强行使用线性模型,拟合出的方程将会变得非常不可靠!

而通过制作散点图,可以观察到数据的分布情况,如是否线性(线性回归的重要前提之一),是否存在影响点(Inflential observations)等重要信息。

只有了解这些重要信息之后,我们才可以选择合适的统计模型用于后续分析。

现在使用R来进一步了解作图的重要性,并且还很好玩

首先,安装一个包{datasauRus}并且载入:

# install.packages("datasauRus")
# install.packages("ggplot2")
library(datasauRus)
library(ggplot2)

作图:

ggplot(subset(datasaurus_dozen, dataset != "x_shape"),aes(x = x, y = y, colour = dataset))+geom_point()+facet_wrap(~ dataset, ncol = 4) + theme_void() +theme(legend.position = "none")

如之前所述,图片的形状差异非常巨大,但x和y却具有相同的统计描述,如下图:

图片来源:[2]

应了那句话:有图有真相

好啦,今天的内容就到这里。

如果有帮助,记得分享给需要的人

参考文献

[1]. Anscombe, F.J. (1973). Graphs in Statistical Analysis. The American Statistician 27, 1, 17–21.

[2]. https://github.com/lockedata/datasauRus

▌声明:本文由R语言和统计首发,如需转载请联系我们

▌编辑:June

▌我们的宗旨是:让R语言和统计变得简单!

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

什么是安斯库姆四重奏?为什么统计分析之前必须要作图?相关推荐

  1. 第一位女性商业程序员玛丽库姆斯去世,享年 93 岁!

    作者 | 张洁 出品 | 程序人生 (ID:coder _life) 据 The Register 报道,2 月 28 日,世界上首位使用商业应用编写计算机程序的女性.英国知名女程序员玛丽·库姆斯(M ...

  2. 第一位女性商业程序员玛丽库姆斯去世,享年 93 岁

    作者 | 张洁 据 The Register 报道,2 月 28 日,世界上首位使用商业应用编写计算机程序的女性.英国知名女程序员玛丽·库姆斯(Mary Coombs)去世,享年 93 岁. 图片来源 ...

  3. 富豪刑警 富豪刑警修斯库界面效果实现

    前端时间 富豪刑警看完了 就像做个 其中 的ai 修斯库 但是实力不够啊 只能先整个 类似的页面效果 玩玩了 <!DOCTYPE html> <html lang="zh& ...

  4. 微分方程的特征值解法:斯图姆-刘维尔方程

    一.基础概念 前置:福克斯定理和奇点理论 常点的级数解 奇异点的级数解 则至少存在一个如下形式的解(弗罗贝尼乌斯级数): 19世纪中期,常微分方程的研究到了新的阶段,存在定理和斯图姆-刘维尔理论都假设 ...

  5. 数学物理方法 16 斯特姆刘维尔问题

    第十六章斯特姆刘维尔问题 \color{blue}{第十六章 斯特姆刘维尔问题} 问题引入: 问题引入: (1−x 2 )y ′′ −2xy ′ +l(l+1)y=0→ddx [(1−x 2 )dyd ...

  6. 加布里埃拉·梅利内斯库《复原》

    <复原> [罗马尼亚]加布里埃拉·梅利内斯库(1942-) 子夜,我还在凝望 父亲的手表, 二十五年前,他戴着它 在投入天空的时刻. 这是块没有时间的表, 永永远远,没有指针, 它的玻璃伤 ...

  7. linux安装的库文件,linux – 安装包库和头文件在哪里?

    在Ubuntu中下载并安装软件包后,如何查看库和头文件的写入位置?我相信这与包的.pc文件有关,但我不知道如何找到该文件. 例如,我已经下载了PCL(Point Cloud Library)软件包,然 ...

  8. K-means的缺点(优化不仅仅是最小化误差)

    K-means的缺点(优化不仅仅是最小化误差) #转载时,请注明英文原作David Robinson,译者Ding Chao.# 我最近遇到一个交叉验证的问题,我认为这个给我提供了一个很好的机会去用& ...

  9. 看完这13张图,不得不佩服还是外国人会玩人工智能

    对于程序员来说,机器学习领域无疑充满着巨大的诱惑和挑战,很多人对里面复杂的概念和算法头疼不已,那么,有没有一套对新手既友好又明了,对老手能加深印象,不断复习的学习办法呢?有,今天优达菌要送给大家一份& ...

最新文章

  1. Apache 配置支持HTTPS的SSL证书
  2. Lintcode: Unique Paths
  3. 小程序开发学习(4)---天气预报接口API篇
  4. 这是我拼命做科研的原因,2018年最感人的一个真实故事
  5. 基础 | 这波编程基础绝了!快来学习!
  6. Bootstrap CSS 编程规范之语法规范
  7. Web全栈工程师年薪40w+,凭什么?
  8. nodejs图片处理(上传图片,复制图片,移动图片)
  9. 找到的一个关于银行的介绍
  10. win10蓝屏提示重新启动_关于网传0x000000F4蓝屏的临时分析解答
  11. 我奋斗了10年才能和你坐在一起喝咖啡
  12. 运行slmgr.vbs -xpr, 找不到应用程序
  13. 数据挖掘:数据(数据的基本统计描述)
  14. CSS - 选择器(标签选择器、类选择器、ID选择器)
  15. echo命令详解 (二)
  16. 梆梆安全加固企业版分析
  17. 人生这口井,要开始挖了
  18. 【跑飞、死机】单片机 msp430程序跑飞原因和解决方式积累
  19. 长沙云图,VR全景“云探校”招生择校新潮流!
  20. 华为OD机试 - 航天器(Python) | 机试题+算法思路+考点+代码解析 【2023】

热门文章

  1. “通信大数据”征文通知
  2. 【面向对象】面向对象的分析与设计概述
  3. 【Python】Matplotlib绘制各式各样的圆形
  4. Linux 系统中 Redis 的安装及其使用
  5. oracle查询中over(partition by ...order by ...)用法
  6. [转载]带你玩转Visual Studio——带你高效开发
  7. Asp.NetCore之组件写法
  8. Powershell访问数组
  9. 笔记10:时时屏幕抓取小程序
  10. 由friend用法引出的声明与定义那些事儿