今天在进行可视化工作的时候遇上了一个名词, Anscombe's Quartet,不是很了解具体指的是什么就去WIKI百科里面查了一下,具体的链接在这里。

针对这个问题又查了一些资料汇总如下:

1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,在分析数据之前,描绘数据所对应的图像有多么的重要。这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。这四组数据如下所示:


     把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。

这四组数据绘制散点对比图如下图所示:


      这个问题就是要告诉我们了解原始数据的分布时多么重要的一件事,做数据分析绝不仅仅是基于统计的手段去计算和分析,可是化工具对于数据分析能够起到很大的辅助作用。

说到可视化,也正是今天在做的事情,这里给大家安利一个有趣同时功能强大的库 yellowbrick,地址在这里。这个库提供了很多实用的功能,当然也包括了今天要了解学习的Anscombe's Quartet问题,实践起来非常地简单,具体如下:

#Anscombe's Quartet 问题
import yellowbrick as yb
import matplotlib.pyplot as plt
g = yb.anscombe()
plt.savefig('anscombe.png')

anscombe.png如下图所示:

学习了!

Anscombe's Quartet 问题相关推荐

  1. 数据维度爆炸怎么办?详解5大常用的特征选择方法

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Edwin Jarvis,cnblog博客整理 在许多机器学习相关 ...

  2. 数据维度爆炸怎么办?详解 5 大常用的特征选择方法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择 ...

  3. R语言系统自带及附属包开元可用数据集汇总

    R语言系统自带及附属包开元可用数据集汇总 目录 R语言系统自带及附属包开元可用数据集汇总 #R自带数据集 #R的各种包自带数据集 #R自带数据集 向量 euro #欧元汇率,长度为11,每个元素都有命 ...

  4. 机器学习笔试题精选(三)

    https://blog.csdn.net/red_stone1/article/details/81073650 机器学习是一门理论性和实战性都比较强的技术学科.在应聘机器学习相关工作岗位时,我们常 ...

  5. 结合Scikit-learn介绍几种常用的特征选择方法

    特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...

  6. 两个特征是独立好还是正相关好_长文之详解机器学习的数据特征选择问题

    在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论. 但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能: ...

  7. python 卡方检验 特征选择_结合Scikit-learn介绍几种常用的特征选择方法

    特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...

  8. 数据可视化及其重要性:Python

    Data visualization is an important skill to possess for anyone trying to extract and communicate ins ...

  9. 大数据数据科学家常用面试题_进行数据科学工作面试

    大数据数据科学家常用面试题 During my time as a Data Scientist, I had the chance to interview my fair share of can ...

  10. 什么是安斯库姆四重奏?为什么统计分析之前必须要作图?

    欢迎关注"R语言和统计"~~ Anscombe's quartet,Wikipedia 就现在的习惯来说,统计表格和作图往往是同时出现的. 比如,在使用表格呈现相关或回归系数等统计 ...

最新文章

  1. js 与或运算符 || 妙用
  2. 教育部:国外经历不得作为高校招聘限制性条件
  3. 《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.4 数据量太大了怎么办
  4. jQuery EasyUI API 中文文档 - 链接按钮(LinkButton)
  5. 【蓝桥杯】算法提高 7-2求arccos值
  6. bzoj2140: 稳定婚姻
  7. Ubuntu12.04设置软件源
  8. 【C#程序设计】教学讲义——第一章:C#语言概述
  9. visual studio 的各个版本下载地址
  10. Struts Action 控制器
  11. 程序员是如何一步一步被诈骗的?《原力计划-打卡挑战》第二周周榜揭晓
  12. python之路第一天
  13. Windows Server2012 R2中安装SQL Server2008
  14. html 图片 滤镜,用Css给你的图片加上Instagram滤镜
  15. 阶段5 3.微服务项目【学成在线】_day04 页面静态化_06-freemarker基础-遍历map数据...
  16. HDOJ1003 MaxSum【逆推】
  17. 熊猫烧香C语言源代码,熊猫烧香病毒源代码 1.0 完整版 (图文)
  18. 2021年Java开发爆款推荐!黑马java培训视频网盘下载
  19. 计算机操作技能节,第十届知识技能节 网线制作竞赛方案
  20. mysql数据库配置步骤,MySQL数据库安装配置步骤详解

热门文章

  1. PouchContainer 开源版本及内部版本一致性实践
  2. 我的最爱Lambda演算——开篇
  3. Java HttpServlet 详解
  4. 使用docker分离服务与数据库
  5. 第三章、获取书籍信息
  6. CodeGear 出品 Delphi for PHP
  7. 快回家了,感觉什么事情都不想做,除了吃饭睡觉
  8. Cent OS 下 VI 使用方法
  9. linux下集成开发环境之ECLIPSE--在线调试、编译程序
  10. 基于visual c++之windows核心编程代码分析(35)实践NT服务的框架