Anscombe's Quartet 问题
今天在进行可视化工作的时候遇上了一个名词, Anscombe's Quartet,不是很了解具体指的是什么就去WIKI百科里面查了一下,具体的链接在这里。
针对这个问题又查了一些资料汇总如下:
1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,在分析数据之前,描绘数据所对应的图像有多么的重要。这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。这四组数据如下所示:
把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。
这四组数据绘制散点对比图如下图所示:
这个问题就是要告诉我们了解原始数据的分布时多么重要的一件事,做数据分析绝不仅仅是基于统计的手段去计算和分析,可是化工具对于数据分析能够起到很大的辅助作用。
说到可视化,也正是今天在做的事情,这里给大家安利一个有趣同时功能强大的库 yellowbrick,地址在这里。这个库提供了很多实用的功能,当然也包括了今天要了解学习的Anscombe's Quartet问题,实践起来非常地简单,具体如下:
#Anscombe's Quartet 问题
import yellowbrick as yb
import matplotlib.pyplot as plt
g = yb.anscombe()
plt.savefig('anscombe.png')
anscombe.png如下图所示:
学习了!
Anscombe's Quartet 问题相关推荐
- 数据维度爆炸怎么办?详解5大常用的特征选择方法
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Edwin Jarvis,cnblog博客整理 在许多机器学习相关 ...
- 数据维度爆炸怎么办?详解 5 大常用的特征选择方法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择 ...
- R语言系统自带及附属包开元可用数据集汇总
R语言系统自带及附属包开元可用数据集汇总 目录 R语言系统自带及附属包开元可用数据集汇总 #R自带数据集 #R的各种包自带数据集 #R自带数据集 向量 euro #欧元汇率,长度为11,每个元素都有命 ...
- 机器学习笔试题精选(三)
https://blog.csdn.net/red_stone1/article/details/81073650 机器学习是一门理论性和实战性都比较强的技术学科.在应聘机器学习相关工作岗位时,我们常 ...
- 结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...
- 两个特征是独立好还是正相关好_长文之详解机器学习的数据特征选择问题
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论. 但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能: ...
- python 卡方检验 特征选择_结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...
- 数据可视化及其重要性:Python
Data visualization is an important skill to possess for anyone trying to extract and communicate ins ...
- 大数据数据科学家常用面试题_进行数据科学工作面试
大数据数据科学家常用面试题 During my time as a Data Scientist, I had the chance to interview my fair share of can ...
- 什么是安斯库姆四重奏?为什么统计分析之前必须要作图?
欢迎关注"R语言和统计"~~ Anscombe's quartet,Wikipedia 就现在的习惯来说,统计表格和作图往往是同时出现的. 比如,在使用表格呈现相关或回归系数等统计 ...
最新文章
- js 与或运算符 || 妙用
- 教育部:国外经历不得作为高校招聘限制性条件
- 《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.4 数据量太大了怎么办
- jQuery EasyUI API 中文文档 - 链接按钮(LinkButton)
- 【蓝桥杯】算法提高 7-2求arccos值
- bzoj2140: 稳定婚姻
- Ubuntu12.04设置软件源
- 【C#程序设计】教学讲义——第一章:C#语言概述
- visual studio 的各个版本下载地址
- Struts Action 控制器
- 程序员是如何一步一步被诈骗的?《原力计划-打卡挑战》第二周周榜揭晓
- python之路第一天
- Windows Server2012 R2中安装SQL Server2008
- html 图片 滤镜,用Css给你的图片加上Instagram滤镜
- 阶段5 3.微服务项目【学成在线】_day04 页面静态化_06-freemarker基础-遍历map数据...
- HDOJ1003 MaxSum【逆推】
- 熊猫烧香C语言源代码,熊猫烧香病毒源代码 1.0 完整版 (图文)
- 2021年Java开发爆款推荐!黑马java培训视频网盘下载
- 计算机操作技能节,第十届知识技能节 网线制作竞赛方案
- mysql数据库配置步骤,MySQL数据库安装配置步骤详解