上一篇学习的是基于【时序型数据】和【比例型数据】如何选择图表,这篇讨论基于【对比型数据】和【分布型数据】来选择图表:

  • 【对比型数据】:对比两组或者两组以上数据的差异;
  • 【分布型数据】:探索数据分布的集中趋势、离散程度、分布形状。

一、对比型数据可视化

对比型数据一般是比较几组数据的差异,这些差异通过视觉通道和标记来区分,体现在可视化中通常表现为以下几种差异形式:

(1)高度差异/宽度差异:用柱状图、条形图。

(2)面积差异:面积图、气泡图。

(3)字号差异:单词云图。

(4)形状差异:星状图。

对比型数据可视化用到的图表:

1、柱状图

柱状图可用于比较不同分类数据的可视化,但是柱状图的数据条数,最好不要超过12条。根据数据类别的个数和可视化的目的,柱状图还可细分为:

(1)单一柱状图。常用于单一类别的数据比对,也可以表示离散型时序数据随时间变化的趋势;

(2)重叠型柱状图。适合两个类别的数据对比,外围的半透明柱形条表示某项指标的【目标值】,内部偏窄且不透明的柱形条表示某项指标的【实际完成情况】。通常会搭配折线图使用,折线图则表示目标完成率;

(3)并列柱状图。常用于两个或三个数据类别的对比,一般数据类别不能超出3个;

(4)堆叠柱状图。即可以对比总体数据,也可以对比总体的各构成部分,但是总体各构成项一般不要大于5个,若大于5个,可按占总体的比例进行归类,只展示前五个的分类,剩下的归为【其他】。

2、条形图

条形图类似于柱状图,看起来像是对柱状图的x、y轴进行旋转。大部分情况下,条形图与柱状图可以互换,但是条形图也可用来展示柱形图不方便展示的数据:

(1)当数据条数大于12条时,可以用条形图,但是不要超过30条;

(2)当柱状图的x轴描述文字过长,不方便显示时,可用条形图。

3、面积图

面积图,其实就是折线图和折线图投影到X轴的直线所围成的面积。按照对比方式的不同,面积图又可以分为:【重叠对比型面积图】和【堆砌对比型面积图】,两者的区别如下:

(1)重叠对比型面积图。所有类别的面积都是以X轴作为基准线,不同类别之间有重叠和覆盖的关系,也可用于分析各个类别随时间的变化趋势;

(2)堆砌对比型面积图。只有最底层类别的面积基线和X轴重合,其他类别都是叠加在它们下面一组的数据上面,假设最底层为(2,1),它的上一层为(2,2),则在图中,它的上一层坐标为(2,2+1)。另外也可以用于分析整体随时间的变化趋势以及整体的各构成项随时间的变化趋势;

4、气泡图

气泡图,可以展示三维数据的可视化,x轴为第一维、y轴为第二维、气泡的面积大小为第三维,气泡的颜色用来区分不同类别。而散点图一般用作二维数据的可视化,点的大小都一样。

5、单词云

单词云图,是通过单词的字号大小来反映词频的大小,字号越大,词频越高。主要用于网络文本中词频数据的可视化,例如关键词搜索、文章高频词、热点事件关键词等。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案、背景形状等设计层面的个性化。

通过单词云图,用户可以快速找出网站搜索的高频词汇、了解文章的主旨、得到热点事件的关键信息。但是单次云图只适合表示一组文本数据内的对比,不适合多个类别的文本数据之间的比较。

6、雷达图/星状图

雷达图/星状图是用来对比一个主体、或多个主体本身,在不同维度上的特征,两者区别如下:

  • 雷达图是展示一个主体在不同维度上的数据特征,对比的是,同一个主体,在不同维度上的偏向。主要应用于企业经营状况评价;
  • 星状图是展示多个主体在不同维度上的数据特征,对比的是,不同主体之间的差异和侧重点。

雷达图可以看作是星状图中的一行记录,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分。比如个人综合素质度量。

二、分布型数据可视化

分布型数据的可视化主要是对数据的描述性特征,比如离散程度、集中趋势、偏态、峰度等进行展示,通过这些反映数据分布特征的关键指标。数据的描述性统计指标大概如图所示:

相应的,分布型数据常用的可视化图表有以下几种:

1、直方图

直方图是展示离散型分组数据的分布情况,分为【频数直方图】和【频率直方图】,两者的区别在于,【频数直方图】的y轴显示的是数量,【频率直方图】的y轴显示的是占比情况,即频率。绘制直方图分三个步骤:

  • 首先,对数据进行分组,并统计每一组数据的频次或者频率;
  • 其次,在平面直角坐标系中,X轴标出每个组数据的下限和上限;
  • 最后,y轴表示频数或频率,每个矩形的高代表对应的频数或频率。

2、茎叶图

茎叶图一般适合数据为整数的数据的可视化,原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。假设有如下一组数据:

3,7,9,14,15,16,25,26,29,36,41,43,45

则:

树茎 树叶(频数)
0 3
1 3
2 3
3 1
4 3

3、箱线图

箱线图是一种用作显示一组数据分散情况资料的统计图,常用来对比多组数据的分布情况,检测数据中的异常值或离群点,绘制方法如下:

  • 先找出一组数据中的四分位数以及最大值、最小值;
  • 连接上四分位数Q3和下四分位数Q1画出一个箱子,箱子中间用中位数画一条线;
  • 在箱子的上下部又各有一条线,代表着最大最小值;

另外,箱子的宽度即四分位距(Q3-Q1)在一定程度上反映了数据的离散程度。

4、概率密度图

概率密度图是用来描述连续型随机变量其分布规律。连续型随机变量取值某个确定数值的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的面积。通过图形化的方式,我们可以清楚的看到随机变量分布的情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量:

(1)对于标准正态分布来说,偏态系数SK=0,当SK<0,图形左偏分布;当SK>0,图形右偏分布;

(2)标准正态分布中,峰度系数为β=3,当β<3,图形呈现扁平分布;当β>3,图形呈现尖峰分布。

5、散点图/气泡图

气泡图的用法同上述(一、4)。

散点图,一般是用于研究两个变量之间的相关关系,可以是一个类别数据,也可以是多类别数据,但是都是二维的数组(x,y),不同类别的数据可用颜色来区分。

6、热力图

热力图,是以特殊高亮的形式显示访客热衷的页面区域或访客所在的地理区域的图示,目前主要应用在以下几个方面:

(1)网站热力图。网站热力图就是基于网页访问者所有点击和鼠标移动的数据而创建的热力图,对于受关注度不同的区域分别进行着色,红色是“最热门”(用户关注度最高)的区域,而蓝色则是“最冷门”(用户关注度最低)的区域。这种可视化格式可以帮助人们了解网页的哪一部分最吸引人。

(2)热力地图。热力地图就是利用获取的手机基站定位该区域的用户数量,通过用户数量渲染地图颜色。主要显示一个城市的某个区域人员或车辆拥挤程度,颜色越深表示人员越多,颜色浅代表人比较少,地图就是方便人们的出行,有了热力图可以很直观的看到区域内的人群流量。

(3)业务数据分析。一些基于地理位置或者基于时间分布的数据,可以利用热力图来进行可视化分析。

7、地图

当数据是基于地理位置进行分组或者数据的重要属性中有地理信息时,可以用地图来展示数据在各个地理区域的分布情况。比如显示全国各地区的人均收入、各地区的人员数量都可以用地图可视化。

三、总结

通过上面的学习,可知无论是要对比数据,还是探索数据的分布情况,都需要根据数据的类型、数据的特征来确定可视化的最佳方式。图表的选择方式大致如下:

四、可视化实践

1、对比型数据

场景1:比较三家电商公司在消费者心中的印象评分

电商平台 商品丰富度 商品质量 物流效率 售后服务
淘宝 4.9 4.3 4.3 4.9
京东 4.2 4.7 4.9 4.6
拼多多 4.7 4 4 4.5

问题1:以上数据适合用什么图形展示,请用可视化工具进行实现。

回答:观察上述数据发现,需要对比三个电商平台在四个方面的评分,这里可以用柱形图,x轴为评分的四个方面,y轴为评分,柱形的高低代表评分的高低。如图:

2、分布型数据

场景2:某公司50家店铺的月度收入、成本和综合评分

店铺名称 月度收入(W) 月度成本(W) 月度综合评分(百分制)
店铺1 20.63 52.63 72
店铺2 100 65 92
店铺3 79 52 93.5
店铺4 40 39 90
店铺5 23 26 78
店铺6 36 13 94.2
店铺7 49 32 93.5
店铺8 62 44 94
店铺9 75 56 94.1
店铺10 88 68 94.2
店铺11 101 80 94.3
店铺12 114 92 94.4
店铺13 127 104 94.5
店铺14 140 116 94.6
店铺15 153 128 94.7
店铺16 83 56 94.8
店铺17 13 15 79
店铺18 20.9 30.9 76.6
店铺19 28.8 38.8 76.5
店铺20 36.7 46.7 76.4
店铺21 44.6 54.6 76.3
店铺22 52.5 62.5 76.2
店铺23 60.4 70.4 76.1
店铺24 89.4 99.4 76
店铺25 65.6 75.6 75.9
店铺26 41.8 34 91.8
店铺27 18 15 91.2
店铺28 21.86 18 90.9
店铺29 25.72 19 93.5
店铺30 29.58 28 90.8
店铺31 33.44 37 78.9
店铺32 37.3 46 80.4
店铺33 41.16 55 76.9
店铺34 45.02 64 75.6
店铺35 48.88 44 92.7
店铺36 52.74 24 96.5
店铺37 56.6 43.6 93.2
店铺38 60.46 47.46 93.3
店铺39 64.32 51.32 93.4
店铺40 68.18 55.18 93.5
店铺41 72.04 59.04 93.6
店铺42 75.9 62.9 93.7
店铺43 79.76 66.76 93.8
店铺44 56.76 43.76 93.9
店铺45 33.76 23 92.8
店铺46 10.76 16 74
店铺47 18.66 13 92.7
店铺48 26.56 15 92.8
店铺49 34.46 28 92.9
店铺50 42.36 46 75

问题2:用户想了解这50家店铺的收入、成本和店铺综合评分的分布,请问用什么图形展示,请用可视化工具进行实现。

回答:这里用描述性统计来描述数据分布,收入、成本和店铺综合评分分别用箱线图展示。

数据可视化(三):如何选择图表(【对比型数据】和【分布型数据】)——学习笔记相关推荐

  1. 【Python数据可视化(三)】定制图表

    柱状图.线性图和堆积柱状图 import matplotlib.pyplot as plt plt.figure(1) x = [1, 2, 3, 4] y = [5, 4, 3, 2] # 线性图 ...

  2. 数据可视化设计师必备的图表规范指南

    一.你在工作中是否会为了如何选用可视化图表而苦恼? 在企业大数据.后台管理面板.金融行业等与数据有关的UI设计中,数据可视化设计是必不可少而且非常重要. 但是很多设计师不懂可视化当中不同用途的图表规范 ...

  3. 数据可视化之动态柱状图图表

    数据可视化之动态柱状图图表 这几天在B站看到了一个宝藏UP主Jannchie见齐,在网上找到了框架源码并学习.以下是可视化过程. 框架鸣谢B站UP主:Jannchie见齐 框架GItHub:https ...

  4. python将电视剧按收视率进行排序_Python爬虫实现数据可视化,卫视实时收视率对比,就是如此强大!...

    前言: 几经思考,终于下定给大家分享一下数据可视化方面的知识,希望在这里与大家分享一些关于数据分析&数据挖掘有意思的事情,如果对于内容有任何的意见或建议,都希望大家在评论中不吝赐教. 言归正传 ...

  5. Vue 之 echarts 图表数据可视化常用的一些图表/动态图表/3D图表的简单整理

    Vue 之 echarts 图表数据可视化常用的一些图表/动态图表/3D图表的简单整理 目录 Vue 之 echarts 图表数据可视化常用的一些图表/动态图表/3D图表的简单整理 一.简单介绍 二. ...

  6. python 3d大数据可视化_Python大数据可视化编程实践-绘制图表

    Python 数据可视化编程实践 - 绘制图表 准备工作 打开 Jupyter Notebook ,导入需要的包, 并配置好图片交互和中文显示环 境: import pandas as pd impo ...

  7. 数据可视化设计经验分享:10分钟做出炫酷数据大屏

    又快到年终了,数据大屏作为一个数据管理的分析工具,在年底数据大屏的制作需求日益增加.在一些公司比如银行.证券.医院.外贸等"数据大户",在数据大屏的应用上更是有大量需求. 在接下来 ...

  8. 数据可视化 数据可视化看板项目一:(1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (1)

    需求: 市场人员进行数据可视化产品销售公关时,一定会遇到一个问题,就是客户要求进行展示. 但是我们不可能透露其它客户目前的真实实时更新的数据. 那么这里就要求,创建模拟的秒级别的数据. 方法: 1.使 ...

  9. 【统计技术】运营商数据:三大运营商2012年1月手机用户数据

    [统计技术]运营商数据:三大运营商2012年1月手机用户数据 by huawei [导读]数据来源于3大运营商官方网站,最新发布的数据显示: 1)截至2012年1月底,中国累计手机用户9.88亿户,其 ...

  10. 三种256MB SPIFLASH的高性能模式和软复位学习笔记

    三种256MB SPIFLASH的高性能模式和软复位学习笔记 WINBONE CONTINUE READ MODE The Fast Read Dual I/O The Fast Read Quad ...

最新文章

  1. 研究性能测试工具之systemtap入门指南(四)
  2. 性能测试Loadrunner与Mysql
  3. openshift安装部署_OpenShift 4 HOL (1) - 多种方法部署容器化应用
  4. 在原生js中的事件监听方法
  5. matlab 鼠标自定义选中图像的任意区域
  6. 微软开放技术发布开源 Jenkins 插件以将 Windows Azure Blob 服务用的开作存储库
  7. 软件测试入门基础自卸
  8. android 外卖源码,外卖人8.7源码外卖人订餐系统仿美团饿了么外卖安卓APP
  9. 虚拟同步发电机技术(VSG)综述解读和研发思考
  10. 怎么把几段音频文件合并成一个
  11. hosts该文件已设置为只读的解决方法
  12. scala中的Unit
  13. Web前端人员如何提升能力 提高效率有哪些方法
  14. 【论文阅读】Unifying Knowledge Graph Learning and Recommendation
  15. 化工集团公司安全风险智能化管控平台
  16. Qt之文件保存的技巧
  17. 牛客《今日头条》笔试题
  18. 讯飞离线语音命令词识别
  19. C和指针 第5章 操作符和表达式 5.1 操作符
  20. 高考后能学习——阿里云-winserver服务器购买以及使用(包含【.Net】、【PHP】、【MySQL】、【Navicat】、【Java】、安装)

热门文章

  1. 【win10】电脑剪贴板失效,解决办法。
  2. Linux安装与常用命令
  3. python从键盘输入一个数、判断其是奇数还是偶数_从键盘上输入一个整数,判断该数是奇数还是偶数并输出结果...
  4. 月均千万GMV,“口水娃”在快手找到了品牌“第二增长曲线”
  5. Cocos2d-x 截图功能
  6. Android客户端连接SSM(Spring+SpringMVC+Mybatis)框架Java服务器端
  7. sades 赛德斯机械键盘灯光控制
  8. Java大文件上传(Android亦可)
  9. cf自动退出服务器,《穿越火线》穿越火线自动退出攻略
  10. 网络 - TCP大全