数据分析学习笔记系列——数据可视化

总第45篇

写在前面:

本篇来源于书籍《数据之美—一本书学会可视化设计》的学习后整理所得。全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步:“应该使用哪种可视化形式”。本篇旨在带你全面认识了解可视化,所以一些具体的工具的使用并未涉及,只是罗列类一些常用的可视化工具。

你有什么数据

关于可视化,人们一般的理解是先设想要达到的可视化效果,然后在去寻找相应的数据。

这样经常会造成:“现有的数据不能够做出事先设想的可视化效果,或者是想要制作理想的图表需要获取更多的数据。”

而实际上关于可视化的步骤应该是先认清你有什么数据。

为了更好的进行可视化,我们将数据分为分类数据、时序数据、空间数据、多元变量数据四大类。

1、分类数据

分类数据是指针反映事物类别的数据。如:用户的设备可以分为Iphone用户和andorid用户两种;支付方式可以分为支付宝、微信、现金支付三种等。诸如此类的分类所得到的数据被称为分类数据。

2、时序数据

时序数据也称时间序列数据,是指同一统一指标按时间顺序记录的数据列。如:每个月的新增用户数量、某公司近十年每年的GMV等。诸如此类按时间顺序来记录的指标对应的数据成为时序数据。

3、空间数据

空间数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。

4、多变量

数据通常以表哥形式的出现,表格中有多个列,每一列代表一个变量,将这份数据就称为多变量数据,多变量常用来研究变量之间的相关性。即用来找出影响某一指标的因素有哪些。

关于数据你想了解什么

关于数据你想了解什么也就是针对数据进行提问。

你想从中得到什么结论(平台上的用户中哪个地区的用户较多、数据分析领域最具有权威的人物是谁、2016年的GMV环比去年是增加类还是降低类)。

了解什么到什么现象(学生成绩好坏可能与家庭背景是否具有一定的相关性、应届生收入和毕业院校是否有一定的相关性)。

应该使用哪种可视化形式

在前面我们已经说过,在做可视化的过程中,我们需要先明确我们有什么数据,然后再去研究这些数据适合做什么类型的可视化,再然后从这些适合的可视化类型中选择能够很好的满足我们需求的(即能够更好的帮助我们了解我们想要的)视图。

为了找到合适的可视化形式我们需要先介绍两个内容:有哪些可视化形式、如何让可视化更加清晰。

1、有哪些可视化形式

基于数据的可视化形式有:视觉暗示、坐标系、标尺、背景信息以及前面四种形式的任意组合。

(1)视觉暗示:

是指通过查看图表就可以与潜意识中的意识进行联系从而得出图表表达的意识。常用的视觉暗示主要有:位置(位置高低)、长度(长短)、角度(大小)、方向(方向上升还是下降)、形状(不同形状代表不同分类)、面积(面积大小)、体积(体积大小)、饱和度(色调的强度,就是颜色的深浅)、色调(不同颜色)。

(2)坐标系:

这里的坐标系和我们之前数学中学到的坐标系是相同的,只不过坐标轴的意义可能稍有不同。常见的坐标系种类有:直角坐标系、极坐标系和地理坐标系。

大家对直角坐标系、极坐标系比较熟悉,这里说一下地理坐标系。

地理坐标系是使用三维球面来定义地球表面位置,以实现通过经纬度对地球表面点位引用的坐标系。但是我们在进行数据可视化的时候一般用投影的方法把其从三维数据转化成二维的平面图形。

(3)标尺:

前面说到的三种坐标系只是定义了展示数据的维度和方向,而标尺的作用是用来衡量不同方向和维度上的大小,其实和我们熟悉的刻度挺像。

(4)背景信息:

此处的背景和我们在语文中学习到的背景是一个概念,是为了说明数据的相关信息(who、what、when、where、why),使数据更加清晰,便于读者更好的理解。

(5)组合组件:

组合组件就是根据目标用途将上面四种信息进行组合。

2、如何让可视化更加清晰

如何让可视化更加清晰:

(1)建立视觉层次:

把图表在视觉上进行分层,把非重点信息弱化,重点信息强化突出。

(2)增强图标可读性:

● 让数据点更容易比较

● 留白,图表之间留有一定空间的空白。

(3)高亮显示重点内容:

高亮就是以特殊形式显示的内容,便于读者在一堆数据中很快抓住重点。

(4)注释可视化:

一般指图标的标题部分。帮助读者更好地理解图表的意思。

能够进行可视化的工具有哪些

1、Microsoft Excel

对于这个软件大家应该并不陌生,对于一般的可视化这个软件完全足矣,但是对于一些数据量较大的数据则不太适合。

2、Google Spreadsheets

Google Spreadsheets是基于Web的应用程序,它允许使用者创建、更新和修改表格并在线实时分享数据。基于Ajax的程序和微软的Excel和CSV(逗号分隔值)文件是兼容的。表格也可以以超文本链接标记语言(HTML)的格式保存。

3、Tableau Software

Tableau Software现在比较受大家的欢迎,既可以超越Excel做一些稍微复杂的数据分析,又不用像R、Python那种编程语言进行可视化那么复杂。好多人都有推荐这款软件。

4、一些需要编程性语言的工具

R语言、JavaScript、HTML、SVG、CSS、Processing、Python。这里主要是列举一下有哪些编程语言可以实现可视化,具体如何实现需要读者自行学习。我目前主要是在学python的可视化,稍后会分享一篇用python进行可视化的学习笔记。

透过可视化你看到了什么、有什么意义

把数据可视化以后,你需要从中发现一些数据之间的相关性以及通过数据暴露出来的问题。比如你会发现某天的新注册用户显著高于或低于其他天的数量,你发现这个问题了,你就需要去调查该问题出现的原因,然后解决他。

或者是你发现某两个指标具有很强的线性相关关系,那么你就需要去通过其他方面去验证这个情况是真实存在的还只是偶然情况。

懂点运营、擅长数据分析
初入互联网的90后
与你分享我的所见所学所想

ID:zhangjunhong0428

长按左侧二维码关注

数据分析学习笔记——数据可视化相关推荐

  1. Python数据分析学习笔记:使用SciKit-Learn进行数据规范化

    Python数据分析学习笔记:使用SciKit-Learn进行数据规范化 数据规范化是数据挖掘的一项基础工作.不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果 ...

  2. Python数据分析学习笔记:计算向量夹角

    Python数据分析学习笔记:计算向量夹角 通过计算两个向量夹角了解两个向量之间的相关性. # 计算向量夹角import numpy as npdef included_angle(a, b):a_n ...

  3. Python数据分析学习笔记:计算相关系数

    Python数据分析学习笔记:计算相关系数 1.相关系数概念 相关系数,或称线性相关系数.皮氏积矩相关系数(Pearson product-moment correlation coefficient ...

  4. Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  5. python客户画像_Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  6. 数据分析学习笔记-数据分析预备知识

    数据分析学习笔记 数据分析预备知识

  7. 数据分析学习笔记(二)数据分析三思维七技巧

    数据分析学习笔记(二) What 三种核心思维 结构化 公式化 业务化 Why 数据分析的思维技巧 象限法 多维法 假设法 指数法 二八法 对比法 漏斗法 总结 How 如何在业余时间锻炼分析能力 好 ...

  8. 大数据分析学习笔记(Z检验,分类器以及Association Rule)

    大数据分析学习笔记(Z检验,分类器以及Association Rule) Task 1 – Hypothesis Testing To improve student learning perform ...

  9. 数据分析学习笔记(四)Excel

    数据分析学习笔记(四)Excel 为什么要学习Excel Excel的学习路径1 Excel的必知必会 Excel的常见函数 什么是函数 常见函数 文本清洗函数 关联匹配函数 逻辑运算函数 计算统计函 ...

最新文章

  1. ContentObserver类的使用
  2. Django REST framework API 指南(25):状态码
  3. 恭喜神策数据客户趣店赴美 IPO 上市!
  4. python多线程之线程锁(Lock)和递归锁(RLock)实例
  5. (篇一)作为一个程序猿,这些C语言实例你必须会!
  6. Java JavaFX 批量修改文件夹里面的文件的名字
  7. 两边双虚线是什么意思_锯齿车道、倒三角标志什么意思?以下5种交通标线你认识几个?...
  8. c语言万能编程模板_C语言实现模板
  9. 【笔记】【机器学习基础】非负矩阵分解
  10. 计算机就业去哪个岗位好? 算法岗位还是开发岗位更好?
  11. 写给新入职的毕业生们(一)
  12. Windows服务器更改远程端口3389
  13. 五种常见的电子商务模式:B2B、B2C、C2B、C2C、O2O
  14. 12月行业政策丨紧握十四五规划,实现科技创新
  15. 推荐一个好用的桌面日历和倒数日纪念日管理工具
  16. python基础教程书在线阅读_python基础教程第四版
  17. 透过日播放量超过6亿的《延禧攻略》,看2018视频网站格局
  18. linux系统压力测试工具,Linux压力测试工具stress如何使用
  19. 8月1日“海豹数藏”将全网首发民族英雄林则徐《四行行书》数字藏品!
  20. 11.16模拟赛总结

热门文章

  1. linux is not unix由来,一些奇怪的 unix 指令名字的由来
  2. java 20_java20 - 芥末小弟 - OSCHINA - 中文开源技术交流社区
  3. 『TensorFlow』SSD源码学习_其二:基于VGG的SSD网络前向架构
  4. cocos2dx3.0五种屏幕适配模式,及FIXED_WIDTH、FIXED_HEIGHT使用
  5. 《电脑音乐制作实战指南:伴奏、录歌、MTV全攻略》——1.6 将吉他谱伴奏,转换成MIDI音乐伴奏...
  6. 给你的shell终端添上一道靓丽的风景
  7. 一个设计错误导致的很那发现的错误
  8. 几何与代数(1)知识框架(出题根据)
  9. codeforces 842 D. Vitya and Strange Lesson(01字典树+思维+贪心)
  10. dwz框架中动态添加查找带回组件