作者 | 向倩文
来源 | 数据产品手记

大多数人对数据可视化的第一印象,可能就是各种图形,比如Excel图表模块中的柱状图、条形图、折线图、饼图、散点图等等,就不一一列举了。以上所述,只是数据可视化的具体体现,但是数据可视化却不止于此。

数据可视化不是简单的视觉映射,而是一个以数据流向为主线的一个完整流程,主要包括数据采集、数据处理和变换、可视化映射、用户交互和用户感知。一个完整的可视化过程,可以看成数据流经过一系列处理模块并得到转化的过程,用户通过可视化交互从可视化映射后的结果中获取知识和灵感。

图1 可视化的基本流程图

可视化主流程的各模块之间,并不仅仅是单纯的线性连接,而是任意两个模块之间都存在联系。例如,数据采集、数据处理和变换、可视化编码和人机交互方式的不同,都会产生新的可视化结果,用户通过对新的可视化结果的感知,从而又会有新的知识和灵感的产生。

下面,对数据可视化主流程中的几个关键步骤进行说明。

01

数据采集

数据采集是数据分析和可视化的第一步,俗话说“巧妇难为无米之炊”,数据采集的方法和质量,很大程度上就决定了数据可视化的最终效果。

数据采集的分类方法有很多,从数据的来源来看,可以分为内部数据采集和外部数据采集。

1.内部数据采集:

指的是采集企业内部经营活动的数据,通常数据来源于业务数据库,如订单的交易情况。如果要分析用户的行为数据、APP的使用情况,还需要一部分行为日志数据,这个时候就需要用「埋点」这种方法来进行APP或Web的数据采集。

2.外部数据采集:

指的数通过一些方法获取企业外部的一些数据,具体目的包括,获取竞品的数据、获取官方机构官网公布的一些行业数据等。获取外部数据,通常采用的数据采集方法为「网络爬虫」。

以上的两类数据采集方法得来的数据,都是二手数据。通过调查和实验采集数据,属于一手数据,在市场调研和科学研究实验中比较常用,不在此次探讨范围之内。

02

数据处理和变换

数据处理和数据变换,是进行数据可视化的前提条件,包括数据预处理和数据挖掘两个过程。

一方面,通过前期的数据采集得到的数据,不可避免的含有噪声和误差,数据质量较低;另一方面,数据的特征、模式往往隐藏在海量的数据中,需要进一步的数据挖掘才能提取出来。

常见的数据质量问题包括:

1.数据收集错误,遗漏了数据对象,或者包含了本不应包含的其他数据对象。

2.数据中的离群点,即不同于数据集中其他大部分数据对象特征的数据对象。

3.存在遗漏值,数据对象的一个或多个属性值缺失,导致数据收集不全。

4.数据不一致,收集到的数据明显不合常理,或者多个属性值之间互相矛盾。例如,体重是负数,或者所填的邮政编码和城市之间并没有对应关系。

5.重复值的存在,数据集中包含完全重复或几乎重复的数据。

正是因为有以上问题的存在,直接拿采集的数据进行分析or可视化,得出的结论往往会误导用户做出错误的决策。因此,对采集到的原始数据进行数据清洗和规范化,是数据可视化流程中不可缺少的一环。

数据可视化的显示空间通常是二维的,比如电脑屏幕、大屏显示器等,3D图形绘制技术解决了在二维平面显示三维物体的问题。

但是在大数据时代,我们所采集到的数据通常具有4V特性:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。如何从高维、海量、多样化的数据中,挖掘有价值的信息来支持决策,除了需要对数据进行清洗、去除噪声之外,还需要依据业务目的对数据进行二次处理。

常用的数据处理方法包括:降维、数据聚类和切分、抽样等统计学和机器学习中的方法。

03

可视化映射

对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。

可视化元素由3部分组成:可视化空间+标记+视觉通道

1.可视化空间

数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。

图2 可视化空间示例

2.标记

标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。

根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。

图3 标记类型示例

3.视觉通道

数据属性的值到标记的视觉呈现参数的映射,叫做视觉通道,通常用于展示数据属性的定量信息。

常用的视觉通道包括:标记的位置、大小(长度、面积、体积…)、形状(三角形、圆、立方体…)、方向、颜色(色调、饱和度、亮度、透明度…)等。

图3中的四个图形示例,就很好的利用了位置、大小、颜色等视觉通道来进行数据信息的可视化呈现。

「标记」、「视觉通道」是可视化编码元素的两个方面,两者的结合,可以完整的将数据信息进行可视化表达,从而完成可视化映射这一过程。

关于可视化编码元素的优先级,以及如何根据数据的特征选择合适的可视化表达,下次会专题来分享下。

04

人机交互

可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策。

但是通常,我们面对的数据是复杂的,数据所蕴含的信息是丰富的。

如果在可视化图形中,将所有的信息不经过组织和筛选,全部机械的摆放出来,不仅会让整个页面显得特别臃肿和混乱,缺乏美感;而且模糊了重点,分散用户的注意力,降低用户单位时间获取信息的能力。

常见的交互方式包括:

1.滚动和缩放:当数据在当前分辨率的设备上无法完整展示时,滚动和缩放是一种非常有效的交互方式,比如地图、折线图的信息细节等。但是,滚动与缩放的具体效果,除了与页面布局有关系外,还与具体的显示设备有关。

2.颜色映射的控制:一些可视化的开源工具,会提供调色板,如D3。用户可以根据自己的喜好,去进行可视化图形颜色的配置。这个在自助分析等平台型工具中,会相对多一点,但是对一些自研的可视化产品中,一般有专业的设计师来负责这项工作,从而使可视化的视觉传达具有美感。

3.数据映射方式的控制:这个是指用户对数据可视化映射元素的选择,一般一个数据集,是具有多组特征的,提供灵活的数据映射方式给用户,可以方便用户按照自己感兴趣的维度去探索数据背后的信息。这个在常用的可视化分析工具中都有提供,如tableau、PowerBI等。

4.数据细节层次控制:比如隐藏数据细节,hover或点击才出现。

05

用户感知

可视化的结果,只有被用户感知之后,才可以转化为知识和灵感。

用户在感知过程,除了被动接受可视化的图形之外,还通过与可视化各模块之间的交互,主动获取信息。

如何让用户更好的感知可视化的结果,将结果转化为有价值的信息用来指导决策,这个里面涉及到的影响因素太多了,心理学、统计学、人机交互等多个学科的知识。

学习之路漫漫,一直在路上, 我们会持续分享数据可视化领域的知识,记得持续follow我们哟!

数据可视化的基本流程相关推荐

  1. 浅谈Web大数据可视化平台开发流程

    随着大数据时代的到来和数据分析技术的进步,物联网.云计算.手机.电脑以及各种传感器,无一不是数据来源或者承载的方式.微信.qq等社交平台的普及,让人们的情绪和喜好预测变成可能.在众多复杂的数据背后找到 ...

  2. 数据可视化的基本流程总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|深度学习这件小事 我们要的不是数据,而是数据告诉我们的事 ...

  3. python数据可视化实验报告的总结,数据可视化的基本流程总结

    我们要的不是数据,而是数据告诉我们的事实.大多数人面临这样一个挑战:我们认识到数据可视化的必要性,但缺乏数据可视化方面的专业技能.部分原因可以归结于,数据可视化只是数据分析过程中的一个环节,数据分析师 ...

  4. 数据可视化如何实现?4大基本流程了解一下

    ​随着大数据时代的到来及数据分析技术的进步,各行各业对数据分析的关注度也越来越高,同时很多企业意识到通过数据分析而获得的知识和信息对企业的日常经营活动具有积极的促进作用.但如何才能把数据的价值发挥到最 ...

  5. python折线图样式_011 利用Python进行数据可视化

    本文梳理了数据可数化的基本套路及对应函数的使用方法. 1- 数据可视化是什么 借助图形来清晰有效表达信息的方式称为可视化 2 - 数据可视化的基本流程 2.1 整理数据 2.2 明确目的 2.3 寻找 ...

  6. 关于数据可视化入门,看这一篇够了

    本篇要点: 01.数据可视化是什么 02.数据可视化的一般流程 03.常见的数据种类 04.通过可视化你想表达什么信息 05.选择具体的可视化形式 06.图表设计原则 07.常用的可视化工具 01|数 ...

  7. 丽水数据可视化设计价格_B端产品设计数据可视化图表选择篇

    本文一共6040文字,阅读大概需要15分钟 近期在做直播后台内容数字化渠道升级 ,其中有个工作是需要把大量的数据表格转换成为可视化图表,接到需求一脸懵的我,冒出几个问题 1.什么是数据可视化? 2.数 ...

  8. 不会python怎么了?靠敏捷BI和数据可视化,照样去阿里腾讯

    某段求职经历让我切切实实的感受到了大环境的不友好,可以说是相当不友好:当过大公司的数据Team Leader,工作中受到过大老板的高度赞扬,自认为经历背景都不错,于是从舒适圈辞职. 休息了一段时间后开 ...

  9. 大数据可视化该如何实现

    数据可视化,是指将大量的数据资料集中在一起,以图像的形式表现出来,并运用数据分析技术及专业工具来发现隐藏在其中的规律.简而言之,即把抽象.难懂的数据通过数据可视化的方式以大家更易理解的图形形式展示出来 ...

  10. 如何学习数据可视化技术

    数据可视化就是一个将数据分析结果转化为图形或者表格的过程,随着大数据技术的关注度不断提高,精通数据可视化的人在职场上也可以占据有利的地位,那么如果想要学习数据可视化要从哪里入手. 第一.找到一个教材 ...

最新文章

  1. 两个有序链表排序C语言,K个有序链表的归并排序(C语言)
  2. Express应用配置以及统一安装所需依赖和快速创建应用骨架
  3. Task和async/await详解
  4. Python处理word文件
  5. MySQL 基础 ———— 流程控制结构
  6. c语言linux下可用函数,[原创]linux下编码转换问题,C语言实现,使用iconv函数族68...
  7. 速来!视觉算法大奖赛,奖品丰厚、项目接地气!
  8. hdu 4681(枚举+dp)
  9. 读写分离设计:复制延迟?其实是你用错了
  10. Linux操作系统安装过程
  11. VSCode配置cpp环境
  12. 5分钟快速学会使用Swiper.js,实现轮播图各种效果!
  13. snappy格式解析
  14. 基于android的校园社区平台
  15. 在线绘制图表工具的使用
  16. MSSQL 数据库邮件配置
  17. 孙陶然:企业的方方面面皆可创新皆需要创新
  18. C++14尝鲜:decltype 和 decltype(auto)
  19. python pyqt5图片(QPixmap)和opencv图片数据结构相互转换
  20. vue根据后端菜单数据生成动态路由

热门文章

  1. 快速压缩Word文档的小妙招
  2. Word文档如何压缩
  3. CSS3实现折角效果
  4. (QACNN)自然语言处理:智能问答 IBM 保险QA QACNN 实现笔记
  5. 高中计算机必修选修知识点总结,103页整个高中数学全部知识点总结大全(必修及选修word最全版)...
  6. 拳王公社:最新虚拟资源项目赚钱成交系统,1.2W字干货大揭秘!
  7. JSON对象与JSON模式
  8. html在js中为添加监听,使用addeventlistener为js动态创建的元素添加事件监听
  9. 基于keras实现双向GRU的中文情感分析
  10. 卡片层叠Banner