数据之美:可视化会给你意想不到的答案!
图源:unsplash
来源:读芯术
作为数据科学家或分析师、人工智能或机器学习工程师,我们大部分的工作都是向同事或主管解释事物,报告个人的工作和发现,数据可视化已经成为我们生活中必不可少的一部分。
而对于不了解或不感兴趣的人来说,原始数据就是长串随机数字、图像或音频文件。我们的工作是让这些人理解数据,并引导他们从这些数据中作出有用的推论。
罗伯特·科萨拉说:“数据可视化是挖掘和利用数据的关键。即便是最简单的可视化,也能够消除数据提供者对自己的数据被低估、误解或歪曲的忧虑。数据可视化能够改变人们对数据的理解方式,提高大众对数据的兴趣,并推动更多更好的数据开发。”
我们用数据描述历史和未来,但如果没有可视化,在外行眼里就和预言家或古老先知无甚区别。本文将带你了解数据可视化的重要性,分享一些专业的可视化技巧,以及一些创建精美可视化的工具、库和软件。
数据可视化的定义及其重要性
数据可视化是将数据视觉化或图像化的过程。这个过程很重要,它可以通过图像表达不同数据之间的关联。人脑善于理解信息图表,而电子表格、CSV文件或数据库中上百行的原始数据则往往令人焦头烂额。
数据可视化可以让趋势和模式显而易见,这在数据科学的探索性数据分析阶段尤为重要。数据可视化不仅对数据科学家、分析师和人工智能/机器学习(AI/ML)工程师很重要,在技术领域内外所有和数据打交道的人都应该学习这一技能。
数据可视化的应用
图源:unsplash
正如约翰·图基所说:图像最大的价值在于迫使我们关注到意想不到的东西。
数据可视化可以应用于几乎所有领域,每当需要洞察或推断数据时,就离不开数据可视化。但是,数据可视化并不仅仅是为了美观。以图像形式展示数据有如下几个原因:
· 寻找关联:在没有数据可视化的情况下,尝试确定两个或多个事物之间的相关性是非常困难的。在数据分析中寻找关联是非常关键的,因此,若想对数据做出最深刻的理解,数据可视化是至关重要的。
· 观察变化:通过数据可视化,可以使用时间序列图观察既定时间内的趋势或模式变化。这有助于回顾历史数据,对未来可能发生的事件做出关键的预测或假设,这可以帮助组织或个人调整产品或服务。
· 识别频率:频率识别是视觉图表最基本的作用之一。它有助于我们确定自己的办事频率,以便知道要在哪里投入更多的努力、时间和精力,而在哪里可以放松。企业也可以使用频率图表来核对并洞悉特定时间的销量,调整营销流程,以满足消费者的需求。
可视化图表类型
既然知道了什么是可视化,那么就必须了解各种可视化图表的类型,以便讲述数据背后的故事。可视化图表有成百上千种,有些我们很可能永远不会碰到。我将分享几种我所了解的热门图表,排名不以重要性和兴趣为先后。
· 折线图:又称线条图、线状图或曲线图,是一种将一系列数据点(即“标记”)用直线段连接来呈现信息的图表。它是许多领域中常见的一种基本图表类型。它与散点图类似,但是它的测量点是有序的(通常按x轴排序),并用直线段连接。折线图通常用于将数据在一段时间(时间序列)内的趋势可视化,因此,线条通常是按时间顺序画的。在这种情况下,它们被称为趋势图。
· 条形图:亦称条状图,是一种用矩形条表示分类数据的图表,矩形条的高度或长度与其所代表的数值成正比。条形图可以横置或纵置,纵置时也称为柱形图。条形图可比较不同类别的离散数值。一个轴表示比较的类别,另一个轴显示数值。一些条形图有多组聚合的矩形条,可显示多个变量的值。
· 直方图:直方图可以大致显示数量分布的情况。它形似条形图,但衡量的是频数而非走势。
· 散点图:散点图是一种图表或数学图形,通常使用笛卡尔坐标系(Cartesian coordinate,又称直角坐标系)来显示两个变量下的两组数据。如果为数据点编码(设置颜色/形状/大小),则可以添加其他变量。数据显示为一组点,每个点都有两个变量,分别确定其在水平轴和垂直轴上的位置。
· 饼图/圆环图:饼图是一种圆形的统计图,它被分成多个区块来说明数字比例。在饼图中,每个区块的弧长(以及相应的中心角和面积)与其所代表的数值成正比。虽然饼图因形似一个被切成块的饼而得名,但它有多种呈现方式,比如圆环图就是一个空心的饼图,不仅能清楚地显示区块或比例,还美化了传统的饼图样式。
· 热力图:热力图是一种数据可视化技术,这种二维图像用颜色显示某现象的量级。颜色可能有色调或深浅的不同,使读者对某现象的聚集情况,或其在空间上的变化情况一目了然。
图源:unsplash
· 地图:利用包含位置信息的数据,可以绘制精美的可视化世界地图。这类地图用颜色编码,以较暗的阴影显示强度更高的区域,反之亦然。它非常适用于可视化病毒的传播情况,广泛应用于新冠病毒影响区域的可视化。
数据可视化的注意事项
“通过可视化,我们把信息变成了一个可以用眼睛探索的景观,一种信息地图。当你迷失在信息里时,信息地图能有所帮助。”——大卫·麦坎德利斯
有效的数据可视化是数据分析的最后关键一步,否则你可能会丢失重要的理解和信息。有很多事是寻求专业可视化的人必须知道的:
· 选择最合适的可视化类型:在可用于数据可视化的多种图表中,你需要选择出最能代表数据的图表。如果想从数据中获得有用的见解,这一点非常重要。这就意味着你必须善于挑选颜色,色彩编码的可视化对于轻易地识别强度、模式和群集有很大帮助。
· 运用对比:这也许是最简单的数据可视化方法,但其用处却不可小觑。在展示自己的信息和见解时,你应该尽可能多地进行具体的比较。同时展示两幅图表,每个图表都显示了同一信息在特定时间段内的对比版本,例如并排呈现的2016年和2017年的月度销售记录,这样就能清晰地指出该数据的影响,突出优势、劣势、趋势、峰值和低谷,以便斟酌并行动。
· 了解受众:在进行可视化时,确定需要从中得出推论或见解的目标受众。谁会看这些数据?他们面临哪些挑战,有哪些障碍阻止他们克服这些挑战?了解这些,并努力构建有足够吸引力的可视化,使受众能够最大限度地洞察或理解数据。
最佳的数据可视化工具和软件
只有运用好的工具或软件,才会有好的可视化效果。下面推荐几款个人使用过的最好的工具和软件:
图源:unsplash
· 开源库:有很多免费的编程语言开源库可以用来做数据可视化,它们通常能轻松上手,并且快速操作,因其灵活性而备受喜爱,是多数程序员首选的可视化方法。热门的开源库包括Matplotlib、Seaborn、Bokeh、Plotly和GGPlot。
· 电子表格应用程序:虽然总被忽略,但是像Microsoft Excel和Google Sheets这样的电子表格应用程序有内置的可视化工具,确实非常适合以图形或视觉形式展示数据。对于那些几乎没有编程技能,也无力负担可视化工具的人来说,这应该是最好的选择。
· Tableau:若要制作各种高级而美观的可视化和分析仪表盘,Tableau是最值得推荐的软件。使用Tableau可以轻松快捷地制作精美的气泡图、饼图、折线图、热力图或地球投影图。Tableau易于使用,有许多教程可以指导你如何更好地使用它来让工作效率最大化。
· Power BI:Power BI是微软的一项业务分析服务。它旨在提供交互式可视化和商业智能功能。其界面简洁,终端用户可以创建自己的报表和仪表盘。
图源:unsplash
数据可视化不是锦上添花的“外衣”,而是讲好故事的关键,希望本文分享的方法和资源能让你利用可视化更好地描述数据。
近期开班情况
课程详情请扫码咨询
数据之美:可视化会给你意想不到的答案!相关推荐
- 一本书学会可视化设计 pdf_「读书」数据之美-一本书学会可视化设计
[导读]本文约2200字,阅读时间约为15分钟. 每周,零一与您分享一本书,共同探索数据世界的浩瀚.若您喜欢,可转发与更多的人交流,共同成长. 一.数据 大多数人对于数据,仍然停留到较为表面的含义上, ...
- 【阅读】数据之美,一本书学会可视化设计
这里把<数据之美,一本书学会可视化设计>的摘抄分享下吧,图示上有不清晰的地方还请包容. 你真的理解数据了吗? 对原始数据了解得越多,打造的基础就越坚实,也就越可能制作成令人信服的数据图表. ...
- 【数据可视化】数据之美---揭密优雅的数据解决方案背后的故事
有时抛弃一些数据会使可视化效果更美丽. 在寻找设备方面,第一,如果要为数据可视化寻找设备,那么要找遍每个地方.有很多令人兴奋的传感技术被开发出来但却从来未被使用过.如果你准备启动一个可视化项目,首先在 ...
- 数据为什么要可视化?如何可视化?
来源 | CrossHands(ID:SmallWorldBigIdea) 作者 | AhongPlus 01数据为什么要可视化? 一方面是因为数字太抽象,图表更直观,而且图表可以突出数据中的关注点( ...
- 《Excel 数据之美--科学图表与商业图表的绘制》
作者介绍 张杰 , 纺织专业的程序猿: 热爱数据可视化的数字图像科研狗: 理工科背景的文艺逗逼青年: 学术研究方向为颜色测量与分析,喜欢研究和对比R.Python.Tableau.D3.js. ...
- 数据之美(五):美不胜收的数据图(上)
这是<数据之美>系列的第五篇,本文搜集了更多令人叹为观止的数据图(Infographics),展示了那些原本枯燥的数据,在转换为可视化图表之后令人目不暇接的美丽.数据之美系列的前四篇请参阅 ...
- 基于大数据的城市可视化治理:辅助决策模型与应用
作为数据分析和知识挖掘的常用方法, 可视化在城市规划.管理工作中的运用日见增多.考虑大数据的基本特性和可视化技术本质, 从图像展示.图像理解.图像运用三方面对管理决策的动态过程加以探索, 提出大数据可 ...
- 用python做一个数据查询软件_Python实现功能简单的数据查询及可视化系统
欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练.PDF电子文档.面试集锦.学习资料等. image.png 前言 数据时代,数据的多源集成 ...
- R语言ggplot2可视化时间序列数据:ggplot2可视化在时间轴上添加按月的箱图(boxplot)
R语言ggplot2可视化时间序列数据:ggplot2可视化在时间轴上添加按月的箱图(boxplot) 目录
最新文章
- 面试问你红黑树,你都懂了吗
- scala 自带json_scala中复杂对象转JSON和解析的方法
- 最近学习的 Node.js 之 http
- Lvs+keepalived 实现负载均衡、故障剔除(DR模式)
- Xbox 2021年科隆展发表会将于8月25日凌晨1点开始
- Django(part3)--制作我的第一个网页
- 谷歌补丁Android官网,谷歌已发布 19年12月 Android 安全补丁
- 现在小餐厅的推广视频
- npm 发布一个全局的指令
- python字典的键设置条件格式_openpyxl条件格式设置数字格式
- 闲鱼面试官:Thread.sleep(0) 到底有什么用?我:有点懵~
- shiro 框架实现 LDAP 登录
- html开始游戏如何打开,dnf游戏进不去 点击开始-运行,输入CMD
- 统计学基础(四)—卡方检验怎么用?
- 后端学习路线的书籍经验总结
- 航天环宇提交招股书上会稿:计划募资6亿元,控股股东为李完小
- Hadoop 实战之分析专利引用数据集(一)
- mc服务器地皮系统权限指令,我的世界地皮指令大全
- 【自动控制原理】【计算机控制技术】通俗易懂地理解Z变换
- DAY25:逻辑漏洞复现
热门文章
- 寄居蟹与海葵c语言大作业,OJ刷题之《寄居蟹与海葵》
- 如何用myeclipse远程调试tomcat
- 【Linux上分之路】第十二篇:Linux三剑客grep、sed、awk
- Windows XP 的共享问题!
- linux查看sd卡系统类型,从SD卡启动linux系统
- SpringBoot+Vue项目大学生网络教学平台的设计与实现
- VO、AO、执行环境和作用域链
- 金字塔打印(C语言)
- 论文:Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism
- 淘宝店铺商品搬家到微店