随着大数据技术深入发展,在我们的日常工作无论是工作汇报、产品设计还是后台运维,越来越多的行业需要和数据打交道,数据几乎无处不在。然而同一组数据不同的展现方式也会给人带来千差万别的感受,或冰冷枯燥,或生动有趣。数据通过特别的方式来展示让人们一目了然的理解其背后的含义,这就是数据可视化。今天小编将从可视化的基础认知、可视化的经典案例和日常工作中所做的可视化范例三个方面带领大家一起了解数据可视化之美。

01

为什么要做可视化?

通常情况下,一图胜千言。我们人类的大脑超过50%的神经用来处理视觉相关的信息,我们的眼睛每秒能处理接近10 million 字节的信息。然而我们的大脑的解读信息最快需要 250毫秒。所以我们需要视觉的辅助去更好的理解数据。

上方的表格是苹果公司 2002年到2014年的iPod季度销量。仅仅通过观察表格,我们很难得出有效的结论。

但是通过观察下图能得出很明显的季度效应:在每年的圣诞假期,iPod销量会攀升再回落。

02

做可视化的优势?

*有助于日常工作中的工作描述和汇报,相较于表格,使用图表化的格式和描述报告。这样可以让查找和对比变得更加便捷。

*有助于发现和探索数据背后的新问题、新的趋势,以及数据间的逻辑关系。

*基于数据关系能帮助我们做出相关性的预测,比如基于时间序列的预测,同时我们在做推理和预测时仍要注意 Bias – variance trade-off,这是可视化的关键点。

Bias 在机器学习中描述了我们离目标的偏离程度,通常情况下我们希望模型非常精准,换言之,我们希望Bias尽可能的小。要达到这个目标,最简单有效的办法就是增加模型的复杂程度。例如,一元线性回归达不到目标,我们可以增加因子。一次方的回归不够,我们可以多次方回归。但是这样会导致新的问题,模型过于复杂产生了过拟合的问题。(对于已有数据表现良好,对于新进入的数据表现糟糕)

我们可以简单地将Variance理解为波动,通常来说,当一个模型特别复杂的时候,它的波动也是非常大的。反之,简单地模型波动波动通常较小。

Bias 和 Variance 就像一个跷跷板:Bias 高的时候 Variance 通常会低。Variance 高的时候,Bias通常会低

这里,我们举个Bias和Variance的例子

假设我们不知道四组数据的分布,但已知四组数据的的相关系数相同,线性回归方程相同,那么我们可以简单的画出四组相同的线性回归图例:

但假如x 和 y的分布如下

图一基本不存在问题,图二的variance需要增加,考虑y=ax^2 + b的回归方程。图三去掉极端值,或者考虑更换回归方程。图四可能不存在单纯的线性回归关系。

03

可视化的工具有哪些?

01 OFFICE套件

•传统,快速,上手门槛低

•数据类型有限,专业性通常不强

02 编程工具

•需要搭设环境,上手门槛稍高

•兼容各类数据,专业性, 扩展性强

•需要编程基础操作

03 Tableau

•结合了两者优势,凭直觉就可以操作的软件

•满足scope之外的可视化有困难

•速度极快

可视化范例-经典历史案例

1812年俄法战争

>47万法军出征

1812 年,拿破仑进军莫斯科,企图征服这座城市。这成为了一场灾难:大军出征时共有约 47 万名士兵,而到了兵败还乡时则仅剩一万人。这张图表讲述了关于这场战役的故事,并成为了有史以来最著名的可视化作品之一。

>1万名兵败还乡

这幅地图详细地描述了拿破仑大军的出征与败退。线条的宽度代表士兵总数,颜色代表移动方向(黄色表示进军莫斯科的方向,黑色表示回程的方向)。在中心的可视化下方还绘制了一张简单的温度曲线图,用来展示寒冬气温骤降的情况。这张图表有力而详尽地描绘出了一副震撼人心的大溃败场景。

1854年伦敦霍乱

霍乱地图本质上是一张早期的点图可视化。图中在城市街区内用小条形图标记出了伦敦每个家庭中死于霍乱的人数。这些条形图的集中程度和长度反映出城市街区的特定集合,旨在试图查明这些地区的死亡率高于其他地区的原因。调查结果显示:霍乱感染者人数最多的家庭所使用的饮用水均来自同一口水井。

1986年挑战者航天飞机

1986年1月28日,挑战者号航天飞机在升空73秒后发生爆炸,飞行器上七人全部遇难,直接经济损失超过12亿美元。飞行器残骸散步超过1600平方公里,深度超过370米的海域。总计花了11年寻找全部残骸。事故原因被归结为“o”型密封圈在低温环境下失效,导致燃料泄漏被主发动机点燃。

可视化日常工作案例

反洗钱数据汇总

多维度(地域,罚单类型,银行机构类型等)的分析了2003年至今的反洗钱数据。

情感分析可视化

情感分析,针对白酒和水泥行业机器对比人的判断,可以得出结论在有明显的趋势性行业(白酒)机器通过判断财务报表中对于外来趋势的展望可以做到和专业人士的判断几乎一致。

最后

可视化

描述了整个关于数据收集整理,数据制图的过程。可视化的重点在使用科学的方法探索和呈现数据。

可视化

不是做出漂亮的图片,可视化是为了揭露数据中隐含的信息。而这些信息通常不是能被简单地统计数据所表现。

可视化

在商业分析中有重要的作用。减少了不确定性,揭露隐藏的机会,将对数据的深刻见解转变成前瞻视野,帮助做出更快更好的商业决定。

可视化

减少了人们处理信息的时间 ,帮助我们做出更好的分析 以及展现事物间的相关性帮助我们做更科学理性的预测。

扫描二维码 关注我们

微信号 : 和合信诺

扫描二维码,惊喜不断

技术分享|数据分析与可视化相关推荐

  1. 资源分享 | 数据分析、可视化、人工智能,模板资源,在这里,你都能得到!

    今天给大家推荐一个优质公众号「DataCharm」,作者:宁海涛, 首先,简单介绍一下作者,宁同学是211硕士毕业(2020届),先后学习Python进行深度学习模型构建以及可视化展示,当然还包括数据 ...

  2. Python + Vue + D3 数据分析及可视化项目分享

    2022/11/10 声明 (这篇文章居然被下架了-) 这个项目只是以 GTD 数据库为例做数据的统计及可视化,不涉及对任何具体事件的分析和评论,希望能恢复发表! 前言 这个项目是BIT软件工程专业数 ...

  3. 青年生命科学论坛报告:扩增子和宏基因组数据分析与可视化流程—刘永鑫(北京210606)...

    感谢中科院动物所青促会组织的第三届青年生命科学论坛的邀请,参加本次大会,并和微生物所王军老师共同负责了<微生物组>专题的召集工作.感谢11位微生物组专题报告人的辛苦准备和分享. 现将本次1 ...

  4. 刘永鑫:20分钟讲解微生物组数据分析与可视化实战

    编者按: 2020 年 12 月 21 日,国内著名英文期刊 Protein & Cell 与热心肠研究院合作,成功举办了"Protein & Cell人类微生物组专刊线上论 ...

  5. 一位大神的Python数据分析与可视化笔记

    今天给大家推荐一个优质的[关于数据分析与可视化],作者:俊欣 点击关注微信公众号 首先,简单的介绍一下作者,毕业于美国的一所排名USNEWS第60名的高等私立理工大学,所就读的是数据科学的硕士学位,本 ...

  6. wps数据匹配怎么做_【VK技术分享】数据安全怎么做—静态数据的识别和治理

    前言 在当前的数据时代,随着云计算.大数据.AI等技术的不断发展,"数据"已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素.数据的计量单位也至少是PB级别计算.这对于国家 ...

  7. 送书|北大出版:R语言数据分析与可视化从入门到精通

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  8. 案例分享|数据可视化下的驱动业务增长

    在我国,制造业有两种态势:一种是生产同质化产品,产品价格公开,利润几乎透明:一种是高新技术产品,利润大,但创新和管理成本高.如何在同质化的产品中做好精细化和管理和成本控制,如何驱动创新成为制造业重出产 ...

  9. 【大数据技术分享】数据清理的终极指南

    我花了几个月的时间分析来自传感器.调查及日志等相关数据.无论我用多少图表,设计多么复杂的算法,结果总是会与预期不同.更糟糕的是,当你向首席执行官展示你的新发现时,他/她总会发现缺陷,你的发现与他们的理 ...

最新文章

  1. 南通市公积金信息系统goldengate复制软件采购
  2. linux下的科学软件下载,十分科学app-十分科学官网版下载v1.4.3-Linux公社
  3. We Are Cisco|25年后,为什么我仍是思科认证互联网专家
  4. 家里也是不知不觉就电脑有不能开启了
  5. Django——认证系统(Day72)
  6. pythonb超分辨成像_Papers | 超分辨 + 深度学习(未完待续)
  7. 互联网晚报 | 3月11日 星期五 |​ ​​商汤科技在深圳成立新公司,;微信支付电子小票上线...
  8. python将图片转换为Framebuffer裸数据格式(终端显示图片)
  9. 归类问题:简单的代价函数和梯度下降----吴恩达机器学习
  10. 登录 Jed_SH ELK 默认端口
  11. 计算机仿真课程的心得体会,数学建模心得体会
  12. 【电子电路】RS485收发器两种典型电路
  13. Js文字特效—文字段逐个变色循环
  14. 查看Mac上已连接WiFi的密码?
  15. 计算机3d开机号162期,彩吧福彩3D第162期试机号后分析总汇
  16. 安卓开发贴吧!Android高级工程师必看系列,建议收藏
  17. 当年我们一起追过的Java,Java SE 个人笔记
  18. 软件测试工作怎样修改本机IP,如何在命令行下更改IP地址
  19. Java 如何控制项目进度?
  20. 从提示框:适用于Windows的iPad接口仿真,Easy Access iPhone手电筒和Kindle收藏管理...

热门文章

  1. armbian打印服务器恩山无线,刷了armbian后用cups共享打印非常爽
  2. 阿里云域名备案流程分析和采坑总结
  3. Java获取本机ip和服务器ip
  4. 华大HC32F460的BOOT和IAP说明
  5. 关东升给的ios学习路线图(可以借鉴)
  6. python中序列和列表区别细菌真菌病毒_生物信息中的Python 02 | 用biopython解析序列...
  7. 群晖NAS 7.X搭建本地web服务器并实现公网访问 1/3
  8. 什么是Redis内存碎片率?碎片如何清理?
  9. 几个简单的数据点平滑处理算法
  10. 两数之和(Two Sum)