这些年,要说IT圈子最火的 是什么,数据分析绝对能排进去前三(不管机器学习、深度学习、人工智能、云计算……神马的,大部分都是作为数据分析的基石或者数据分析的主要实现体存在),分析实际上是人类一种本能。

经典的统计学思维里面,分析主要是用来进行因果关系的总结,比如民间各种相关谚语:朝霞不出门,暮霞行千里一类的,都是通过日常的观察来获得某种经验总结

到了现代统计学中,分析开始转为了对现象的细分描述和表达,因为大家发现总结的经验很多时候可能过于片面了,比如在塔勒布(纳西姆·尼古拉斯·塔勒布,黑天鹅的作者)曾经在他另外一本知名的书籍《随机致富的傻瓜》里面曾经讲过这样一个故事:

一个原始人在摸鼻子的时候,突然天下雨了,然后这个原始人就认为人类摸鼻子与下雨有必然的因果关系,之后还发展出了一整套摸鼻子祈雨的仪式……

所以,现代数据分析更偏重于对于数据本身的描述,比如下面这张大家都很熟悉的分析图:

这是一张2000年的美国人口统计图,不管是谁,第一眼看见这张图的时候,都会惊叹于制图专家们的职业水准与创意,以及专题图所表达出来的丰富含义和特征,一张图给我们带来的灵感和认知,是一个二维表格永远无法办到的。当然,很多时候我也经常用这种图来说明地理可视化可以给我们带来的令人眼前一亮且印象深刻的效果。

但是,有一个最核心的地方需要绝对的强调:数据可视化,不是分析!可视化不是分析,可视化不是分析……重要的事情说三遍。

诚然,可视化能够给我们带来一些分析的结果,但是可视化仅仅是表达数据的一种方式,仅仅是数据分析的一个辅助过程,绝对不能狭义的将分析直接理解为可视化,更不能将整个统计过程理解为可视化。

可视化的这些图形可能会给我们揭示了一些数据之间的特征,比如差异或者数据的相关性什么的。但是,要得出存在这些差异和相关性是不是可靠结论,多大程度上有意义, 还需要运用统计的方法(置信度、似然度等)。 而且要解释数据真正的意义,还需要各种分析的技能专业的知识以及对结论的解读能力

比如上面美国人口专题统计图,我们在图上能够清晰的看出美国的三大人口重心:东海岸的纽约,东中部的芝加哥和西海岸的洛杉矶,也能够很明晰的看出美国的人口分布呈现的哑铃状结构。然后呢?

如果更仔细的观察,会发现美国大部分城镇的分布,都呈现出线性分布的特性,越往中部,这种分布越明显,这又是为什么呢?

答案是美国并没有像我们中国一样的省市县乡村这种政治意义上的行政区划,他们是以“人口聚居区”为基本单位进行划分治理的。

这些城镇的形成,大多是在东部向西部的移民过程中,迁徙的移民们沿着道路,走到一个地方,发现这个地方水草丰茂,土地肥沃,而且还没有主人(印第安人不算),然后就说,咱们不走了,就留在这里吧。

开始只有一两户,随着人越来越多,就慢慢形成了一个聚居区。然后大家发现,我们人多了,没有道路,晚上出门也没有路灯,太不方便,所以我们几户就坐在一起说:我们来选举一个镇(村)长吧,这样把这些事情给管起来……这样,就形成了一个具有政治架构的城镇了。

一般遇上这种事,你只好念上两句诗:

然后就上任了……

实际上上面几段,抛开掉搞笑的部分不谈,就是所谓的分析过程和结论了,分析需要在描述数据基础上,说明数据背后的故事,而这个故事可以是解释数据为什么会形成如此的分布和趋势,也可以是阐述这种情况出现的原因,这样的论述,才是所谓的分析。也就是我们从小学开始,语文老师就一直在强调的读书读作者想要表达的思想。

待续未完。

分析的意义:数据背后的故事(1)相关推荐

  1. 可视化脑洞|1896年以来奥运奖牌数据背后的故事

    ◆ ◆ ◆ 引言 里约奥运会闭幕式将于北京时间今天早晨7点在马拉卡纳球场举行.至此,持续半个月的里约奥运会徐徐落幕. 里约奥运会决出的奖牌总数超过历届,运动员们秉承奥运精神,呈现给我们一场场精彩的比赛 ...

  2. 数据洞察疫情背后的故事

    我们日常生活中包含了大量的数据,但数据本身的价值密度低,而基于数据的分析和挖掘能够有效地对数据进行提炼,进而辅佐决策形成制胜关键一环.如何利用数据发现问题,驱动增长,不仅是企业的课题,还是我们提升工作 ...

  3. Qlik与百度开放云建立战略联盟,让中国企业通过强大的可视化分析看到数据背后的整个故事...

    可视化分析领导者Qlik(NASDAQ: QLIK) 今天宣布,与全球最大的中文搜索引擎百度的云计算事业部签署合作协议,正式成为百度开放云在中国市场的数据分析合作伙伴.根据协议,百度计划利用Qlik独 ...

  4. 探寻51个大数据应用案例背后的故事

    企业A:案例提交了,选上要通知我啊! 有萌君:恩,放心吧. 企业B:我投4个案例,总有一个能选上. 有萌君:牛! 企业C:不选我,你就废了! 有萌君:呃-- 2016全域大数据应用论坛配套活动&quo ...

  5. gcc常用命令与gcc编译器背后的故事

    目录 1 gcc常用命令 1.1 简介 1.2 简单编译 1.2.1 预处理 1.2.2 编译为汇编代码(Compilation) 1.2.3 汇编(Assembly) 1.2.4 连接(Linkin ...

  6. 作者谈《阿里巴巴Java开发手册(规约)》背后的故事

    1.前言 距离<阿里巴巴Java开发手册(规约)>(下称<手册>)对外正式发布已经1年多了.在过去的3日子里,这本小小的手册在业界产生了巨大的影响力.值此一周年之际,我们不妨一 ...

  7. 听“Siri之父”讲述Siri背后的故事

    听"Siri之父"讲述Siri背后的故事 Adam Cheyer是人工智能领域里的先驱,他生命中的绝大多数时间都奉献给了他所谓的"口头陈述目标",至今他依然为此 ...

  8. Mac OS X 背后的故事(四)——政客的跨界

    文/王越 <Mac OS X背后的故事>系列文章将为大家介绍Mac OS X的发行版本.技术历史.相关人物等内容.本文是系列连载的第四篇. 2000年,美国总统大选,由于选票设计问题,时任 ...

  9. 在科研中领悟科研——Applied Catalysis A文章背后的故事

    导读: 在科研中领悟科研--Applied Catalysis A文章背后的故事 Au/PO43-/TiO2 and PO43-/Au/TiO2 Catalysts for CO Oxidation: ...

最新文章

  1. 量子计算机混战:新贵离子 vs 老派超导体
  2. iOS-常用的自定义控件
  3. 报错android.view.InflateException: Binary XML file line #11: Attempt to invoke virtual method 'boolean
  4. 鸿蒙并不是为手机开发而是为物联网,华为确定发布“鸿蒙OS”确定 物联网同样可以搭载...
  5. 计算机网络基础必备(三次握手,四次握手,以及HTTP协议相关)
  6. IB component change - CL_IBCOMPONENT_IL~CHANGE_COMPONENT
  7. canvas绘制竖排的数字_Python绘制可爱的卡通人物 | 【turtle使用】
  8. 运行出现Server Tomcat v8.5 Server at localhost failed to start.和A child container failed during start...
  9. 步步为营 .NET三层架构解析 三、SQLHelper设计
  10. php 的一元二次方程_php扩展 求解一元二次方程
  11. 脑科学和类脑智能技术综述学习笔记
  12. 判断三点方向(顺时针或逆时针)
  13. MediaFormat api详解
  14. Codeforces Round #368 (Div. 2)(C. Pythagorean Triples 勾股数规律)
  15. 在线教育系统网页版,观看视频直播功能更多,更适合用户学习
  16. 多因素身份认证之手机推送认证
  17. Illegal unquoted character ((CTRL-CHAR, code 9)): has to be escaped using backslash to be included i
  18. Google Chrome浏览器的回退功能快捷键
  19. Android工程师遇到瓶颈后转行什么最好?https://blog.csdn.net/feiyu1947/article/details/86438086
  20. C#自定义背景透明TextBox

热门文章

  1. 常见前端安全漏洞及防范方法
  2. Smartbi:水泥行业实现数字化转型升级势在必行
  3. 南宁琅东的机器人餐厅_南宁这几家私房菜藏得深,人气却只增不减,真是菜香不怕巷子深~...
  4. 微处理器常见问题及解答
  5. java校验特殊字符_java中文及特殊字符的校验方法
  6. 订单表的字段类型 mysql_Mysql数据库下订单表如何设计?
  7. Android实现图片轮播
  8. 解决QQ群文件未通过安全检测无法下载问题
  9. Excel如何将中文快速翻译?
  10. 【ES6】let、const变量提升的验证,以及TDZ死区的理解