本节书摘来自华章出版社《大数据导论》一书中的第1章,第1.1节,作者托马斯·埃尔(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

理解大数据

大数据是一门专注于对大量的、频繁产生于不同信息源的数据进行存储、处理和分析的学科。当传统的数据分析、处理和存储技术手段无法满足当前需求的时候,大数据的实践解决方案就显得尤为重要。具体地说,大数据能满足许多不同的需求,例如,将多个没有联系的数据集结合在一起,或是处理大量非结构化的数据,抑或是从时间敏感的行为中获取隐藏的信息等。

虽然大数据看起来像是一门新兴的学科,却已有多年的发展历史。对大型数据集的管理与分析是一个存在已久的问题—从利用劳动密集方法进行早期人口普查的工作,到计算保险收费背后的精算学科,都涉及这个方面的问题,大数据就由此发展起来。

作为对传统的基于统计学分析方法的优化,大数据加入了更加新的技术,利用计算资源和方法的优势来执行分析算法。在当今数据集持续地扩大化、扩宽化、复杂化和数据流化的背景之下,这种优化十分重要。自《圣经》时代以来,统计学方法一直在告诉我们通过抽样调查的手段能够粗略地测量人口。但计算机科学目前的发展使我们完全有能力处理那样庞大的数据集,因此抽样调查的手法正在逐渐“失宠”。

对于大数据的数据集的分析是一项综合数学、统计学、计算机科学等多项专业学科的跨学科工作。这种多学科、多观点的混合,常常会使人对大数据及大数据分析这门学科所涵盖的内容产生疑问,每个人都会有不同的见解。大数据问题所涵盖的内容范围也会随着软硬件技术的更新而变化。这是因为我们在定义大数据的时候考虑了数据特征对于数据解决方案本身的影响。比如30年前,1GB的数据就称得上是大数据,而且我们还会为这份数据专门申请计算资源,而如今,1GB的数据十分常见,面向消费者的设备就能对其进行快速的存储、转移、复制或者其他处理。

大数据时代下的企业数据,常常通过各种应用、传感器以及外部资源聚集到企业的数据集中。这些数据经过大数据解决方案的处理后,能够直接应用于企业,或者添加到数据仓库中丰富现有的数据。这种大数据解决方案处理的结果,将会给我们带来许多深层知识和益处,例如:

运营优化

可实践的知识

新市场的发现

精确的预测

故障和欺诈的检测

详细的信息记录

优化的决策

科学的新发现

显然,大数据的应用面和潜在优势十分广阔。然而,在何时选用大数据分析手段的问题上,还有大量的问题需要考虑。当然,我们需要去理解这些存在的问题,并与大数据的优势进行权衡,最终才能做出一个合理的决策并提出合适的解决方案。这些内容我们将在第二部分单独讨论。

1.1 概念与术语

作为开端,我们首先要定义几个基本概念和术语,以便大家理解。

1.1.1 数据集

我们把一组或者一个集合的相关联的数据称作数据集。数据集中的每一个成员数据,都应与数据集中的其他成员拥有相同的特征或者属性。以下是一些数据集的例子:

存储在一个文本文件中的推文(tweet)

一个文件夹中的图像文件

存储在一个CSV格式文件中的从数据库中提取出来的行数据

存储在一个XML文件中的历史气象观测数据

图1.1中显示了三种不同数据格式的数据集。

1.1.2 数据分析

数据分析是一个通过处理数据,从数据中发现一些深层知识、模式、关系或是趋势的过程。数据分析的总体目标是做出更好的决策。举个简单的例子,通过分析冰淇淋的销售额数据,发现一天中冰淇淋甜筒的销量与当天气温的关系。这个分析结果可以帮助商店根据天气预报来决定每天应该订购多少冰淇淋。通过数据分析,我们可以对分析过的数据建立起关系与模式。图1.2显示了代表数据分析的符号。

1.1.3 数据分析学

数据分析学是一个包含数据分析,且比数据分析更为宽泛的概念。数据分析学这门学科涵盖了对整个数据生命周期的管理,而数据生命周期包含了数据收集、数据清理、数据组织、数据分析、数据存储以及数据管理等过程。此外,数据分析学还涵盖了分析方法、科学技术、自动化分析工具等。在大数据环境下,数据分析学发展了数据分析在高度可扩展的、大量分布式技术和框架中的应用,使之有能力处理大量的来自不同信息源的数据。图1.3显示了代表数据分析学的符号。

大数据分析(学)的生命周期通常会对大量非结构化且未经处理过的数据进行识别、获取、准备和分析等操作,从这些数据中提取出能够作为模式识别的输入,或者加入现有的企业数据库的有效信息。

不同的行业会以不同的方式使用大数据分析工具和技术。以下述三者为例:

在商业组织中,利用大数据的分析结果能降低运营开销,还有助于优化决策。

在科研领域,大数据分析能够确认一个现象的起因,并且能基于此提出更为精确的预测。

在服务业领域,比如公众行业,大数据分析有助于人们以更低的开销提供更好的服务。

大数据分析使得决策有了科学基础,现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同,我们大致可以将分析归为以下4类:

描述性分析

诊断性分析

预测性分析

规范性分析

不同的分析类型将需要不同的技术和分析算法。这意味着在传递多种类型的分析结果的时候,可能会有大量不同的数据、存储、处理要求。如图1.4所示,生成高质量的分析结果将加大分析环境的复杂性和开销。

1.描述性分析

描述性分析往往是对已经发生的事件进行问答和总结。这种形式的分析需要将数据置于生成信息的上下文中考虑。

相关问题可能包括:

过去12个月的销售量如何?

根据事件严重程度和地理位置分类,收到的求助电话的数量如何?

每一位销售经理的月销售额是多少?

据估计,生成的分析结果80%都是自然可描述的。描述性分析提供了较低的价值,但也只需要相对基础的训练集。

如图1.5所示,进行描述性分析常常借助即席报表和仪表板(dashboard)。报表常常是静态的,并且是以数据表格或图表形式呈现的历史数据。查询处理往往基于企业内部存储的可操作数据,例如客户关系管理系统(CRM)或者企业资源规划系统(ERP)。

2.诊断性分析

诊断性分析旨在寻求一个已经发生的事件的发生原因。这类分析的目标是通过获取一些与事件相关的信息来回答有关的问题,最后得出事件发生的原因。

相关的问题可能包括:

为什么Q2商品比Q1卖得多?

为什么来自东部地区的求助电话比来自西部地区的要多?

为什么最近三个月内病人再入院的比率有所提升?

诊断性分析比描述性分析提供了更加有价值的信息,但同时也要求更加高级的训练集。如图1.6所示,诊断性分析常常需要从不同的信息源搜集数据,并将它们以一种易于进行下钻和上卷分析的结构加以保存。而诊断性分析的结果可以由交互式可视化界面显示,让用户能够清晰地了解模式与趋势。诊断性分析是基于分析处理系统中的多维数据进行的,而且,与描述性分析相比,它的查询处理更加复杂。

3.预测性分析

预测性分析常在需要预测一个事件的结果时使用。通过预测性分析,信息将得到增值,这种增值主要表现在信息之间是如何相关的。这种相关性的强度和重要性构成了基于过去事件对未来进行预测的模型的基础。这些用于预测性分析的模型与过去已经发生的事件的潜在条件是隐式相关的,理解这一点很重要。如果这些潜在的条件改变了,那么用于预测性分析的模型也需要进行更新。

预测性分析提出的问题常常以假设的形式出现,例如:

如果消费者错过了一个月的还款,那么他们无力偿还贷款的几率有多大?

如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?

如果一个消费者购买了商品A和商品B,那么他购买商品C的概率有多大?

预测性分析尝试着预测事件的结果,而预测则基于模式、趋势以及来自于历史数据和当前数据的期望。这将让我们能够分辨风险与机遇。

这种类型的分析涉及包含外部数据和内部数据的大数据集以及多种分析方法。与描述性分析和诊断性分析相比,这种分析显得更有价值,同时也要求更加高级的训练集。如图1.7所示,这种工具通常通过提供用户友好的前端接口对潜在的错综复杂的数据进行抽象。

4.规范性分析

规范性分析建立在预测性分析的结果之上,用来规范需要执行的行动。其注重的不仅是哪项操作最佳,还包括了其原因。换句话说,规范性分析提供了经得起质询的结果,因为它们嵌入了情境理解的元素。因此,这种分析常常用来建立优势或者降低风险。

下面是两个这类问题的样例:

这三种药品中,哪一种能提供最好的疗效?

何时才是抛售一只股票的最佳时机?

规范性分析比其他三种分析的价值都高,同时还要求最高级的训练集,甚至是专门的分析软件和工具。这种分析将计算大量可能出现的结果,并且推荐出最佳选项。解决方案从解释性的到建议性的均有,同时还能包括各种不同情境的模拟。

这种分析能将内部数据与外部数据结合起来。内部数据可能包括当前和过去的销售数据、消费者信息、产品数据和商业规则。外部数据可能包括社会媒体数据、天气情况、政府公文等等。如图1.8所示,规范性分析涉及利用商业规则和大量的内外部数据来模拟事件结果,并且提供最佳的做法。

1.1.4 商务智能

商务智能(BI)通过分析由业务过程和信息系统生成的数据让一个组织能够获取企业绩效的内在认识。分析的结果可以用于改进组织绩效,或者通过修正检测出的问题来管理和引导业务过程。商务智能在企业中使用大数据分析,并且这种分析通常会被整合到企业数据仓库中以执行分析查询。如图1.9所示,商务智能的输出能以仪表板显示,它允许管理者访问和分析数据,且可以潜在地改进分析查询,从而对数据进行深入挖掘。

1.1.5 关键绩效指标

关键绩效指标(KPI)是一种用来衡量一次业务过程是否成功的度量标准。它与企业整体的战略目标和任务相联系。同时,它常常用来识别经营业绩中的一些问题,以及阐释一些执行标准。因此,KPI通常是一个测量企业整体绩效的特定方面的定量参考指标。如图1.10所示,它常常通过专门的仪表板显示。仪表板将多个关键绩效指标联合起来展示,并且将实测值与关键绩效指标阈值相比较。

《大数据导论》一第1章 理解大数据相关推荐

  1. 《大数据导论》——第1章理解大数据

    本节书摘来自华章社区<大数据导论>一书中的第1章理解大数据,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区" ...

  2. 谈谈对 Canal( 增量数据订阅与消费 )的理解--大数据平台技术栈系列(3)

    之前说了,大数据平台技术栈 (可点击查看),今天就来说说其中的Cannal 来源:朱小厮, blog.csdn.net/u013256816/article/details/52475190 概述 c ...

  3. 大数据导论习题_2020智慧树答案 大数据概论 最新知到章节测试答案

    下面有关Excel的扩展名叙述错误的是().A.Excel工作簿的默认扩展名是.xlsB.系统允许 在Excel,下列关于光标定位的说法中,正确的是().A.按Enter键可以将光标定位到同行的右一个 ...

  4. 好书推荐--大数据日知录(深入理解大数据的必备书籍)附电子版下载

    今天给大家推荐一本大数据领域中必读的一本书,名字叫<大数据日知录-架构与算法> 这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据.算法.策略.应用和系统架构等多个维度进行剖析, ...

  5. 大数据导论章节答案_高校邦大数据概论章节答案

    模板工程隐蔽工程检查的内容是什么? 答:1.绘制关键性轴线控制图,每层复查轴线标高一次.垂直度以经纬仪检查控制; 2.绘制预留.预埋图.在自查基础上进行抽查,确保质量; 3.重要模板要经设计计算,保证 ...

  6. 大数据导论章节答案_智慧树大数据导论章节答案

    一个TCP连接的数据传输阶段,如果发送端的发送窗口值由2000变为3000意味着发送端可以() 答:在收到一个确认之前可以发送3000字节 仓储合同的标的物必须是 答:动产 护理人员在日常工作中经常用 ...

  7. 数据竞赛专题 | 从赛题理解到竞赛入门基础

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...

  8. 大数据基础课01 如何在庞大的大数据体系中明确路径?

    你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...

  9. 网易携手昇腾AI打造玉知-悟空图文理解大模型,做更“懂你”的产品

    不少人都有过这样的"心动"体验:上班路上打开网易新闻,推荐内容恰好是自己最近关注的行业动态:下班途中打开网易云音乐,惊喜的发现了几个小众宝藏歌手,忍不住直呼"网易云真是太 ...

最新文章

  1. table中嵌套table,如何用jquery来控制奇偶行颜色
  2. Codeforces Round #160 (Div. 2) B - Roma and Changing Signs
  3. 010_TreeMap键使用Comparator排序
  4. 《敏捷软件开发》学习笔记 第20章
  5. Apache的网页和安全优化
  6. android 多级分组,android 二级菜单(类似QQ分组)
  7. HDU 5515 Game of Flying Circus 二分
  8. micropython和python区别-(一)什么是MicroPython?
  9. Linux CentOS 6.5 操作环境下修改mysql数据库密码
  10. 阿里云环境迁移记录 - RabbitMQ集群搭建
  11. 趋势科技发文挑衅VB100 金山对此不以为然
  12. Maven3.8.5安装与配置
  13. 多边形标注收缩python代码实现
  14. 计算机无法启动安装程序,安装Win10系统提示安装程序无法正常启动怎么办
  15. QPainter实现简单的绘图程序(绘图工具)
  16. matlab输入错误怎么修改,matlab 一个错误 怎么修改
  17. 异或校验算法 c语言程序,C# 异或校验算法
  18. 京东CPS商品推广接入流程
  19. 三角函数诱导公式大全
  20. 天津春考计算机考哪些学校,天津春季高考 计算机

热门文章

  1. linux apache设置web访问重定向_从零开始学Linux运维|30.Linux的目录结构
  2. 牛津临床和实验室调查手册 Oxford Handbook of Clinical and Laboratory Investigation
  3. mysql随机显示记录_MySQL随机读取表中记录
  4. python抢票代码_教你用Python动刷新抢12306火车票,附源码!
  5. Java实现八皇后问题的解法(一维数组版本)
  6. 北斗导航 | 多GNSS系统PPP-RTK原型系统及性能分析(2020 CPGPS全球华人导航定位协会年会)
  7. 分子生物学之蛋白质与氨基酸
  8. rust(20)-字符
  9. 【Python】Pandas/Sklearn进行机器学习之特征筛选,有效提升模型性能
  10. 网易云音乐:基于分布式图学习的推荐系统优化之路