云计算与大数据概论（1）云计算,大数据是什么

云计算的应用场景
云计算概念
- 云计算简史
- 云计算定义
- 云计算基本特征
大数据应用场景
大数据概念
- 大数据简史
- 大数据定义
- 大数据基础特征
两者之间的关系

本文同步发在印象笔记：https://www.yinxiang.com/everhub/note/53e04038-e97b-4b3b-9c38-c100913ef768

云计算的应用场景

智能家居
智能家居从技术上分析∶就是一个家用的小型物联网，通过各类传感器采集信息，并通过对采集的数据信息进行分析、反馈，进而实现相应的功能。因此，云计算能够解决智能家居面临的两大关键问题∶一是大量数据的存储、针对性地查询分析以及数据计算的问题。二是智能家居需要存储的音频和视频信息，如远程视频监控与远程对话，等海量存储问题。基于云计算的智能家居依靠对家庭数据的全面感知和自主化学习，能够提供远超出目前自动指令执行器的智能水平，提供更多智能化的服务。
智能交通
将先进的计算机和通信技术与传统的交通运输技术相融合，通过对交通信息进行采集、加工、发布，实现人、车、路之间的信息共享、协同合作，减少交通拥堵和交通事故，降低交通能源消耗和交通污染，建立起一个现代、综合、高效的交通物流服务系统。云计算技术特有的超强计算能力和动态资源调度、按需提供服务等优势以及海量信息集成化管理机制等，都将促进智能交通公众服务平台的建立，为交通向智能化方向发展提供有力支撑。
自动驾驶
未来「云+汽车」将变成一个信息、数据的采集工具。车辆将收集的数据信息回传到云端进行深度学习，再通过远程升级为汽车带来新的能力，而汽车也能产生新的数据，通过这样的循环可以打造更安全的自动驾驶。汽车以前只是交通工具，是冷冰冰的机器，但今天有了人工智能，它可以分析车主或者乘客的声音、生物识别的特征，汽车在未来会变成一个有温度的智能伙伴。在未来的自动驾驶汽车中，数据是驱动汽车的燃料。使用云计算，每辆汽车都能够与路上的其他汽车"交谈"。
云课堂
云计算能够有效地存储海量的教学视频，同时CDN服务能够应对国内错综复杂的网络环境，还会涉及视频安全性的问题，在线人数过多导致的卡顿问题。在线课堂的优势如时空不受限、智能化应用等优势在此次疫情期间得到充分体现。预计疫情之后，在线教育将作为课堂教学的有效补充手段，被广泛应用。有孚网络一直致力于教育信息化的建设与普及，旨在用科技的力量促进教育资源公平分配，提升教育的效率和成果，让科技使教育更高效。
云游戏
云游戏借助云计算强大的数据处理能力，将大型游戏或者需要高端配置的游戏，在云计算服务器上处理，服务器再将游戏处理结果反送到客户端，用户只需要借助基本的视频解压，就可以在配置低的设备上进行游戏的运行。游戏玩家们再也无须通过堆硬件的方式来玩最新的游戏了，只要有足够的网络带宽支持，游戏玩家们可以用手机和平板电脑玩家用主机级别的大型游戏。
云直播
直播是当下最热门的媒体形式之一，究其根本，是一种高并发下的视频流处理，将主播端录制的视频上传云服务器，处理后分发给数量庞大的用户终端，这一过程需要使用到的云服务包括对象存储、云服务器、CDN、云数据库等。有孚云为直播类企业提供完整的一站式移动解决方案，帮助直播类企业专注内容的生产与传播，把IT基础设施交给专业机构，让企业专注于业务发展。
云教育
教育在云技术平台上的开发和应用，被称为“教育云”。云教育从信息技术的应用方面打破了传统教育的垄断和固有边界。通过教育走向信息化，使教育的不同参与者——教师、学生、家长、教育部门等在云技术平台上进行教育、教学、娱乐、沟通等功能。同时可以通过视频云计算的应用对学校特色教育课程进行直播和录播，并将信息储存至流存储服务器上，便于长时间和多渠道享受教育成果。
云物联
物联网是新一代信息技术浪潮的生力军。物联网通过智能感知、识别技术与普适计算广泛应用于互联网各方面。物联网作为互联网的业务和应用，随着其深入的发展和流量的增加，对数据储存和计算量的要求将带来对云计算的需求增加。并且在物联网的高级阶段，必将需要虚拟云计算技术的进一步应用。
云社交
云社交是一种虚拟社交应用。它以资源分享作为主要目标，将物联网、云计算和移动互联网相结合，通过其交互作用创造新型社交方式。云社交把社会资源进行测试、分类和集成，并向有需求的用户提供相应的服务。用户流量越大，资源集成越多，云社交的价值就越大。当前云社交已经具备了初步模型。
云安全
云安全是云计算在互联网安全领域的应用。云安全融合了并行处理、网络技术、未知病毒等新兴技术，通过分布在各领域的客户端对互联网中存在异常的情况进行监测，获取最新病毒程序信息，将信息发送至服务端进行处理并推送最便捷的解决建议。通过云计算技术使整个互联网变成了终极安全卫士。
云政务
云计算应用于政府部门中，为政府部门降低成本提高效率做出贡献。由于云计算具有集约、共享、高效的特点，所以其应用将为政府部门降低20%至80%的成本。所以在电子商务延伸至电子政务的背景下，各国政府部门都在着力进行电子政务改革，研究云计算普遍应用的可能性。伴随政府改革的进行，政府部门也开始从自建平台到购买电信运营商的服务，这将为促进云计算的进一步发展并为电信运营商带来商机。
云存储
云存储是云计算的一个新的发展浪潮。云存储不是某一个具体的存储设备，而是互联网中大量的存储设备通过应用软件共同作用协同发展，进而带来的数据访问服务。云计算系统要运算和处理海量数据，为支持云计算系统需要配置大量的存储设备，这样云技术系统就自动转化为云存储系统。故而，云存储是在云计算的概念的延伸。

云计算概念

云计算有如此的魅力，那么下面我们将探究它的发展史：

云计算简史

1969年，ARPANET[1]项目的首席科学家 Leonard Kleinrock 表示：
“现在，计算机网络还处于初期阶段，但是随着网络的进步和复杂化，我们将可能看到’计算机应用’的扩展.……”

从 20 世纪 90年代中期开始，普通大众已经开始以各种形式使用基于Internet 的计算机应用，比如∶搜索引擎（Yahoo!、Google）、电子邮件（Hotmail、Gmail）、开放的发布平台（MySpace、Facebook、YouTube），以及其他类型的社交媒体（Twitter、LinkedIn）。虽然这些服务是以用户为中心的，但是它们普及并且验证了形成现代云计算基础的核心概念。

关于云计算，我们应当了解其定义，以更好的熟悉和掌握它：

云计算定义

Forrester Research 公司将云计算定义为∶
“.…一种标准化的IT 性能（服务、软件或者基础设施），以按使用付费和自助服务方式，通过 Internet 技术进行交付。”
该定义被业界广泛接受，它是由美国国家标准与技术研究院（NIST）制定的。早在 2009 年，NIST就公布了其对云计算的原始定义，随后在 2011年9月，根据进一步评审和企业意见，发布了修订版定义∶
“云计算是一种模型，可以实现随时随地、便捷地、按需地从可配置计算资源共享池中获取所需的资源（例如，网络、服务器、存储、应用程序及服务），资源可以快速供给和释放，使管理的工作量和服务提供者的介入降低至最少。这种云模型由五个基本特征、三种服务模型和四种部署模型构成。”

在《云计算概念技术与架构》一书中，有如下定义：
云计算是分布式计算的一种特殊形式，它引入效用模型来远程供给可扩展和可测量的资源。

在维基百科对云计算的最新[2]定义为：、
云计算（英语：cloud computing），也被意译为网络计算，是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备，使用服务商提供的电脑基建作计算和资源。

Google对云计算的定义：
将所有的计算和应用放置在“云”中，终端设备不需要安装任何软件，通过互联网来分享程序和服务。

某家互联网数据中心[3]对云计算的定义：云计算是一种新型的IT技术发展，部署及发布模式，能够通过互联网实时提供产品，服务，解决方案。

NIST[4]对云计算的定义是：
云计算是一种无处不在，便捷的，通过互联网访问的一个可定制的IT资源（IT资源包括网络，服务器，储存，应用软件和服务）共享池，是一种按使用量付费的模式。它能够通过最少量的管理与服务供应商的互动实现计算资源的迅速供给和释放。

云计算基本特征

互联网上汇聚的计算资源、存储资源、数据资源和应用资源正随着互联网规模的扩大而不断增加，互联网正在从传统意义的通信平台转化为泛在、智能的计算平台。
与计算机系统这样的传统计算平台比较，互联网上还没有形成类似计算机操作系统的服务环境，以支持互联网资源的有效管理和综合利用。
在传统计算机中已成熟的操作系统技术，已不再能适用于互联网环境，其根本原因在于：互联网资源的自主控制、自治对等、异构多尺度互联网上汇聚的计算资源、存储资源、数据资源和应用资源正随着互联网规模的扩大而不断增加，互联网正在从传统意义的通信平台转化为泛在、智能的计算平台。
为了适应互联网资源的基本特性，形成承接互联网资源和互联网应用的一体化服务环境，面向互联网计算的虚拟计算环境（Internet-based Virtual Computing Environment，iVCE）的研究工作，使用户能够方便、有效地共享和利用开放网络上的资源。等基本特性，与传统计算机系统的资源特性存在本质上的不同。为了适应互联网资源的基本特性，形成承接互联网资源和互联网应用的一体化服务环境，面向互联网计算的虚拟计算环境（Internet-based Virtual Computing Environment，iVCE）的研究工作，使用户能够方便、有效地共享和利用开放网络上的资源。

互联网上的云计算服务特征和自然界的云、水循环具有一定的相似性，因此，云是一个相当贴切的比喻。根据美国国家标准和技术研究院的定义，云计算服务应该具备以下几条特征[5]：
1.
随需应变自助服务。
2.
随时随地用任何网络设备访问。
3.
多人共享资源池。
4.
快速重新部署灵活度。
5.
可被监控与量测的服务。

一般认为还有如下特征：
1.
基于虚拟化技术快速部署资源或获得服务。
2.
减少用户终端的处理负担。
3.
降低了用户对于IT专业知识的依赖。

大数据应用场景

交通领域
无人驾驶就是在人的驾驶过程中实时采集车辆周边数据和驾驶控制信息，然后通过机器学习，获得周边信息与驾驶方式的对应关系（自动驾驶模型），然后将这个模型应用到无人驾驶的车辆上。通过物理传感器获取周边车辆信息，应用模型，就能达到自动驾驶的效果。
金融-分控
大数据在金融领域应用比较成熟的是大数据风控，如何识别高风险用户？根据大量的历史数据，通过大数据的模型计算，得出用户的特征和风控模型。当新用户发起资金操作时，很好的预测用户的风险指数。
医疗健康
其中图像识别也是机器学习最成熟的一个方面，在医疗行业，可以通过对大量的图片数据进行学习训练，从而更加客观的识别出医疗影像的病例特征，更准确的识别病原。
教育
一些教育平台通过人工智能的外语老师进行教学，一些新闻播报也利用人工智能的主持人去播放内容。

大数据概念

大数据简史

文1：来源：百度[8]
2019年5月，2019中国国际大数据产业博览会在贵州举行。对业内人士而言，这样的会议已成为常态，毕竟今年已经是第五个年头；对普通大众而言，大数据虽然已耳熟能详，但多为泛泛的了解，它如何以迅雷不及掩耳之势发展为一种产业，又如何能够以超凡的魅力吸引世界的目光在贵州对其进行“博览”，绝非一个想当然的现象。可以毫不夸张的说，未来社会就是数据型社会，这已经导致有些学者甚至科学家在意识形态多元化的今天又开辟了一块新的领地，并在上面竖起了“大数据主义”的大旗。更有甚至，有些人干脆将传统连根拔起，让数据取代基因、量子等，成为新的“存在之王”。大数据来势汹涌，气势磅礴：它会把人类的文明推上新的高度，也会把人性的弱点加倍呈现；它会重塑我们这个时代，也会影响每一个个体。从某种程度上讲，如果不了解大数据，就无法洞悉未来。同样，如果不了解大数据的历史，就无法真正的理解大数据。下面，笔者企图用几个标志性的事件对大数据做一次回溯，记为大数据简史。
公元前20世纪——早期实践
公元前2000年的一个夜晚，天空晴朗，在古巴比伦城的郊外，几个僧侣正在仰望星空。他们既非赏月，也不是对天冥想，而是观测。只要天空条件允许，他们几乎夜夜观察天空的景象，并把结果记录在土碑上。日积月累，他们汇总了大量的信息，并渐渐从中看出了天文现象的周期性。那个时候，他们就已经把一年定为360天，或12个月，时常还加入闰月，作必要的调整。据公元前6世纪的一个文件说，到后来，他们已经能够事先计算出太阳和月亮的相对位置，因而也就有可能预测日、月食了。

有人认为，古巴比伦人的天文观测不算大数据，而且把大数据的历史推到公元前有些荒诞。但是，就像我们把伽利略视为近代科学实验方法之父，并不代表在他之前没有科学实验一样，大数据的崛起固然与计算机技术的腾飞有很大关联，也不代表着计算机诞生之前没有大数据的应用。实际上，在《大数据时代》一书中，作者维托克·迈尔-舍恩伯格就将马修·方丹·莫里的导航图，视为大数据的早期实践，而这个人生活在19世纪。如果我们对大数据的认知跳出计算机的框架，就会发现历史上有关大数据的实践还有很多。古人通过长期观察，发现了蛙鸣与下雨的关系；亚里士多德每天打破一个鸡蛋，观察小鸡胚胎的发育过程；门捷列夫根据既有的元素制定了元素周期表。等等这些案例，无不彰显出大数据的影子。
17世纪40年代——数据前传
说到大数据，很多人的意识里会冒出“小数据”的概念。遗憾的是，在大数据的世界里，它只有“前传”，没有对偶，毕竟从预测、分析的角度来看，谈论“小数据”是没有意义的。要说前传，我们必须从“数据”这个词开始。如此一来，我们必须回到英语的世界，追溯“data”的起源。据说，“data”的出现可以追溯到17世纪40年代。不过，当时这个单词的意思与现在并不相同，而是与它的拉丁语起源“datum”相似，有“给予”之意。而真正意义上用“数据”表示“可传输或储存的电脑信息”还要在300年以后，准确地说，是在1946年，也就是世界上第一台计算机诞生之年。而“数据处理”这种与大数据运用息息相关的表述，则是在1954年被第一次使用。
20世纪80年代——概念成型
数据自1946年有了我们现在所理解的那种“传输”、“储存”的意义之后，并没有引起人们额外的惊奇，而且数据的价值和意义还主要停留在分析、分享的阶段。这很容易理解，毕竟计算机从诞生到普及还有一段路要走。不过，这段路并没有走太久，在20世纪80年代的时候，人们就已经意识到数据的几何级增长可能对世界带来的冲击。比如，在1980年，美国著名未来学家阿尔文·托夫勒就在其著作《第三次浪潮》中，将“大数据”称为“第三次浪潮的华彩乐章”。不过，他可能并没有在书中直接用到“大数据”这个词汇，因为公认的最早使用这个词汇的人是90年代在美国硅图公司担任首席科学家的John Mashey。就像数据的概念从诞生到后来会发生意义流变一样，大数据的初始内涵与它现在的意义也肯定不甚相同。托夫勒也好，John Mashey也罢，他们当时对大数据的理解更多的停留在表象层面，至于大数据的理论以及可能的应用范围等，还是后来在商用的刺激下被不断深化和放大的。
20世纪90年代——小试牛刀

如今，在讨论大数据的时候，人们通常会把沃尔玛“啤酒与尿布”的故事与谷歌“预测流感”的故事作为案例一起分析，就好像这两个故事发生的时间大体相似。实际情况是，当沃尔玛有意识地利用销售数据预测顾客的购买动机及行为时，谷歌公司还没有成立。作为大数据应用的知名商业案例，“啤酒与尿布”的故事可以追溯到20世纪90年代。当时，沃尔玛超市管理人员分析其销售数据时，发现了一个难以理解的现象：在日常的生活中，“啤酒”与“尿布”这两件商品看上去风马牛不相及，但是经常会一起出现在美国消费者的同一个购物篮中。这个独特的销售现象引起了沃尔玛管理人员的关注。经过一系列的后续调查证实，“啤酒+尿布”的现象往往发生在年轻的父亲身上。当然，这个现象源于美国独特的文化。在有婴儿的美国家庭中，通常都是由母亲在家中照看婴儿，去超市购买尿布一般由年轻的父亲负责。年轻的父亲在购买尿布的同时，往往会顺便为自己购买一些啤酒。沃尔玛的管理人员发现该现象后，立即着手把啤酒与尿布摆放在相同的区域，让年轻的美国父亲非常方便地找到尿布和啤酒这两件商品，并让其较快地完成购物。这样一个小小的陈列细节让沃尔玛获得了满意的商品销售收入。
2008年——走向正统
2008年对“大数据”而言算得上是一个分水岭，因为国际知名杂志《自然》推出专刊，对其做了介绍。3年后，美国的《科学》杂志也做了同样的事情。它们从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战，自此，“大数据”一发不可收拾，成为学界研究的热点。鉴于《自然》、《科学》等杂志在国际学术圈中的权威及影响，推出专刊介绍大数据，无异于为其作了背书。如果说，大数据在此之前只是商人、学者零散的激情，那么此后则成为了整个社会的共鸣。
2012年——新的时代

2012年，有两本书在国内市场上异常火爆，一本是著名信息管理专家、科技作家涂子沛的《大数据》，另外一本是著名数据科学家维克托·迈尔-舍恩伯格的《大数据时代》。当然，有关大数据的作品还有很多，但这两本书最有代表性，因为他们用通俗易懂的语言，形式多样的案例对大数据做了一次既具有科普性又不失趣味性的解读。特别是维克托·迈尔-舍恩伯格，从理论的层面预言大数据将导致人类思维、商业以及管理领域的变革。以思维为例，之前人们以“因果”作为拓展新知，产生洞见的固有逻辑，但大数据的出现将“相关关系”上升到思维的高度。基于此，有学者甚至发出“理论的终结”之类的感叹。不管上述分析正确与否，大数据作为一个时代的标签已经成型。这一判断非常容易得到确认，因为现代社会所有的设备和系统，如果没有数据的参与，就无法智能。云计算也好，人工智能也罢，从根本上讲，都是靠数据驱动的。19世纪、20世纪有很多标签，但不妨碍我们称其为“石油时代”。同理，21世纪还存在着诸多可能，但不妨碍我们称其为“大数据时代”。

文2：[9]
熟知大数据发展历史，才能更好理解其产生的缘由。再去学习技术知识，定会明朗很多，同时更深入技术的本质。

大数据史可以从两个方面来讲：

技术产生史和发展史

一、大数据技术产生史

首先看一下我们要介绍的大数据技术栈包含什么：
Hadoop; MapReduce; NoSQL; Spark; Flink; Hive…

这个都属于大数据的技术栈，初看起来，杂乱无章。对于初学者更甚，无从下手，更不知道哪些是重点，哪些是辅助技术。

所以，我们先把这些技术的产生搞清楚，以及他们能应用什么场景。这样你就做到心里有数，剩下的就是各个击破，自己慢慢学习。

起源于Google
大家都知道最早搜索引擎是Google.其功能是提供互联网用户的信息的检索功能。那搜索引擎具体都干了哪些事呢？

其实很简单的两件事：
一是数据采集，也就是网页的爬取；
二是数据搜索，也就是索引的构建；

数据采集离不开存储，索引的构建也需要大量计算，所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

在2004年前后，Google发表了三篇重要的论文，俗称“三驾马车”：
Google File System(GFS)， MapReduce，BigTable

在互联网早期，互联网产品用户规模都不是很大，很少的人会关注分布式解决方案，都在单体机器上寻找解决方案，也就是在硬件上下功夫；

而Google在当时的互联网界，不管是用户规模还是所产生数据量都是TOP级别的。所以，对分布式和集群等方式，解决存储方式研究较早，同时也采用横向拓展的思路，去研发系统。

Hadoop的产生
最早关注 Google 大数据论文的是一个程序员，也不陌生，Lucene项目的创始人 Doug Cutting。他看到论文后，颇为激动，程序员，动手能力当然很强，很快就依据论文的原理实现了类似 GFS 和 MapReduce的功能框架。注意是类似哦。

到了2006年，DC 开发的类似MapReduce功能的大数据技术，被独立出来，单独开发运维。这个也就是不就后被命名为 Hadoop 的产品。该体系里面包含，大家熟知的分布式文件系统 HDFS 以及大数据计算引擎 MapReduce。

Yahoo 优化改编
当 Hadoop 发布之后，另一个当时的搜素引擎巨头 Yahoo 很快就使用了起来；

到了2007年，国内的百度也开始使用了 Hadoop 进行大数据存储与计算了。
又过了一年，2008年，Hadoop 正式成为 Apache 的顶级项目，自此，Hadoop 彻底火了起来，也被更多的人熟知。

当然任何系统都不可能是完美的，也不可能是通用的，并非适用于每个公司。 Yahho 使用了 MapReduce 进行大数据计算时，觉得开发太繁琐，于是他们自己便开发了一个新的系统–Pig。

Pig是一个基于 Hadoop 类 SQL 语句的脚本语言。经过编译后，直接生成 MapReduce 程序，在 Hadoop系统上运行。所以 Yahho 也是在Hadoop 基础上进行了编程上的优化使用。

Facebook 的数据分析 Hive
Yahho 的 Pig 是一种类似于 SQL 语句的脚本语言，相比于直接编写 MapReduce 简单许多。但是使用者还是要学习这种新的脚本语言。

又一家巨头公司出现了 Facebook 为了数据分析也开发一种新的分析工具，叫做 Hive 的东西，hHive 能直接使用SQL语句进行大数据计算，这样，只要是具有数据库关系型语言的开发人员就能直接使用大数据平台。大大的降低了使用的门槛，又将大数据技术推进了一步。

至此，大数据主要的技术栈基本形成。包括 HDFS、MapReduce、Pig、Hive.

责任单一 Yarn
此时，MapReduce 一个资源调度框架，又是一个执行引擎。为了责任单一化，将这两种功能进行了分离，Yarn 项目启动了。

2012年， Yarn 成为了独立的项目，开始运营，被各大数据厂商的产品支持，成为了主流的资源管理调度系统。

效率还是效率 Spark
同年，UC 伯克利 AMP 实验室的一位博士，在使用 MapReduce 进行大数据实验计算时，发现性能非常差，不能满足其计算需求。

为了改进这种效率低下的工作方式，于是开发出了一个性能优越的替代产品，叫做 Spark 。由于Spark 性能卓著，一经推出，就受到了业界的认可，开始全面替代 MapReduce。

批处理计算和流式计算
大数据计算根据分析数据的方式不同，有两个类别。一种叫做批处理计算，比如 MapReduce、Spark 这种，针对的是某个时间段的数据进行计算（比如“天”“小时”的单位）。

这种计算由于数据量大，需要花费几十分钟甚至更长。同时这种计算的数据是非在线实时获取的数据，也就是历史积累的数据，也就是离线数据，这种计算又被称为“离线计算”。

离线计算针对的是历史数据，相对的就有针对的实时数据进行计算，也就是系统接收到数据就进行计算，这种计算叫做“流式计算”。
由于处理的数据是实时在线产生的，又被称为“实时计算”。

流式计算技术 Storm、Flink、 Spark Streaming
怎么理解流式计算呢？很简单的，把批处理计算的时间单元缩小到数据产生的间隔就是了。“流式计算”具有代表性的框架，比如：Storm、Flink、 Spark Streaming。

特别说一点，Flink 就牛了一些，既支持流式计算又支持批处理计算。

非关系型数据库
在2011年左右 NoSQL 非常火爆，其中 HBase 是从Hadoop中分拆出去的，也就是底层还是HFDS 技术。所以 NoSQL 系统在大数据环境下，提供海量数据的存储和访问功能，也算是大数据技术栈一员。

数据分析，数据挖掘，机器学习
有了大数据这个底层的技术基础，更广的应用也就能实现了。大数据平台，继承了数据分析和数据挖掘技术，以及在大数据基础上，更高级的机器学习技术。

数据分析主要是数据专员的工作，一般不需要开发能力，会使用简单的 SQL 基本上够用了。一些公司的运营人员，也要求具有数据分析的能力。数据分析主要是利用上面提到的 Hive、Spark SQL 等数据库脚本语言；

有了大数据的存储和计算能力，就能进行数据挖掘和机器学习。当然也有成熟的框架，比如Mahout、Google 的 TersorFlow等框架。

最后，有了基础的存储功能，大数据批处理，流失处理计算能力，之上的大数据分析，以及更高级的挖掘和机器学习。至此一个大数据平台就构成了。

二、大数据应用发展史

大数据技术不断的更迭，同样的，在技术之上的应用，也经历了一个发展过程。
从最早的 Google公司，解决搜索引擎业务，到目前最火的AI技术。大数据应用越来越广泛。

Google 搜索引擎时代
在Google 之前，一直是 Yahho 在搜索引擎领域领先。从 Google 发布三篇大数据论文开始，Google 扭转了局面。

通过HDFS 对海量数据的存储，运用 MapReduce 技术高效的计算网页内容，提高用户的检索能力，正是这些大数据技术的发展，让 Google 傲立搜索引擎之巅。

后续的人工智能，无人驾驶技术 Google 也一直推动行业发展。

数据仓储、大数据分析时代
稍具规模的公司，都会有数据专员这种角色，不管是给老板提供数据，还是为产品人员提供数据支持。原来的工作方式，以传统的关系型数据库为主，跑一些 SQL 语句出报表数据。

大数据提供了保存海量的数据能力，除了业务数据，日志数据，爬虫数据等都成了数据的来源，也就构成了数据仓库。数据专员同学可以利用大数据的技术，在海量数据上进行分析，分析的维度更多，效率也大大提高。以前一条大的 SQL 也许需要跑一天，现在数据量更大，但是效率提成倍提高。

简单来说，数据人员利用 Hive 可以在 Hadoop 上进行 SQL 操作，实现数据统计与分析。

大数据挖掘时代
“买尿不湿的人通常也会买啤酒” 这个梗又要抬出来了。也许这个最能体会数据挖掘的作用。

帮助用户发现自己都不知道需要的需求，帮助电商平台推荐最适合用户的产品，更好销售自己的产品，帮助社交平台根据用户的画像更好的挖掘出最优关联性社交关系。

机器学习时代
有了大数据技术，可以把历史数据收集起来，统计其中的规律，进而预测正在发生的事情，这就是机器学习。AlohaGo 战胜世界冠军为起点，机器学习迎来了一波高潮，小米的小爱同学，天猫盒子，等语音聊天也将机器学习推广到了寻常百姓家。

AI（人工智能）时代
将全部的数据，通过机器学习得到统计规律，进而模拟人的行为，是机器能像人类一样的思考，这就是人工智能。以AI为主题的电影电视也层出不穷，还有人会担心，人工智能的发展会超过人来的智能。

大数据产生的原因：
随着计算机技术全面融入社会生活的，信息爆炸已经积累到了一个开始引发技术创新和商业变革的阶段。二十一世纪是信息技术大发展的时代，互联网、物联网、车联网、gps、医学影像、安全监控、金融、电信等众多领域都在疯狂产生的大量的数据，这些数据不仅使世界充斥着比以往更多的信息，而且由这些数据产生出大数据这个众人皆知的概念。

大数据技术的产生，首先源于互联网企业对于日益增长的网络数据分析的需求。
20世纪80年代的典型代表是雅虎的分类目录搜索数据库
20世纪90年代的典型代表是谷歌，它开始运用算法分析用户搜索信息，以满足用户的实需求。
21世纪的典型代表是Facebook，它不仅满足用户的实际需求，而且创造需求。
因为此时web2.0出现，使人们从信息的被动接受者变成主动造者。

大数据定义

维基给出的定义：
又称为巨量资料，指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
海量数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言，海量数据的出现促成广泛主题的新颖研究。这也导致各种海量数据统计方法的发展。海量数据并没有统计学的抽样方法；它只是观察和追踪发生的事情。因此，海量数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步，发布新数据的便捷性以及全球大多数政府对高透明度的要求，海量数据分析在现代研究中越来越突出。

百度给出的定义：是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

《云计算与大数据技术应用》一书中，对大数据的定义：
大数据是现有数据库管理软件和传统数据处理应用方法很难处理的大型复杂的数据集，大数据技术的范畴包括大数据的采集，储存，搜索，共享，传输，分析和可视化。

大数据基础特征

大数据四个基本属性（4V特性）：

1、数据量大（规模性）（Volume）
2、要求快速响应（高速性）（Velocity）
3、数据多样性（多样性）（Variety）
4、价值密度低（价值）（value）

完整特征：
1、容量（Volume）：数据的大小决定所考虑的数据的价bai值和潜在的信息。

2、种类（Variety）：数据类型的多样性。

3、速度（Velocity）：指获得数据的速度。

4、可变性（Variability）：妨碍了处理和有效地管理数据的过程。

5、真实性（Veracity）：数据的质量。

6、复杂性（Complexity）：数据量巨大，来源多渠道。

7、价值（value）：合理运用大数据，以低成本创造高价值。

详解：[10]
1、大容量
据了解，天文学和基因学是最早产生大数据变革的领域，2000年，斯隆数字巡天项目启动时，位于新墨西哥州的望远镜，在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;
在智利的大型视场全景巡天望远镜一旦于2016年投入使用，其在5天之内搜集到的信息量将相当于前者10年的信息档案。
2003年，人类第一次破译人体基因密码时，用了10年才完成了30亿对碱基对的排序;
而在10年之后，世界范围内的基因仪15分钟就可以完成同样的工作量。
伴随着各种随身设备、物联网和云计算、云存储等技术的发展，人和物的所有轨迹都可以被记录，数据因此被大量生产出来。
移动互联网的核心网络节点是人，不再是网页，人人都成为数据制造者，短信、微博、照片、录像都是其数据产品;
数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;
来自自动流程记录，刷卡机、收款机、电子不停车收费系统，互联网点击、电话拨号等设施以及各种办事流程登记等。
大量自动或人工产生的数据通过互联网聚集到特定地点，包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构，形成了大数据之海。
我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。
2011年，马丁希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章，对1986—2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术∶ 书籍、图画、信件、电子邮件、照片、音乐、视频（模拟和字）、电子游戏、电话、汽车导航等。
据他们估算∶
2007年，人类大约存储了超过300EB的数据;1986——2007年，全球数据存储能力每年提高23%，双向通信能力每年提高28%，通用计算能力每年提高58%;预计到 2013年，世界上存储的数据能达到约1.2ZB。
这样大的数据量意味着什么?
据估算，如果把这些数据全部记在书中，这些书可以覆盖整个美国52次。如果存储在只读光盘上，这些光盘可以堆成5堆，每堆都可以伸到月球。
在公元前3世纪，希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品，可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后，每个人都可以获得大量数据信息，相当于当时亚历山大图书馆存储的数据总量的320倍之多。
2、多样性
随着传感器、智能设备以及社交协作技术的飞速发展，组织中的数据也变得更加复杂，因为它不仅包含传统的关系型数据，还包含来自网页、互联网日志文件（包括点击流数据）、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。
在大数据时代，数据格式变得越来越多样，涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样，不仅产生于组织内部运作的各个环节，也来自于组织外部。
例如，在交通领域，北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业，还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2000万条记录，交通卡刷卡记录每天1900万条，手机定位数据每天1800万条，出租车运营数据每天100万条，电子停车收费系统数据每天50万条，定期调查覆盖8万户家庭等等，这些数据在体量和速度上都达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性，是大数据做前人之未做、能前人所不能的机会。
数据不仅是处理巨量数据的利器，更为处理不同来源、不同格式的多元化数据提供了可能。
例如，为了使计算机能够理解人的意图，人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机，使得计算机能够根据人的指令一步一步工作，完成某种特定的任务。
E以往，人们只能通过编程这种规范化计算机语言发出指令，随着自然语言处理技术的发展，人们可以用计算机处理自然语言，实现人与计算机之间基于文本和语音的有效通信，为此，还出现了专门提供结构化语言解决方案的组织—语言数据公司。
自然语言无疑是一个新的数据来源，而且也是一种更复杂、更多样的数据，它包含诸如省略、指代、更正、重复、强调、倒序等大量的语言现象，还包括噪声、含混不清、口头语和音变等语音现象。
公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流，并调用手机自带的各项应用，读短信、询问天气、设置闹钟、安排日程，乃至搜寻餐厅、电影院等生活信息，收看相关评论，甚至直接订位、订票，Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。
为了让Siri足够聪明，苹果公司引入了谷歌、维基百科等外部数据源，在语音识别和语音合成方面，未来版本的Siri或许可以让我们听到中国各地的方言，比如四川话、湖南话和河南话。
多样化的数据来源正是大数据的威力所在，例如交通状况与其他领域的数据都存在较强的关联性。据马海祥博客收集的数据研究发现，可以从供水系统数据中发现早晨洗澡的高峰时段，加上一个偏移量（通常是40-45分钟）就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间，加上偏移量估算出晚上的堵车时段。
3、快速度
在数据处理速度方面，有一个著名的"1秒定律"，即要在秒级时间范围内给出分析结果，超出这个时间，数据就失去价值了。IBM有一则广告，讲的是"1秒，能做什么"? 1秒，能检测出台湾的铁道故障并发也能发现得克萨斯州的电力中断，避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈，保障客户利益。
在商业领域，“快"也早已贯穿企业运营、管理和决策智能化的每一个环节，形形色色描述"快"的新兴词汇出现在商业数据语境里，例如实时、快如闪电、光速、念动的瞬间、价值送达时间。
英特尔中国研究院首席工程师吴甘沙认为，快速度是大数据处理技术和传统的数据挖掘技术最大的区别。
大数据是一种以实时数据处理、实时结果导向为特征的解决方案，它的"快"有两个层面。
是数据产生得快。有的数据是爆发式产生，例如，欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓滑细流式产生，但是由于用户众多，短时间内产生的数据量依然非常庞大，例如，点击流、日志、射频识别数据、GPS（全球定位系统）位置信息。
数据处理得快。正如水处理系统可以从水库调出水进行处理，也可以处理直接对涌进来的新水流。大数据也有批处理（“静止数据"转变为"正使用数据”）和流处理（“动态数据"转变为"正使用数据”）两种范式，以实现快速的数据处理。
为什么要"快”?
第一，时间就是金钱。如果说价值是分子，那么时间就是分母，分母越小，单位价值就越大。面临同样大的数据"矿山"，“挖矿"效率是竞争优势。
第二，像其他商品一样，数据的价值会折旧，等量数据在不同时间点?价值不等。
NewSQL（新的可扩展性/高性能数据库）的先行者VoltDB（内存数据库）发明了一个概念叫作"数据连续统一体"∶数据存在于一个连续的时间轴上，每个数据项都有它的年龄，不同年
的数据有不同的价值取向，新产生的数据更具有个体价值，产生时间较为久远的数据集合起来更能发挥价值。
第三，数据跟新闻一样具有时效性。很多传感器的数据产生几秒之后就失去意义了。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性，但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。
越来越多的数据挖掘趋于前端化，即提前感知预测并直接提供服务对象所需要的个性化服务，例如，对绝大多数商品来说，找到顾客"触点"的最佳时机并非在结账以后，而是在顾客还提着篮子逛街时。
4、真实性
在以上3项特征的基础上，我归纳总结了大数据的第四个特征——真实性。
数据的重要性就在于对决策的支持，数据的规模并不能决定其能否为决策提供帮助，数据的真实性和质量才是获得真知和思路最重要的因素，是制定成功决策最坚实的基础。
追求高数据质量是一项重要的大数据要求和挑战，即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性，例如，人的感情和诚实性、天气形势、经济因素以及未来
在处理这些类型的数据时，数据清理无法修正这种不确定性，然而，尽管存在不确定性，数据仍然包含宝贵的信息。我们必须承认、接受大数据的不确定性，并确定如何充分利用这-点，例如，采取数据融合，即通过结合多个可靠性较低的来源创建更准确、更有用的数据点，或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。
业界还有人把大数据的基本特征从4V扩展到了11V，包括价值密度低（Value）、可视化（Visualization）、有效性（Validity）等。例如，价值密度低是指随着物联网的广泛应用，信息感知无处不在，信息海量，但在连续不间断的视频监控过程中，可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值"提纯”，是大数据时代亟待解决的难题。
国际数据公司报告里有一句话，概括出了大数据基本特征之间的关系∶大数据技术通过使用高速的采集、发现或分析，从超大容量的多样数据中经济地提取价值（具体可查看马海祥博客《如何通过大数据来获取商业价值》的相关介绍）。
除了上述主流的定义，还有人使用3S或者3I描述大数据的特征。 3S指的是∶ 大小（Size）、速度（Speed）和结构（Structure）。 3I指的是∶
（1）、定义不明确的（I-de.ned）∶多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模，而随着技术的进步，数据分析的效率不断提高，符合大数据定义的数据规模也会相应不断变大，因而并没有一个明确的标准。
（2）、令人生畏的（Intimidating）∶从管理大数据到使用正确的工具获取它的价值，利用大数据的过程中充满了各种挑战。
（3）、即时的（Immediate）∶数据的价值会随着时间快速衰减，因此为了保证大数据的可控性，需要缩短数据搜集到获得数据洞察之间的时间，使得大数据成为真正的即时大数据，这意味着能尽快地分析数据对获得竞争优势至关重要。

两者之间的关系

大数据与云计算两者之间的关系：[11]

从商业的角度，云计算和大数据是现在企业走向数字化运营的两个核心。

云计算统一企业 IT 架构、业务架构和数据架构，不仅以集约化的方式承载业务，也收集业务数据。
云计算为大数据存储、快速处理和分析挖掘提供基础能力。
大数据处理能力可以作为云计算服务提供，丰富云计算平台的能力。
大数据分析可以产生预测能力、商业洞察，可以指导云平台建设（例如所谓的 AIOps，当然目前还有待提高）

[0]转自：https://www.zhihu.com/question/19877274
[1]APRANET：Advanced Research Project Agency Network，APRANET，为Internet 的前身
[2]最新：时间为2020年11月21日11:21:08
[3] Internet Data Center，简称IDC：是指一种拥有完善的设备（包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等）、专业化的管理、完善的应用的服务平台。在这个平台基础上，IDC服务商为客户提供互联网基础平台服务（服务器托管、虚拟主机、邮件缓存、虚拟邮件等）以及各种增值服务（场地的租用服务、域名系统服务、负载均衡系统、数据库系统、数据备份服务等）
[4] 美国国家标准与技术研究院（National Institute of Standards and Technology，NIST）直属美国商务部，从事物理、生物和工程方面的基础和应用研究，以及测量技术和测试方法方面的研究，提供标准、标准参考数据及有关服务，在国际上享有很高的声誉。
[5]内容来自维基百科[7]
[8]来自百家号：https://baijiahao.baidu.com/s?id=1636247330938128653&wfr=spider&for=pc
[9]来自知乎：https://zhuanlan.zhihu.com/p/57475298
[10]来自360：http://www.360doc.com/content/18/0319/17/52420492_738478905.shtml
[11]来自知乎：https://www.zhihu.com/question/31912565