学习某一项技术,一定要了解它的来龙去脉,才能把握到它的本质以及它的未来。

一、大数据技术发展史:大数据的前世今生

在2004年,Google前后发表了三篇论文,即大数据技术的“三驾马车”:分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。分别是一个文件系统、一个计算框架和一个数据库系统。其本质思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算这样就不需要追求单个服务器的性能了。

Doug Cutting阅读论文后在自己的产品上实现了GFS、MapReduce的功能,后面在2006年将这些大数据技术分离出来作为一个单独的技术,这就是Hadoop,包括了分布式文件系统HDFS和大数据计算引擎MapReduce。(PS:Hadoop的代码都是一些最基础的JAVA代码,理应要去研读掌握)

Yahoo很快运用起了Hadoop,这时发现用MapReduce进行大数据编程太麻烦了,于是开发了类SQL的Pig。后面在2010年Facebook又发布了Hive,其支持SQL语法进行大数据计算(可以把SQL语句转化为MapReduce程序)。

随后Hadoop周边产品开始出现,大数据生态体系渐成:专门将关系数据库中的数据导入导出到 Hadoop 平台的 Sqoop;针对大规模日志进行分布式收集、聚合和传输的 Flume;MapReduce 工作流调度引擎 Oozie 等。

在Hadoop早期,MapReduce既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理就是由MapReduce完成,这显得太臃肿,于是在2012年有了一个新项目Yarn,把MapReduce两个功能分离出一个,现在,Yarn成为了大数据平台上最主流的资源调度系统

同在2012年,伯克利AMP实验室的马铁博士发现MapReduce进行机器学习的性能很差,因为机器学习要迭代很多次,但MapReduce每执行一次计算都要重启一次作业,于是开发了Spark,后面逐渐替代了MapReduce。

像MapReduce、Spark这类计算框架都被称作批处理计算,又被称为大数据离线计算。但还有另一类应用场景,如何城市监控等,这时候就有了Storm、Flink、Spark Streaming大数据流计算框架,流计算又称作大数据实时计算。其中Flink同时支持批处理计算和流式计算、

除了大数据批处理和流处理,NoSQL系统主要处理的也是大规模海量数据的存储与访问,所以也被归为大数据技术。在2011年,涌现出HBase、Cassandra等优秀产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

此外,大数据要存入分布式文件系统(HDFS),要有序调度 MapReduce 和 Spark 作业执行,并能把执行结果写入到各个应用系统的数据库中,还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。因此大数据技术体系如下图所示:

图1

二、大数据应用发展史:从搜索引擎到人工智能

搜索引擎时代 (代表产品:Hadoop) ==> 数据仓库时代(代表产品:Hive) ==> 数据挖掘时代==>机器学习时代


三、参考文献

李智慧,极客时间《从0开始学习大数据》1-3讲

大数据技术(1):大数据发展脉络相关推荐

  1. 【云计算与大数据技术】大数据概念和发展背景讲解(图文解释 超详细)

    一.什么是大数据 大数据是一个不断发展的概念,可以指任何体量或负载下那个超出常规数据处理方法和处理能力的数据,数据本身可以是结构化,半结构化甚至是非结构化的,随着物联网技术与可穿戴设备的飞速发展,数据 ...

  2. 后Hadoop时代的大数据技术思考:数据即服务

    1. Hadoop 的神话正在破灭 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced th ...

  3. 大数据是什么和大数据技术十大核心原理详解

     一.数据核心原理   从"流程"核心转变为"数据"核心   大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据&quo ...

  4. 大数据技术十大核心原理

    一.数据核心原理--从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心 ...

  5. 数据科学与大数据技术和大数据管理与应用哪个好

    学计算机学与技术好还是学大数据好? 本人认为学大数据好一些.首先,当前计算机科学与技术和大数据这两个专业的热度都比较高,这两个专业本身也没有所谓的好坏之分,而且这两个专业本身也有非常紧密的联系,当前计 ...

  6. 大数据技术十大核心原理 1

    文章目录 1.数据核心原理:从"流程"核心转变为"数据"核心 2.数据价值原理:有功能是价值转变为数据是价值 3.全样本原理:从抽样转变为需要全部数据样本 4. ...

  7. 大数据技术十大核心原理详解

    一.数据核心原理--从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心 ...

  8. mongodb的delete_大数据技术之MongoDB数据删除

    本篇文章探讨了大数据技术之MongoDB数据删除,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. 1.查看集合 show collections 2.向集合中添加数据 db.ru ...

  9. 01大数据技术之大数据概论

    01大数据技术之大数据概论(老师:尚硅谷) 文章目录 01大数据技术之大数据概论(老师:尚硅谷) 第1章 大数据概念 第2章 大数据特点(4V) 第3章 大数据应用场景 第4章 大数据发展前景(202 ...

  10. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

最新文章

  1. Unity 字典实现
  2. SVN中如何去除版本控制器
  3. 数据行业工作3年,我靠这7个能力,成为领导青睐的高级数据分析师
  4. 第二期冲刺站立会议个人博客6(2016/5/30)
  5. yolov5-detect.py解析与重写
  6. 2006中国最令人失望的十所大学
  7. 简述 IntentFilter(意图过滤器)
  8. [终极精简版][图解]Nginx搭建flv mp4流媒体服务器
  9. springboot 使用spring security
  10. 多变量微积分笔记19——直角坐标系和柱坐标系下的三重积分
  11. 电信机顶盒服务器信息,几个步骤 教会你用电信机顶盒网络设置教程!
  12. 小米4android8.0root,小米小米 5X(安卓8.0)手机完美获取root教程,最强root工具,亲测可用!...
  13. TX4223芯鼎盛PWM开关型DC-DC转换驱动器DCDC升压恒压芯片开关电源IC
  14. linux-arm下如何开启tftp传输,linux-arm间tftp命令的安装、使用
  15. activator java_Activator常用方法
  16. 12306购票流程分析
  17. 这 10 条河,「贡献」了全球 95% 的海洋塑料污染
  18. matlab 加节点,添加图节点名称、边权重和其他属性
  19. linux 系统cpu查看
  20. oracle青蛙工具,要对Oracle数据库进行远程管理,可以采用的工具是( )。

热门文章

  1. 自己动手学TCP/IP--ICMP(ping报文)
  2. HttpWebRequest和HttpWebResponse
  3. 科技爱好者周刊(第 212 期):人生不短
  4. 常见的Altium操作
  5. 合泰HT32F52352 USART串口与电脑通信控制LED
  6. Windows下IDEA 快捷键(自用)
  7. 【信息系统项目管理师】第十五章 知识产权与法律法规(考点汇总篇)
  8. Ubuntu设置屏幕分辨率
  9. Excel表格的密码设置与取消
  10. Number Game(数字游戏)