文章目录

  • 说明
  • 分享
  • 大数据计算引擎
    • 批处理
      • MapReduce
      • tez
    • 流批处理
      • Flink
      • spark
  • 总结

说明

  • 本博客每周五更新一次。
  • 介绍过大数据平台的搭建、应用和存储,本期分享下大数据计算。

分享

  • 大数据博客列表

大数据计算引擎

  • 什么是计算引擎?

    • 计算引擎就是一种计算规则的高度抽象聚合体,使用者按照指定的方式编写对应接口代码,然后执行就能得到需要的结果(前提没有bug)。
  • 大数据计算场景分为两个种:批处理(历史文件)和流处理(实时数据)处理,日常看到计算引擎划分:
    • 第一代:批处理代表MapReduce
    • 第二代:流处理代表spark
    • 第三代:流批一体代表flink

批处理

MapReduce

  • 批处理最有名且流行最广的计算引擎是MapReduce,它是hadoop平台自带计算引擎,任务调度由yarn调度管理,是hive数据库默认计算引擎。
  • MapReduce会自动将计算任务拆分为map和reduce阶段,并分发到平台节点进行计算,最终汇聚结果并输出,由于每步计算过程,结果都会生成文件,所以该计算引擎非常稳定,缺点是执行速度较慢。
  • 由于MapReduce超强的稳定性,开放自由的接口开发框架,经历几代计算引擎变更,特定领域的地位依然稳定。

tez

  • hadoop2新增计算引擎,MapReduce是第二代,优化原有MapReduce框架结构,合并非必要计算过程,减少数据存储次数,执行时间大幅提升。
  • 实际工作中未接触到任何tez实现的代码开发实现,仅用作hive计算引擎,但它对特定sql解析有异常,日常与MapReduce互补使用。

流批处理

Flink

  • 这几年国内大数据行业爆火的流批一体计算引擎技术,该项目已被阿里收购,随着近几年国产化浪潮,它的呼声巨大。
  • 1.12版本流批计算接口合并,总体上流处理能力强。

spark

  • 与Flink同类软件,独有RDD能力,支持流批和机器学习计算,某些方面开创先河。
  • 实际使用中根据实际场景和Flink同时使用。

总结

  • 当前大数据计算主要使用以上引擎,没有绝对的谁好谁坏,在速度和稳定性、可维护性能达到要求,满足业务需要就好。

大数据(三)大数据计算引擎相关推荐

  1. 阿里云云原生数据湖体系全解读——数据湖 云原生计算引擎

    云原生背景介绍与思考 图是基于 ECS 底座的 EMR 架构, 这是一套非常完整的开源大数据生态, 也是近 10 年来每个数字化企业必不可少的开源大数据解决方案. 主要分为以下几层: ECS 物理资源 ...

  2. 云原生大数据架构中实时计算维表和结果表的选型实践

    简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽 来源 | 阿里技术公众号 一 前言 传统的大数据技术起源于 Google 三架马车 ...

  3. 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...

  4. 数据平台发展史-从数据仓库数据湖到数据湖仓

    数据平台发展史-从数据仓库数据湖到数据湖仓 做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...

  5. python数据预处理—数据清洗、数据集成、数据变换、数据归约

    进行数据分析时,需要预先把进入模型算法的数据进行数据预处理.一般我们接收到的数据很多都是"脏数据",里面可能包含缺失值.异常值.重复值等:同时有效标签或者特征需要进一步筛选,得到有 ...

  6. 4、MySQL——向数据表中插入数据,修改数据表中的数据,数据表删除操作

    目录 一.数据表插入操作:INSERT 1. 给表中的所有字段插入数据 2.给表中的个别字段插入数据 3.向数据表中批量插入多条数据 二.数据表修改操作:UPDATE 1.修改所有字段的数据 2.修改 ...

  7. 华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算

    阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...

  8. Apache Flink 为什么能够成为新一代大数据计算引擎?

    众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...

  9. 为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?

    导读:零基础入门Spark必读. 作者:朱凯 来源:大数据DT(ID:hzdashuju) 01 概述 十年前我们只有Hadoop,大家首先通过HDFS实现海量数据的共享存储,然后使用MapReduc ...

最新文章

  1. hdu4503 概率
  2. 微信小程序-01-项目组成文件介绍(入门篇)
  3. AnsroidStudio中提示:Failed to find configured root that contain
  4. php 固定人数拼手气_独立统计在线人数和访问数代码分享(php)
  5. mysql 批量替换 所有表_[收藏]批量替换一个数据库中所有表中所有记录
  6. python列表修改函数_python 禁止函数修改列表的实现方法
  7. 今天开始学opnet14.5
  8. android开发自定义选择器,创建自定义android选择器
  9. git操作本地仓库基本使用教程
  10. SQLite数据类型详解
  11. RDV需要什么服务器系统,锐起RDV的教程
  12. 视频教程-鼎捷易飞ERP视频教程-ERP
  13. java常用的排序方法
  14. linux拔掉网线ip仍然在,openwrt 实现网线的拔插能够释放IP和重新分配IP地址
  15. 戴尔公司大中华区总裁黄陈宏 要烧哪三把火
  16. Netflix最新视频优化实践:用更少的带宽打造完美画质
  17. PHP正则表达式基础必须掌握
  18. STC单片机 闪烁灯,LED流水灯 程序讲解
  19. base ring shell skirt skirt 压力容器_压力容器工程规定(2)
  20. Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes

热门文章

  1. C++搭建集群聊天室(四):工程统帅神器 Cmake,我爱死它了
  2. IE11浏览器无法加载iframe页面的解决方法
  3. oracle 执行语句显示2,Oracle执行语句跟踪(2)——使用10046事件实现语句追踪
  4. python如何连接数据库_python如何访问数据库
  5. element-ui页面$router.push(“xxx“)跳转后,导航菜单高亮 和 el-menu 传值
  6. 接触WebAR的心得
  7. php搭建后台 xampp_php软件开辟情况的搭建领导(xampp).doc
  8. Adobe illustrator画出CAD里面的剖面线效果
  9. D - HDU-2149-博弈
  10. 解决 CentOS 7 中时间快了 8 小时的问题