说明

本博客每周五更新一次。
介绍过大数据平台的搭建、应用和存储，本期分享下大数据计算。

大数据博客列表

大数据计算引擎

什么是计算引擎？
- 计算引擎就是一种计算规则的高度抽象聚合体，使用者按照指定的方式编写对应接口代码，然后执行就能得到需要的结果（前提没有bug）。
大数据计算场景分为两个种：批处理（历史文件）和流处理（实时数据）处理，日常看到计算引擎划分：
- 第一代：批处理代表MapReduce
- 第二代：流处理代表spark
- 第三代：流批一体代表flink

批处理

MapReduce

批处理最有名且流行最广的计算引擎是MapReduce，它是hadoop平台自带计算引擎，任务调度由yarn调度管理，是hive数据库默认计算引擎。
MapReduce会自动将计算任务拆分为map和reduce阶段，并分发到平台节点进行计算，最终汇聚结果并输出，由于每步计算过程，结果都会生成文件，所以该计算引擎非常稳定，缺点是执行速度较慢。
由于MapReduce超强的稳定性，开放自由的接口开发框架，经历几代计算引擎变更，特定领域的地位依然稳定。

tez

hadoop2新增计算引擎，MapReduce是第二代，优化原有MapReduce框架结构，合并非必要计算过程，减少数据存储次数，执行时间大幅提升。
实际工作中未接触到任何tez实现的代码开发实现，仅用作hive计算引擎，但它对特定sql解析有异常，日常与MapReduce互补使用。

流批处理

Flink

这几年国内大数据行业爆火的流批一体计算引擎技术，该项目已被阿里收购，随着近几年国产化浪潮，它的呼声巨大。
1.12版本流批计算接口合并，总体上流处理能力强。

spark

与Flink同类软件，独有RDD能力，支持流批和机器学习计算，某些方面开创先河。
实际使用中根据实际场景和Flink同时使用。

总结

当前大数据计算主要使用以上引擎，没有绝对的谁好谁坏，在速度和稳定性、可维护性能达到要求，满足业务需要就好。

大数据（三）大数据计算引擎相关推荐

阿里云云原生数据湖体系全解读——数据湖云原生计算引擎
云原生背景介绍与思考图是基于 ECS 底座的 EMR 架构, 这是一套非常完整的开源大数据生态, 也是近 10 年来每个数字化企业必不可少的开源大数据解决方案. 主要分为以下几层: ECS 物理资源 ...
云原生大数据架构中实时计算维表和结果表的选型实践
简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽来源 | 阿里技术公众号一前言传统的大数据技术起源于 Google 三架马车 ...
震惊！这篇文章解读数据仓库、数据湖、数据中台等概念，竟然写了4万字！
点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通系列文章如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...
数据平台发展史-从数据仓库数据湖到数据湖仓
数据平台发展史-从数据仓库数据湖到数据湖仓做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...
python数据预处理—数据清洗、数据集成、数据变换、数据归约
进行数据分析时,需要预先把进入模型算法的数据进行数据预处理.一般我们接收到的数据很多都是"脏数据",里面可能包含缺失值.异常值.重复值等:同时有效标签或者特征需要进一步筛选,得到有 ...
4、MySQL——向数据表中插入数据，修改数据表中的数据，数据表删除操作
目录一.数据表插入操作:INSERT 1. 给表中的所有字段插入数据 2.给表中的个别字段插入数据 3.向数据表中批量插入多条数据二.数据表修改操作:UPDATE 1.修改所有字段的数据 2.修改 ...
华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算
阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...
Apache Flink 为什么能够成为新一代大数据计算引擎？
众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...
为什么Spark能成为最火的大数据计算引擎？它是怎样工作的？
导读:零基础入门Spark必读. 作者:朱凯来源:大数据DT(ID:hzdashuju) 01 概述十年前我们只有Hadoop,大家首先通过HDFS实现海量数据的共享存储,然后使用MapReduc ...

大数据（三）大数据计算引擎

文章目录

说明

分享

大数据计算引擎

批处理

MapReduce

tez

流批处理

Flink

spark

总结

大数据（三）大数据计算引擎相关推荐

最新文章

热门文章