大数据(三)大数据计算引擎
文章目录
- 说明
- 分享
- 大数据计算引擎
- 批处理
- MapReduce
- tez
- 流批处理
- Flink
- spark
- 总结
说明
- 本博客每周五更新一次。
- 介绍过大数据平台的搭建、应用和存储,本期分享下大数据计算。
分享
- 大数据博客列表
大数据计算引擎
- 什么是计算引擎?
- 计算引擎就是一种计算规则的高度抽象聚合体,使用者按照指定的方式编写对应接口代码,然后执行就能得到需要的结果(前提没有bug)。
- 大数据计算场景分为两个种:批处理(历史文件)和流处理(实时数据)处理,日常看到计算引擎划分:
- 第一代:批处理代表MapReduce
- 第二代:流处理代表spark
- 第三代:流批一体代表flink
批处理
MapReduce
- 批处理最有名且流行最广的计算引擎是MapReduce,它是hadoop平台自带计算引擎,任务调度由yarn调度管理,是hive数据库默认计算引擎。
- MapReduce会自动将计算任务拆分为map和reduce阶段,并分发到平台节点进行计算,最终汇聚结果并输出,由于每步计算过程,结果都会生成文件,所以该计算引擎非常稳定,缺点是执行速度较慢。
- 由于MapReduce超强的稳定性,开放自由的接口开发框架,经历几代计算引擎变更,特定领域的地位依然稳定。
tez
- hadoop2新增计算引擎,MapReduce是第二代,优化原有MapReduce框架结构,合并非必要计算过程,减少数据存储次数,执行时间大幅提升。
- 实际工作中未接触到任何tez实现的代码开发实现,仅用作hive计算引擎,但它对特定sql解析有异常,日常与MapReduce互补使用。
流批处理
Flink
- 这几年国内大数据行业爆火的流批一体计算引擎技术,该项目已被阿里收购,随着近几年国产化浪潮,它的呼声巨大。
- 1.12版本流批计算接口合并,总体上流处理能力强。
spark
- 与Flink同类软件,独有RDD能力,支持流批和机器学习计算,某些方面开创先河。
- 实际使用中根据实际场景和Flink同时使用。
总结
- 当前大数据计算主要使用以上引擎,没有绝对的谁好谁坏,在速度和稳定性、可维护性能达到要求,满足业务需要就好。
大数据(三)大数据计算引擎相关推荐
- 阿里云云原生数据湖体系全解读——数据湖 云原生计算引擎
云原生背景介绍与思考 图是基于 ECS 底座的 EMR 架构, 这是一套非常完整的开源大数据生态, 也是近 10 年来每个数字化企业必不可少的开源大数据解决方案. 主要分为以下几层: ECS 物理资源 ...
- 云原生大数据架构中实时计算维表和结果表的选型实践
简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽 来源 | 阿里技术公众号 一 前言 传统的大数据技术起源于 Google 三架马车 ...
- 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!
点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...
- 数据平台发展史-从数据仓库数据湖到数据湖仓
数据平台发展史-从数据仓库数据湖到数据湖仓 做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...
- python数据预处理—数据清洗、数据集成、数据变换、数据归约
进行数据分析时,需要预先把进入模型算法的数据进行数据预处理.一般我们接收到的数据很多都是"脏数据",里面可能包含缺失值.异常值.重复值等:同时有效标签或者特征需要进一步筛选,得到有 ...
- 4、MySQL——向数据表中插入数据,修改数据表中的数据,数据表删除操作
目录 一.数据表插入操作:INSERT 1. 给表中的所有字段插入数据 2.给表中的个别字段插入数据 3.向数据表中批量插入多条数据 二.数据表修改操作:UPDATE 1.修改所有字段的数据 2.修改 ...
- 华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算
阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...
- Apache Flink 为什么能够成为新一代大数据计算引擎?
众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...
- 为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?
导读:零基础入门Spark必读. 作者:朱凯 来源:大数据DT(ID:hzdashuju) 01 概述 十年前我们只有Hadoop,大家首先通过HDFS实现海量数据的共享存储,然后使用MapReduc ...
最新文章
- hdu4503 概率
- 微信小程序-01-项目组成文件介绍(入门篇)
- AnsroidStudio中提示:Failed to find configured root that contain
- php 固定人数拼手气_独立统计在线人数和访问数代码分享(php)
- mysql 批量替换 所有表_[收藏]批量替换一个数据库中所有表中所有记录
- python列表修改函数_python 禁止函数修改列表的实现方法
- 今天开始学opnet14.5
- android开发自定义选择器,创建自定义android选择器
- git操作本地仓库基本使用教程
- SQLite数据类型详解
- RDV需要什么服务器系统,锐起RDV的教程
- 视频教程-鼎捷易飞ERP视频教程-ERP
- java常用的排序方法
- linux拔掉网线ip仍然在,openwrt 实现网线的拔插能够释放IP和重新分配IP地址
- 戴尔公司大中华区总裁黄陈宏 要烧哪三把火
- Netflix最新视频优化实践:用更少的带宽打造完美画质
- PHP正则表达式基础必须掌握
- STC单片机 闪烁灯,LED流水灯 程序讲解
- base ring shell skirt skirt 压力容器_压力容器工程规定(2)
- Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes
热门文章
- C++搭建集群聊天室(四):工程统帅神器 Cmake,我爱死它了
- IE11浏览器无法加载iframe页面的解决方法
- oracle 执行语句显示2,Oracle执行语句跟踪(2)——使用10046事件实现语句追踪
- python如何连接数据库_python如何访问数据库
- element-ui页面$router.push(“xxx“)跳转后,导航菜单高亮 和 el-menu 传值
- 接触WebAR的心得
- php搭建后台 xampp_php软件开辟情况的搭建领导(xampp).doc
- Adobe illustrator画出CAD里面的剖面线效果
- D - HDU-2149-博弈
- 解决 CentOS 7 中时间快了 8 小时的问题