EMR on ACK 全新发布,助力企业高效构建大数据平台
简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。
一、背景介绍
技术趋势
- 存储与计算分离,向云原生演进
- 在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率
- 统一运维入口,统一运维工具链,统一监控体系
- 以集群为中心->以作业为中心
- 多版本支持,例如可以同时跑 Spark2.x、Spark3.x
云原生面临挑战
- 计算与存储分离:如何构建以对象存储 OSS 为底座的 HCFS 文件系统
• 需要完全兼容现有的 HDFS
• 性能对标 HDFS,成本降低
- 计算引擎 shuffle 数据存算分离:如何解决 ACK 混合异构机型
• 异构机型没有本地盘
• 社区[ Spark-25299]讨论,支持 Spark 动态资源,成为业界共识
- ACK 调度能力:如何解决调度性能瓶颈
• 性能对标 Yarn
• 多级队列管理
- 错峰调度
• 借助 K8s 操作系统能力,编排组织各种业务的波峰波谷
EMR on ACK 优势
- Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案
• 可以使计算节点无需本地盘和云盘
• 支持打开 Spark 动态资源功能,Spark-25299 终极方案
- JindoFS 针对 OSS 存储提供湖加速解决方案
• Block 模式1TB TPCDS 场景下有15%以上的性能提升
- 调度层面支持 Scheduler Framework V2
• 调度性能比社区提升3x以上
• 提供多级队列管理
- 引擎能力增强
• 10TB TPCDS Benchmark 场景下,EMR Spark 比社区有3x性能提升
• Hudi、DeltaLake 比社区功能性能增强
- 完整的错峰调度方案
二、EMR 容器化架构
EMR on ACK 架构
- 轻量化管控,对接已有数据平台
- 通过数据开发集群/调度平台提交到不同的执行平台
- 错峰调度,根据业务高峰低峰策略调整
- 云原生数据湖架构,ACK 弹性扩缩容能力强
- ACK 管理异构机型集群,灵活性好
三、产品介绍
产品首页
参考链接:https://www.aliyun.com/product/emapreduce
EMR on ACK Beta 版,前往体验>>
新建集群
- 地域:目前开放杭州、上海、北京、深圳等地域(持续开放中)
- 集群类型:Spark 、Shuffle Service、Presto
- Spark — 通用的分布式大数据处理引擎
• 提供了 ETL、离线批处理、数据建模等能力
- Shuffle Service — 针对 EMR 计算引擎提供优化的 Shuffle 服务
• 解决 Kubernetes 下对本地盘的依赖问题
• 解决大规模计算集群的网络和磁盘的 IO 瓶颈
• 支持计算与存储分离的架构,可服务多个 EMR 集群
- Presto — 基于内存的分布式 SQL 交互式查询引擎
• 支持多种数据源
• 适合 PB 级海量数据的复杂分析,以及跨数据源的查询
- 组件版本:Spark (3.1.1)
- 专属节点:
• 现有 ACK 集群,share 部分节点给到 EMR
• 新建 ACK 集群,可选择整个集群为专属节点
- OSS Bucket:用于存储作业、日志、jar 包等信息
集群管理
- 集群 ID/名称:点击进入作业管理
- 集群状态:检测集群是否可用
- 所属 ACK 集群:可关联到现有 ACK 集群
- 配置:Spark 作业配置
- 释放:释放空间
原文链接
本文为阿里云原创内容,未经允许不得转载。
EMR on ACK 全新发布,助力企业高效构建大数据平台相关推荐
- 从0到1,云服务助力全民直播快速构建大数据平台
随着业务的快速发展,全民直播如何应对来自技术与运营方面的挑战?6月7日,在上海世博中心,2018云栖大会·上海峰会阿里云支持与服务专场上,全民直播大数据架构师朱益发表主题演讲,详细介绍了从0到1,云服 ...
- 九次方企业征信大数据平台上线,欲打造征信业阿里巴巴
阿里巴巴的伟大在于其用互联网改变了中国商品交易规则,今天九次方在利用大数据改变中国金融产品的交易规则. 九次方大数据执行总裁王叁寿的梦想就是通过大数据.互联网改变中国金融产品的交易规则,让天下的金融交 ...
- 红象云腾发布新一代PB级高速大数据平台产品
ZD至顶网服务器频道 03月23日 新闻消息:在3月19日举办的China Hadoop Summit(中国Hadoop技术峰会)上,中国Hadoop大数据厂商红象云腾与OpenPOWER基金会共同发 ...
- 华为云灾备解决方案,助力企业高效构建安全合规云灾备系统
随着云计算技术的高速发展,各种云服务层出不穷,企业对云服务的依赖程度也越来越高,对云端数据容量的需求也呈海量式增长,给云服务数据的安全性和可靠性带来新的挑战. 业务数据作为企业业务正常运行的基石,业务 ...
- hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议
2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...
- 企业该怎么建立大数据平台?
在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server.MySQL.Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对 ...
- 分享 | 企业大数据平台仓库架构建设思路
本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...
- 企业大数据平台如何搭建?
在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server.MySQL.Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对 ...
- 如何从0到1,构建企业大数据平台
(一)企业大数据战略概述 我们只要分享一些基础的概念,让大家明白什么是大数据,大数据有哪4个特征,作为企业战略的实施者或执行者,我们要具备6大战略,概括起来就是4V特征,6大战略: 1.1 关于大数据 ...
最新文章
- AI 一分钟 | 南京大学成立人工智能研究院;三星关联实体已收购 AI 搜索引擎创业公司Kngine的全部股份
- 转: GridView:当鼠标滑过,行的背景颜色发生变化
- Mysql之主从复制及主主复制
- C语言DP备忘计算指数N的斐波那契级数的算法(附完整源码)
- 测试Servlet生命周期例子程序
- docker 安装kafka_laradock 中如何安装 Laravel Dusk
- sq服务启动后又停止_SQL SERVER SQL Agent 服务启动后又停止的解决办法
- PHP unicode与普通字符串的相互转化
- asp.mvc 基本知识
- 凤凰系统运行linux,把凤凰系统装进U盘里,打造PC上的可移动android系统
- 视频教程-安全策略(CCNA魔鬼训练营系列)-思科认证
- docker安装informix
- 【路径规划】A*三维全局路径规划(附Python实现源码)
- Jupyter Notebook与Pycharm代码连接Docker容器中的远程服务器运行
- java1.8新特性之stream流式算法
- 小红书种草模式有哪些?如何保证种草效果
- 前端面试题集锦——JavaScript
- flex实现自定义鼠标
- python可以ps吗_python-PS图片
- 2021高考数学成绩查询,吐血整理!2020高考数学评分细则参考,2021高考这样准备少丢分!...
热门文章
- Linux的实际操作:文件目录类的实用指令(touch cp)
- 透明大页相关内核参数_透明大内存页Hugepage支持
- js监听iframe关闭_Node.js文档NET[翻译]
- sqlserver mysql时间格式化_SqlServer时间格式化
- 鸿蒙系统打通iOS,库克真的做到了!正式官宣确认截胡鸿蒙OS系统:软硬件生态全打通...
- shell把mysql每句导出_shell实现,将mysql每个存储过程导出为单个文件_MySQL
- sap fiori导出列表到excel_介绍一种Fiori标准应用的增强方式
- mysql修改级联表数据_MySQL数据库 外键,级联, 修改表的操作
- can通道采样频率_CAN采样点设置为多少合适?设置不对会咋样?
- mybatis依赖_Spring Boot2 系列教程(二十一)整合 MyBatis