简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。

一、背景介绍

技术趋势

  • 存储与计算分离,向云原生演进
  • 在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率
  • 统一运维入口,统一运维工具链,统一监控体系
  • 以集群为中心->以作业为中心
  • 多版本支持,例如可以同时跑 Spark2.x、Spark3.x

云原生面临挑战

  • 计算与存储分离:如何构建以对象存储 OSS 为底座的 HCFS 文件系统

• 需要完全兼容现有的 HDFS

• 性能对标 HDFS,成本降低

  • 计算引擎 shuffle 数据存算分离:如何解决 ACK 混合异构机型

• 异构机型没有本地盘

• 社区[ Spark-25299]讨论,支持 Spark 动态资源,成为业界共识

  • ACK 调度能力:如何解决调度性能瓶颈

• 性能对标 Yarn

• 多级队列管理

  • 错峰调度

• 借助 K8s 操作系统能力,编排组织各种业务的波峰波谷

EMR on ACK 优势

  • Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案

• 可以使计算节点无需本地盘和云盘

• 支持打开 Spark 动态资源功能,Spark-25299 终极方案

  • JindoFS 针对 OSS 存储提供湖加速解决方案

• Block 模式1TB TPCDS 场景下有15%以上的性能提升

  • 调度层面支持 Scheduler Framework V2

• 调度性能比社区提升3x以上

• 提供多级队列管理

  • 引擎能力增强

• 10TB TPCDS Benchmark 场景下,EMR Spark 比社区有3x性能提升

• Hudi、DeltaLake 比社区功能性能增强

  • 完整的错峰调度方案

二、EMR 容器化架构

EMR on ACK 架构

  • 轻量化管控,对接已有数据平台
  • 通过数据开发集群/调度平台提交到不同的执行平台
  • 错峰调度,根据业务高峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • ACK 管理异构机型集群,灵活性好

三、产品介绍

产品首页

参考链接:https://www.aliyun.com/product/emapreduce

EMR on ACK Beta 版,前往体验>>

新建集群

  • 地域:目前开放杭州、上海、北京、深圳等地域(持续开放中)
  • 集群类型:Spark 、Shuffle Service、Presto
  • Spark — 通用的分布式大数据处理引擎

• 提供了 ETL、离线批处理、数据建模等能力

  • Shuffle Service — 针对 EMR 计算引擎提供优化的 Shuffle 服务

• 解决 Kubernetes 下对本地盘的依赖问题

• 解决大规模计算集群的网络和磁盘的 IO 瓶颈

• 支持计算与存储分离的架构,可服务多个 EMR 集群

  • Presto — 基于内存的分布式 SQL 交互式查询引擎

• 支持多种数据源

• 适合 PB 级海量数据的复杂分析,以及跨数据源的查询

  • 组件版本:Spark (3.1.1)
  • 专属节点:

• 现有 ACK 集群,share 部分节点给到 EMR

• 新建 ACK 集群,可选择整个集群为专属节点

  • OSS Bucket:用于存储作业、日志、jar 包等信息

集群管理

  • 集群 ID/名称:点击进入作业管理

  • 集群状态:检测集群是否可用
  • 所属 ACK 集群:可关联到现有 ACK 集群
  • 配置:Spark 作业配置
  • 释放:释放空间

原文链接
本文为阿里云原创内容,未经允许不得转载。

EMR on ACK 全新发布,助力企业高效构建大数据平台相关推荐

  1. 从0到1,云服务助力全民直播快速构建大数据平台

    随着业务的快速发展,全民直播如何应对来自技术与运营方面的挑战?6月7日,在上海世博中心,2018云栖大会·上海峰会阿里云支持与服务专场上,全民直播大数据架构师朱益发表主题演讲,详细介绍了从0到1,云服 ...

  2. 九次方企业征信大数据平台上线,欲打造征信业阿里巴巴

    阿里巴巴的伟大在于其用互联网改变了中国商品交易规则,今天九次方在利用大数据改变中国金融产品的交易规则. 九次方大数据执行总裁王叁寿的梦想就是通过大数据.互联网改变中国金融产品的交易规则,让天下的金融交 ...

  3. 红象云腾发布新一代PB级高速大数据平台产品

    ZD至顶网服务器频道 03月23日 新闻消息:在3月19日举办的China Hadoop Summit(中国Hadoop技术峰会)上,中国Hadoop大数据厂商红象云腾与OpenPOWER基金会共同发 ...

  4. 华为云灾备解决方案,助力企业高效构建安全合规云灾备系统

    随着云计算技术的高速发展,各种云服务层出不穷,企业对云服务的依赖程度也越来越高,对云端数据容量的需求也呈海量式增长,给云服务数据的安全性和可靠性带来新的挑战. 业务数据作为企业业务正常运行的基石,业务 ...

  5. hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议

    2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...

  6. 企业该怎么建立大数据平台?

    在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server.MySQL.Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对 ...

  7. 分享 | 企业大数据平台仓库架构建设思路

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...

  8. 企业大数据平台如何搭建?

    在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server.MySQL.Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对 ...

  9. 如何从0到1,构建企业大数据平台

    (一)企业大数据战略概述 我们只要分享一些基础的概念,让大家明白什么是大数据,大数据有哪4个特征,作为企业战略的实施者或执行者,我们要具备6大战略,概括起来就是4V特征,6大战略: 1.1 关于大数据 ...

最新文章

  1. AI 一分钟 | 南京大学成立人工智能研究院;三星关联实体已收购 AI 搜索引擎创业公司Kngine的全部股份
  2. 转: GridView:当鼠标滑过,行的背景颜色发生变化
  3. Mysql之主从复制及主主复制
  4. C语言DP备忘计算指数N的斐波那契级数的算法(附完整源码)
  5. 测试Servlet生命周期例子程序
  6. docker 安装kafka_laradock 中如何安装 Laravel Dusk
  7. sq服务启动后又停止_SQL SERVER SQL Agent  服务启动后又停止的解决办法
  8. PHP unicode与普通字符串的相互转化
  9. asp.mvc 基本知识
  10. 凤凰系统运行linux,把凤凰系统装进U盘里,打造PC上的可移动android系统
  11. 视频教程-安全策略(CCNA魔鬼训练营系列)-思科认证
  12. docker安装informix
  13. 【路径规划】A*三维全局路径规划(附Python实现源码)
  14. Jupyter Notebook与Pycharm代码连接Docker容器中的远程服务器运行
  15. java1.8新特性之stream流式算法
  16. 小红书种草模式有哪些?如何保证种草效果
  17. 前端面试题集锦——JavaScript
  18. flex实现自定义鼠标
  19. python可以ps吗_python-PS图片
  20. 2021高考数学成绩查询,吐血整理!2020高考数学评分细则参考,2021高考这样准备少丢分!...

热门文章

  1. Linux的实际操作:文件目录类的实用指令(touch cp)
  2. 透明大页相关内核参数_透明大内存页Hugepage支持
  3. js监听iframe关闭_Node.js文档NET[翻译]
  4. sqlserver mysql时间格式化_SqlServer时间格式化
  5. 鸿蒙系统打通iOS,库克真的做到了!正式官宣确认截胡鸿蒙OS系统:软硬件生态全打通...
  6. shell把mysql每句导出_shell实现,将mysql每个存储过程导出为单个文件_MySQL
  7. sap fiori导出列表到excel_介绍一种Fiori标准应用的增强方式
  8. mysql修改级联表数据_MySQL数据库 外键,级联, 修改表的操作
  9. can通道采样频率_CAN采样点设置为多少合适?设置不对会咋样?
  10. mybatis依赖_Spring Boot2 系列教程(二十一)整合 MyBatis